استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word2vec
با رشد روز افزون اسناد و متون الکترونیکی به زبان فارسی، به کارگیری روش هایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری می یابد. برای رسیدن به این هدف، استخراج کلمات کلیدی که بیانگر مضمون اصلی متن باشند، روشی بسیار موثر است. تعداد تکرار یک کلمه در متن نمی تواند نشان دهنده اهمیت یک کلمه و کلیدی بودن آن باشد. همچنین در اکثر روش های استخراج کلمات کلیدی مفهوم و معنای متن نادیده گرفته می شوند. از طرفی دیگر بدون ساختار بودن متون جدید در اخبار و اسناد الکترونیکی، استخراج این کلمات را مشکل می سازد. در این مقاله روشی بدون نظارت و خودکار برای استخراج این کلمات در زبان فارسی که دارای ساختار مناسبی نمی باشد، پیشنهاد شده است که نه تنها احتمال رخ دادن کلمه در متن و تعداد تکرار آن را در نظر می گیرد، بلکه با آموزش مدل word2vec روی متن، مفهوم و معنای متن را نیز درک می کند. در روش پیشنهادی که روشی ترکیبی از دو مدل آماری و یادگیری ماشین می باشد، پس از آموزش word2vec روی متن، کلماتی که با سایر کلمات دارای فاصله کمی بوده استخراج شده و سپس با استفاده از هم رخدادی و فرکانس رابطه ای آماری برای محاسبه امتیاز پیشنهاد شده است. درنهایت با استفاده از حدآستانه کلمات با امتیاز بالاتر به عنوان کلمه کلیدی در نظر گرفته می شوند. ارزیابی ها بیانگر کارایی روش با معیار F برابر 53.92% و با 11% افزایش نسبت به دیگر روش های استخراج کلمات کلیدی می باشد.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.