استخراج کلمات و عبارات کلیدی از متون فارسی(مروری بر پژوهش های صورت گرفته)
استخراج کلمات/ عبارات کلیدی متن، پیشنیاز بسیاری دیگر از وظایف حوزه پردازش زبان طبیعی است. اما بررسی متون فارسی و انگلیسی این حوزه نشان می دهد، تلاشهای انگشتشماری برای استخراج کلمات/ عبارات کلیدی از متون فارسی صورت گرفته است. لذا، این مقاله، با هدف تعیین موقعیت کنونی پردازش زبان طبیعی فارسی و بهطور خاص استخراج کلمات/ عبارات کلیدی از متون فارسی، به مرور خلاصهای از مقالات فارسی و انگلیسی منتشرشده در این حوزه که از متون فارسی برای آزمودن ایدههایشان استفاده کردهاند، میپردازد؛ سپس هر مقاله را از نظر روششناسی، نحوه اجرا و پیادهسازی، روش ارزیابی و معیارهای آن مورد تعمق قرار داده و به چالش میکشد.در مجموع 14 مقاله فارسی و 6 مقاله انگلیسی به استخراج کلمات و عبارات کلیدی از متون فارسی پرداخته اند. روش بیشتر این مقالات، استفاده از اطلاعات آماری و زبانشناختی بوده است. اکثر این مقالات یا در روششناسی انتخاب شده ایراد دارند و یا نویسندگان نتوانسته اند ایده پیشنهادیشان را به وضوح برای خواننده تبیین نمایند. در بسیاری از مقالات، از مجموعه داده استانداردی برای ارزیابی سیستم استفاده نشده و نحوه محاسبه معیارهای ارزیابی مبهم یا دارای اشکال است.در مجموع، به جز 3 مقاله که روش اجراشده را به نحو نسبتا قابلقبولی گزارش کردهاند، سایر مقالات قابلیت تکرارپذیری و تعمیم ندارند. لذا نمیتوان از آنها به عنوان معیار پایهای برای ارزیابی سیستمهای آینده استفاده کرد یا از ایده مطرح شده در آنها با اطمینان در ساخت و توسعه نرمافزارهای کاربردی و عملی در حوزه استخراج کلمات کلیدی استفاده نمود.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.