خلاصه سازی خودکار متن مبتنی بر قدرت بازسازی جملات از روی همدیگر در یک بازسازی تنک
رشد سریع و پیوسته شبکه جهانی وب باعث شده است فرآیند استخراج اطلاعات مفید با حجم کمینه، از میان مجموعه ی اسناد بزرگ چالش جدی این روزها باشد. خلاصه سازی اسناد برای انسان امری بسیار زمان بر و دشوار است، ولذا نیاز به یک سیستم خلاصه سازی قدرتمند را برای کاهش حجم متون و همچنین سرعت بالاتر دسترسی به اطلاعات مفید را آشکار می کند. اخیرا سیستم خلاصه سازی مبتنی بر رویکرد نمایش تنک ارایه شده است که سعی بر آن دارد تا هر جمله را با ترکیب خطی از جملات دیگر به صورت تنک بازسازی کند. در این رویکرد زیر مجموعه ای از جملات متن اصلی که حاوی اطلاعات مهم متن می باشد را انتخاب کرده و به عنوان خلاصه به خروجی می فرستد. همچنین نیاز است کم ترین تعداد از جملات متن که حداکثر بازسازی سایر جملات متن را داشته باشد انتخاب شود، که استفاده از رویکرد نمایش تنک این هدف محقق می کند. این مدل از یک تابع جریمه مبتنی بر نرم L2 برای کنترل بازسازی جملات و یک عامل منظم ساز تنک مبتنی بر نرم یک تشکیل شده است. تابع بازسازی بر اساس نرمL2 سبب می شود که تمام کلمات کلیدی نقش مساوی در بازسازی جملات داشته باشند که این امر ممکن است باعث شود کلمات پرت نتیجه خلاصه سازی را عوض کنند. بنابراین برای بهبود کیفیت خلاصه به دست آمده در این مقاله تابع جریمه را با نرم L1 بازنویسی می کنیم. این امر باعث می شود تا میزان خطای متفاوتی برای هر کدام از کلمات در بازسازی جملات اختصاص یابد که موجب کمتر شدن حساسیت روش به کلمات پرت می شود. نتایج پیاده سازی نشان می دهند که روش پیشنهادی نسبت به روش های قبلی خلاصه ای سریع و با کیفیت بالا بر مبنای معیارهای ROUGE [1] وF-measure ارایه می دهد.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.