ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی

چکیده:
دادگان متنی و از آن جمله متون خبری از حوزه های مهم بازیابی اطلاعات به شمار می رود و استخراج اطلاعات از آن ها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت می گیرد. در این پژوهش، راهکاری سه مرحله ای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوه های زبان شناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتا جامعی از شیوه های آماری ارائه می شود. همچنین، یک مجموعه داده خبری و لیستی از عبارات توقفی خبری ایجاد می گردد. در پژوهش حاضر، با توجه به ویژگی های دادگان، از دسته بند جنگل تصادفی استفاده و عملکرد خوب آن به کمک نتایج آزمایش ها ثابت می شود. به علاوه، استفاده از امتیاز تعلق گرفته به عبارات توسط دسته بند، جهت ایجاد لیستی مرتب از عبارات برای دسته بندی، به جای استفاده ازخروجی دسته بند، پیشنهاد می شود. نتایج، نشان دهنده دقت قابل قبول سیستم ارائه شده است.
زبان:
فارسی
صفحات:
857 تا 866
لینک کوتاه:
magiran.com/p1734396 
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.
دسترسی سراسری کاربران دانشگاه پیام نور!
اعضای هیئت علمی و دانشجویان دانشگاه پیام نور در سراسر کشور، در صورت ثبت نام با ایمیل دانشگاهی، تا پایان فروردین ماه 1403 به مقالات سایت دسترسی خواهند داشت!
In order to view content subscription is required

Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!