استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word2vec

نویسنده:

امید حاجی پور ، سعیده سادات سدیدپور*

پیام:

نوع مقاله:

مقاله پژوهشی/اصیل (دارای رتبه معتبر)

چکیده:

با رشد روز افزون اسناد و متون الکترونیکی به زبان فارسی، به کارگیری روش هایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری می یابد. برای رسیدن به این هدف، استخراج کلمات کلیدی که بیانگر مضمون اصلی متن باشند، روشی بسیار موثر است. تعداد تکرار یک کلمه در متن نمی تواند نشان دهنده اهمیت یک کلمه و کلیدی بودن آن باشد. همچنین در اکثر روش های استخراج کلمات کلیدی مفهوم و معنای متن نادیده گرفته می شوند. از طرفی دیگر بدون ساختار بودن متون جدید در اخبار و اسناد الکترونیکی، استخراج این کلمات را مشکل می سازد. در این مقاله روشی بدون نظارت و خودکار برای استخراج این کلمات در زبان فارسی که دارای ساختار مناسبی نمی باشد، پیشنهاد شده است که نه تنها احتمال رخ دادن کلمه در متن و تعداد تکرار آن را در نظر می گیرد، بلکه با آموزش مدل word2vec روی متن، مفهوم و معنای متن را نیز درک می کند. در روش پیشنهادی که روشی ترکیبی از دو مدل آماری و یادگیری ماشین می باشد، پس از آموزش word2vec روی متن، کلماتی که با سایر کلمات دارای فاصله کمی بوده استخراج شده و سپس با استفاده از هم رخدادی و فرکانس رابطه ای آماری برای محاسبه امتیاز پیشنهاد شده است. درنهایت با استفاده از حدآستانه کلمات با امتیاز بالاتر به عنوان کلمه کلیدی در نظر گرفته می شوند. ارزیابی ها بیانگر کارایی روش با معیار F برابر 53.92% و با 11% افزایش نسبت به دیگر روش های استخراج کلمات کلیدی می باشد.

کلیدواژگان:

استخراج کلمات کلیدی ، زبان فارسی ، متن کاوی ، شباهت کلمات ، word2vec

زبان:

فارسی

انتشار در:

فصلنامه پدافند الکترونیکی و سایبری، سال هشتم شماره 2 (پیاپی 30، تابستان 1399)

صفحات:

105 تا 114

لینک کوتاه:

magiran.com/p2190958

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

فصلنامه پدافند الکترونیکی و سایبری

Journal of Electronic and Cyber Defense

فصلنامه فنی مهندسی

آخرین شماره | آرشیو

ISSN: 2322-4347

صاحب امتیاز:

دانشگاه جامع امام حسین ع

مدیر مسئول:

یعقوب قانع قره باغ

سردبیر:

دکتر محمدرضا حسنی آهنگر

تلفن نشریه: ۰۲۱-۷۴۱۸۹۱۹۳

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله

به جمع مشترکان مگیران بپیوندید!

استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word2vec

امید حاجی پور ، سعیده سادات سدیدپور*

استخراج کلمات کلیدی ، زبان فارسی ، متن کاوی ، شباهت کلمات ، word2vec

فصلنامه پدافند الکترونیکی و سایبری

Journal of Electronic and Cyber Defense