دسته بندی کلمات جهت استفاده در ساخت مدل زبانی آماری برای زبان فارسی

چکیده:
مدل های زبانی آماری در سیستم های بازشناسی گفتار، استفاده گسترده ای دارند. محاسبه پارامتر های مدل های زبانی از نوع n-تایی کلمات که از پرکاربردترین این مدل ها هستند، در مواقعی که واژگان سیستم بسیار بزرگ است، دچار مشکل کمبود حجم پیکره متنی، که پارامتر های مدل از روی آن محاسبه می شوند، می گردند که تنکی یا پراکندگی پیکره نامیده می شود. یک روش حل این مشکل، استفاده از مدل زبانی «n-تایی کلمات از نوع دسته بندی شده» است که مستلزم ایجاد یک سیستم دسته بندی خودکار کلمات می باشد. در این مقاله، روش هایی را برای این گونه دسته بندی کلمات فارسی بررسی و پیاده سازی نموده ایم که می توانند در ساخت مدل زبانی فارسی از نوع دسته بندی شده، مورد استفاده واقع شوند؛ همچنین تعدادی از مهم ترین آنها جهت دسته بندی کلمات فارسی پیاده سازی و آزمایش شده اند. اولین روش پیاده سازی شده از معیار متوسط اطلاعات متقابل و یک آلگوریتم عملکرد پایین به بالا استفاده می نماید و با عنوان روش براون معروف است. دومین روش از معیار کاهش سرگشتگی و آلگوریتم جابه جایی استفاده می کند و توسط مارتین معرفی شده است. در این جا، این دو روش را با یکدیگر ترکیب کرده و به نتایج بهتری رسیدیم؛ سپس روش سومی را که از معیار شباهت آماری بین کلمات و یک آلگوریتم پایین به بالا برای دسته بندی استفاده می کند، پیاده سازی نمودیم. نتایج حاصل از انجام هرکدام از روش ها با محاسبه عدد سرگشتگی بر روی دادگان متن تست، ارزیابی و با یکدیگر مقایسه شده اند. بعد از شناسایی نقاط ضعف و قوت روش های فوق، دو روش اصلاحی پیشنهاد گردیده اند که نتایج قابل توجهی را ارائه می دهند. در روش اصلاحی اول، نقطه شروع آلگوریتم براون با استفاده از معیار شباهت آماری کلمات اصلاح می شود و عدد سرگشتگی پایین تری نسبت به روش براون حاصل می شود. در دومین روش اصلاحی، ترکیبی از آلگوریتم جابجایی و روش براون و یک حد آستانه برای تصدیق ترکیب دسته ها پیشنهاد شده است که به سرگشتگی کمتری روی دادگان تست، نسبت به روش براون، منجر می گردد و در ضمن قابلیت یافتن خودکار تعداد دسته نهایی را هم دارد که برتری مهمی نسبت به بسیاری از روش های خودکار دسته بندی کلمات است.
زبان:
فارسی
در صفحه:
37
لینک کوتاه:
magiran.com/p883435 
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.
In order to view content subscription is required

Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!