بررسی تکنیک های بهبود عملکردروش های بسامدشماری پیکره بنیاد دراستخراج خودکار واژگان مورد مطالعه: (واژگان پایه علوم پزشکی)

پیام:
نوع مقاله:
مطالعه موردی (دارای رتبه معتبر)
چکیده:

امروزه شاهد گسترش استفاده از روش های پیکره بنیاد در زبان شناسی هستیم. پژوهش حاضر به بررسی تکنیک های  بهبود عملکرد روش های  بسامد شماری در زبان فارسی و با منظور دستیابی به رویه علمی جهت استخراج خودکار واژگان پایه علوم پزشکی انجام پذیرفته است.استفاده از روش های  آماری در کنار ابزار زبانشناسی پیکره ای (روش های استخراج خودکار ترکیبی)جهت استخراج خودکار واژگان در تعدادی از زبانهای دنیا همچون انگلیسی ،فرانسه،ژاپنی و کره ای طی چند دهه اخیر بسیار رایج بوده است ، حال آنکه در زبان فارسی این روش ها تا کنون به صورت جدی مورد استفاده قرارگرفته نشده اند و اغلب استخراج ها در زبان فارسی به روش سنتی انجام گرفته اند. ضمن آنکه بکار گیری این روش ها در هر زبانی متفاوت است و در هر زبان با توجه به ویژگیهای زبانشاختی آن زبان برون داد روش های آماری متفاوت است. از این رو باید مطابق با ویژگیهای هر زبان در این روش ها تغییراتی اعمال کرد تا در نهایت بتوان به روشی جهت استخراج خودکار واژگان دست یافت.جهت نیل به این هدف در زبان فارسی، از خانواده مدل های بسامد شماری با رویکردهای بسامد شماری پیکره عمومی، بسامد شماری پیکره اختصاصی و روش های بهبودیافته آن ها استفاده شده است. بسامدشماری به کار رفته در پژوهش، برپایه پردازش اطلاعات واژگان در دو پیکره اصلی و اختصاصی که محقق آنرا ایجاد کرده است و از این پس آنرا پیکره محقق ساخته می نامیم، صورت گرفته است . پیکره محقق ساخته شامل متون درس زیست شناسی دوره اول تا چهارم دبیرستان، متون درس علوم دوم و سوم راهنمایی، متون تدریس شده در مرکزآموزش زبان فارسی امام خمینی قزوین، مجلات و مقالات حوزه پزشکی عمومی و پیکره عمومی مورد استفاده ، پیکره روزنامه همشهری (نسخه دوم) می باشد. نتایج بدست آمده نشان می دهد که قابلیت استفاده از روش های بسامد شماری پیکره بنیاد در زبان فارسی برای دست یافتن به شیوه ای واحد در استخراج خودکار واژگان  وجود دارد.شیوه آتی که به یقین می تواند گامی موثر در تهیه و تدوین متون آموزشی زبان فارسی و گسترش آموزش این زبان به شمار آید.  از عمده ترین مشکلات استفاد از روش های ساده، جداسازی واژگان پرتکرار همچون حروف ربط را می توان برشمرد. از این رو جهت بالابردن توان مدل با اعمال روش هایی می توان روش های اولیه را بهبود بخشید. مشاهده می شود که روش بسامدشماری بهبود یافته در پیکره اختصاصی از سایر روش ها عملکرد بهتری داشته و تا 60 درصد واژگان تخصصی را در 50 واژه پر بسامد شناسایی می نماید. از سوی دیگر مشاهده می گردد که با افزایش دامنه واژگان مورد بررسی در پژوهش از 50 به 100، 150 و 200 دقت مدل ها افزایش یافته و  درصد واژگان تخصصی انتخاب شده به ثبات می رسد.

زبان:
فارسی
صفحات:
1039 تا 1064
لینک کوتاه:
magiran.com/p2160190 
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.
In order to view content subscription is required

Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!