بررسی تکنیک های بهبود عملکردروش های بسامدشماری پیکره بنیاد دراستخراج خودکار واژگان مورد مطالعه: (واژگان پایه علوم پزشکی)

پیام:
چکیده:

امروزه شاهد گسترش استفاده از روش های پیکره بنیاد در زبان شناسی هستیم. پژوهش حاضر به بررسی تکنیک های  بهبود عملکرد روش های  بسامد شماری در زبان فارسی و با منظور دستیابی به رویه علمی جهت استخراج خودکار واژگان پایه علوم پزشکی انجام پذیرفته است.استفاده از روش های  آماری در کنار ابزار زبانشناسی پیکره ای (روش های استخراج خودکار ترکیبی)جهت استخراج خودکار واژگان در تعدادی از زبانهای دنیا همچون انگلیسی ،فرانسه،ژاپنی و کره ای طی چند دهه اخیر بسیار رایج بوده است ، حال آنکه در زبان فارسی این روش ها تا کنون به صورت جدی مورد استفاده قرارگرفته نشده اند و اغلب استخراج ها در زبان فارسی به روش سنتی انجام گرفته اند. ضمن آنکه بکار گیری این روش ها در هر زبانی متفاوت است و در هر زبان با توجه به ویژگیهای زبانشاختی آن زبان برون داد روش های آماری متفاوت است. از این رو باید مطابق با ویژگیهای هر زبان در این روش ها تغییراتی اعمال کرد تا در نهایت بتوان به روشی جهت استخراج خودکار واژگان دست یافت.جهت نیل به این هدف در زبان فارسی، از خانواده مدل های بسامد شماری با رویکردهای بسامد شماری پیکره عمومی، بسامد شماری پیکره اختصاصی و روش های بهبودیافته آن ها استفاده شده است. بسامدشماری به کار رفته در پژوهش، برپایه پردازش اطلاعات واژگان در دو پیکره اصلی و اختصاصی که محقق آنرا ایجاد کرده است و از این پس آنرا پیکره محقق ساخته می نامیم، صورت گرفته است . پیکره محقق ساخته شامل متون درس زیست شناسی دوره اول تا چهارم دبیرستان، متون درس علوم دوم و سوم راهنمایی، متون تدریس شده در مرکزآموزش زبان فارسی امام خمینی قزوین، مجلات و مقالات حوزه پزشکی عمومی و پیکره عمومی مورد استفاده ، پیکره روزنامه همشهری (نسخه دوم) می باشد. نتایج بدست آمده نشان می دهد که قابلیت استفاده از روش های بسامد شماری پیکره بنیاد در زبان فارسی برای دست یافتن به شیوه ای واحد در استخراج خودکار واژگان  وجود دارد.شیوه آتی که به یقین می تواند گامی موثر در تهیه و تدوین متون آموزشی زبان فارسی و گسترش آموزش این زبان به شمار آید.  از عمده ترین مشکلات استفاد از روش های ساده، جداسازی واژگان پرتکرار همچون حروف ربط را می توان برشمرد. از این رو جهت بالابردن توان مدل با اعمال روش هایی می توان روش های اولیه را بهبود بخشید. مشاهده می شود که روش بسامدشماری بهبود یافته در پیکره اختصاصی از سایر روش ها عملکرد بهتری داشته و تا 60 درصد واژگان تخصصی را در 50 واژه پر بسامد شناسایی می نماید. از سوی دیگر مشاهده می گردد که با افزایش دامنه واژگان مورد بررسی در پژوهش از 50 به 100، 150 و 200 دقت مدل ها افزایش یافته و  درصد واژگان تخصصی انتخاب شده به ثبات می رسد.

نوع مقاله:
مطالعه موردی
زبان:
فارسی
صفحات:
1039 -1064
لینک کوتاه:
magiran.com/p2160190 
برخی از خدمات از جمله دانلود متن مقالات تنها به مشترکان مگیران ارایه می‌گردد. شما می‌توانید به یکی از روش‌های زیر مشترک شوید:
اشتراک شخصی
در سایت عضو شوید و هزینه اشتراک یک‌ساله سایت به مبلغ 400,000ريال را پرداخت کنید. همزمان با برقراری دوره اشتراک بسته دانلود 100 مطلب نیز برای شما فعال خواهد شد!
پرداخت با کارتهای اعتباری بین المللی از طریق PayPal امکانپذیر است.
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی همه کاربران به متن مطالب خریداری نمایند!
توجه!
  • دسترسی به متن مقالات این پایگاه در قالب ارایه خدمات کتابخانه دیجیتال و با دریافت حق عضویت صورت می‌گیرد و مگیران بهایی برای هر مقاله تعیین نکرده و وجهی بابت آن دریافت نمی‌کند.
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.