پیما: پیکره برچسب خورده موجودیت های اسمی زبان فارسی

پیام:
نوع مقاله:
مقاله پژوهشی/اصیل (دارای رتبه معتبر)
چکیده:
هدف در مساله تشخیص موجودیت های اسمی، رده بندی اسامی خاص متن با برچسب هایی همچون شخص، مکان، و سازمان است. این مساله به عنوان یکی از گام های پیش پردازشی بسیاری از مسائل پردازش زبان طبیعی مطرح است. اگر چه در زبان انگلیسی پژوهش های زیادی در این حوزه انجام شده و سامانه ها به کیفیت F1 بالای نود درصد دست یافته اند، در زبان فارسی به دلیل نبود یک مجموعه داده استاندارد، پژوهش های کمی در این زمینه انجام شده است. در این پژوهش به ساخت چنین مجموعه داده ای می پردازیم و آن را به صورت آزاد در اختیار پژوهش گران قرار می دهیم؛ سپس با استفاده از این مجموعه داده به طراحی سامانه آماری با استفاده از مدل میدان های تصادفی شرطی و نیز سامانه ای مبتنی بر شبکه های عصبی بازگشتی از نوع LSTM برای تشخیص موجودیت های اسمی می پردازیم. در پیکره ایجاد شده هفت نوع موجودیت شخص، مکان، سازمان، زمان، تاریخ، درصد، و مقادیر پولی برچسب خورده اند و در نتیجه تمام ارزیابی های سامانه طراحی شده بر روی این هفت برچسب انجام می گیرد. برای طراحی این سامانه، پس از آموزش یک سامانه آماری مبتنی بر الگوریتم CRF،  از خروجی این سامانه به عنوان یک ویژگی برای آموزش یک شبکه عصبی بازگشتی LSTM دوطرفه استفاده می کنیم. علاوه بر این ویژگی، از خوشه بندی واژگان به روش k- means نیز بهره می بریم. برای این کار، شماره خوشه واژگان را به عنوان یک ویژگی در اختیار شبکه عصبی LSTM قرار می دهیم و به این ترتیب سامانه ترکیبی نهایی ساخته می شود. این شیوه ترکیب مدل CRF با مدل شبکه عصبی و نیز استفاده از شماره خوشه برای هر واژه در روش خوشه بندی k-means نوآوری این پژوهش محسوب می شود. نتایج آزمایش ها نشان می دهد که با استفاده از مدل نهایی به F1 برابر با 87 درصد در سطح واژه و هشتاد درصد در سطح عبارت موجودیت اسمی می رسیم. همچنین آزمایش ها نشان می دهد که روش پیشنهادی برای استفاده از خروجی مدل CRF به عنوان یک ویژگی در ورودی مدل شبکه عصبی باعث می شود که با در اختیار داشتن حجم کمتری از داده برچسب خورده به کیفیت قابل قبولی در تشخیص موجودیت های اسمی برسیم که این مساله می تواند در زبان هایی که حجم داده برچسب خورده آن ها محدود است، مفید باشد.
زبان:
فارسی
صفحات:
91 تا 110
لینک کوتاه:
magiran.com/p2003598 
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.
دسترسی سراسری کاربران دانشگاه پیام نور!
اعضای هیئت علمی و دانشجویان دانشگاه پیام نور در سراسر کشور، در صورت ثبت نام با ایمیل دانشگاهی، تا پایان فروردین ماه 1403 به مقالات سایت دسترسی خواهند داشت!
In order to view content subscription is required

Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!