سیستم شناسایی و طبقه بندی اسامی در متون فارسی

چکیده:
یک سیستم شناسایی و طبقه بندی اسامی، سیستمی است که می تواند یک یا چند نوع از اسامی را در متن شناسایی و طبقه بندی کند این اسامی می توانند اسامی اشخاص، ارگان ها، شرکت ها، اسامی مکان ها (کشور، شهر، خیابان و مانند آن) اسامی زمان (تاریخ و ساعت) مقادیر مالی، درصدها و مانند آن باشد. هر چند که در دهه اخیر کارهای زیادی بر روی سیستم های شناسایی و طبقه بندی اسامی در زبان های مختلف و دامنه های مختلف انجام شده است، اما در زبان فارسی، با توجه به عدم وجود یک مجموعه داده کامل به همراه برچسب های غنی، تاکنون سیستمی برای طبقه بندی اسامی ایجاد نشده است. در این پژوهش از مجموعه داده پژوهشکده پردازش هوشمند علائم استفاده شده است. روش کار بدین صورت است که در ابتدا الگوریتم پیش پردازش اسامی را با استفاده از برچسب دستوری کلمات از داده ها جدا شده و سپس مصدر ها، اسامی زمان، اسامی شمارشی، اعداد را هم از مجموعه داده حذف می کند. این کار باعث می شود تا حجم طبقات در داده های آموزشی متوازن تر گردد؛ در استخراج ویژگی از تابع N-gramاستفاده شده است. پس از استخراج ویژگی، سیستم را با چهار طبقه بندی کننده خطی، بیزین، نزدیک ترین همسایگی و شبکه عصبی آموزش می دهیم. عدم تنوع در اسامی زمان و هم چنین عدم اختلاط و یا اختلاط کم این اسامی با اسامی طبقات دیگر، این امکان را فراهم می کند تا بتوان با استفاده از یک سیستم مبتنی بر حافظه، اسامی زمان را در یک متن شناسایی کرد. با استفاده از شبکه عصبی نتایج بسیار مناسبی در جداسازی اسامی مکان و افراد از بقیه اسامی به دست آمده است (99%) و طبقه بندی کننده KNN و طبقه بندی کننده خطی به طور میانگین اسامی مکان و افراد و اسامی عمومی طبقه بندی مقدار 91 % بر اساس معیار F-measure به دست آمده است. در طبقه بندی اسامی زمان با استفاده از یک فهرست کمکی مقدار 96 % بر اساس معیار F-measure به دست آمده است.
زبان:
فارسی
در صفحه:
77
لینک کوتاه:
magiran.com/p896174 
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.
In order to view content subscription is required

Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!