شناسایی واحدهای اسمی در زبان عربی

نویسنده:

بهروز مینایی ، محمدرضا وفایی

پیام:

چکیده:

پردازش زبان‌ها و مکالمات طبیعی، یکی از اموری است که با ورود فناوری رایانه‌ای به زندگی بشر، مورد توجه بسیاری از دانشمندان قرار گرفته است. حتی اندیشه‌ای که تورینگ از ماشین هوشمند خود و تعریفی که او از هوش مصنوعی داشت، در مرحله اول مربوط به پردازش زبان‌های طبیعی می‌شد. تلاش‌های زیادی برای پیگیری این امر صورت گرفت؛ به عنوان مثال، یکی از نتایج قابل توجه این تلاش‌ها ماشین «الیزا» بود که با تایپ از راه دور با یک انسان، جملات او را پردازش نموده و جوابی درخور آن ارسال می‌نمود. پردازش زبان طبیعی، یکی از عرصه‌های مهم در علم هوش مصنوعی است. مفاهیم و مباحث مطرح در پردازش زبان طبیعی به شرح ذیل است: 1. آواشناسی و واج‌شناسی (phonology and phonetics)؛ 2. تحلیل لغوی (lexical analysis)؛ 3. تحلیل ساختواژی (morphology)؛ 4. تجزیه نحوی (syntax)؛ 5. پردازش معنایی (semantics)؛ 6. تحلیل کاربردشناسی (pragmatics)؛ 7. تحلیل گفتمان (discourse) . بر همین مبنا، الگوریتم‌های بسیاری برای رسیدن به برنامه‌هایی هوشمندتر توسط دانشمندان و متخصصان علوم رایانه، زبان‌شناسی و ریاضیدانان، طراحی و پیشنهاد شده است؛ به عنوان مثال، می‌توان به الگوریتم‌های مدل مارکوف و مدل مخفی مارکوف و نیز تلاش‌های چندین ساله نوام چامسکی اشاره نمود. با توجه به ضرورت فعالیت در عرصه پردازش محاسباتی زبان و گسترش تلاش‌های محققان، روزبه‌روز بر این پیشرفت‌ها افزوده می‌شود و پژوهشگران در سراسر دنیا سعی در بهبود و پیاده‌سازی این روش‌ها در زبان‌های بومی خود دارند. افزایش چشمگیر اطلاعات در اشکال مختلف، مانند: منابع اینترنتی، روزنامه‌ها، کتب و... لزوم استخراج و ساماندهی داده‌ها را بیش از پیش نمایان می‌سازد. یکی از 2 مهم‌ترین مشکلات در سیستم‌های استخراج اطلاعات (IE)، شناسایی و سازماندهی واحدهای اطلاعاتی است. سیستم‌های IE، به دو گروه اصلی: نگرش‌های دانش مهندسی (که عموما از سیستم‌های نقش‌محور استفاده می‌کنند) و نگرش‌های یادگیری ماشینی تقسیم می‌شوند. در این نگرش‌ها از فهرست اسامی جهت کمک به شناسایی واحدهای اسمی (1) (NE) استفاده می‌شود. البته سیستم‌های نقش‌محور معمولا بیش از سیستم‌های یادگیری ماشینی، به این فهرست‌های اسامی متکی هستند. چنین فهرست‌هایی، نه تنها شامل مدخل‌های جغرافیایی از قبیل: نام شهرها، کشورها و غیره‌اند، بلکه نام افراد (به‌ویژه نام کوچک)، سازمان‌های بزرگ، ماه‌های سال، روزهای هفته، اعداد را نیز در بر می‌گیرند. در حال حاضر، کار شناسایی واحد‌های اسمی به طور گسترده‌ای استفاده می‌شود و نقش بسیار مهمی در حوزه‌های مختلف پردازش زبان به‌خصوص در سیستم پاسخ به سوال، خلاصه‌سازی متون، بازیابی اطلاعات، سیستم استخراج و ترجمه ماشینی دارد. واحدهای اسمی (NE)، ماهیتی است که نامگذاری آن بر اساس اطلاق نام خاص مانند: شخص (جعفر)، سازمان (مرکز تحقیقات کامپیوتری)، مکان (قم)، واحد پولی (ریال)، تاریخ (10 ذی حجه)، اعداد (1389) و... صورت می‌پذیرد. شناسایی واحدهای اسمی (NER)، فرآیند شناسایی واحدهای اسمی در متون مختلف همچون: متون اینترنتی، روزنامه و... می‌باشد. در دهه‌های اخیر تلاش‌های فراوانی صورت گرفته است تا عملکرد و شناسایی واحدهای اسمی بهبود یابد. وظیفه فرآیند شناسایی واحدهای اسمی، جمع‌آوری فهرست اسامی یک متن است که با بسیاری از چالش‌های زبان عربی از قبیل املاء صحیح، پیچیدگی و ابهام زبان سر و کار دارد. در این مقاله، پس از مقدمه‌ای که در بالا ذکر شد، به بررسی پیشینه کار شناسایی واحدهای اسمی پرداخته، سپس به ساختار اسم در زبان عربی و مشکلات شناسایی آن می‌پردازیم. در بخش بعد، به روش‌های شناسایی واحدهای اسمی و در نهایت، به نتیجه‌گیری از مباحث مطروحه خواهیم پرداخت.

زبان:

فارسی

انتشار در:

فصلنامه ره آورد نور، سال دهم شماره 34 (پیاپی 51، بهار 1390)

در صفحه:

لینک کوتاه:

magiran.com/p863676

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

فصلنامه ره آورد نور

فصلنامه اطلاع رسانی, آموزشی و مطالعات رایانه ای علوم اسلامی

آخرین شماره | آرشیو

صاحب امتیاز:

مرکز تحقیقات کامپیوتری علوم اسلامی

مدیر مسئول:

دکتر حمید شهریاری

سردبیر:

محمدمهدی نمازی

تلفن نشریه: ۰۲۵-۳۲۱۲۰۲۱۲

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه راهنمای نویسندگان

به جمع مشترکان مگیران بپیوندید!

شناسایی واحدهای اسمی در زبان عربی

بهروز مینایی ، محمدرضا وفایی

فصلنامه ره آورد نور