شناسایی واحدهای اسمی در زبان عربی
پردازش زبانها و مکالمات طبیعی، یکی از اموری است که با ورود فناوری رایانهای به زندگی بشر، مورد توجه بسیاری از دانشمندان قرار گرفته است. حتی اندیشهای که تورینگ از ماشین هوشمند خود و تعریفی که او از هوش مصنوعی داشت، در مرحله اول مربوط به پردازش زبانهای طبیعی میشد. تلاشهای زیادی برای پیگیری این امر صورت گرفت؛ به عنوان مثال، یکی از نتایج قابل توجه این تلاشها ماشین «الیزا» بود که با تایپ از راه دور با یک انسان، جملات او را پردازش نموده و جوابی درخور آن ارسال مینمود. پردازش زبان طبیعی، یکی از عرصههای مهم در علم هوش مصنوعی است. مفاهیم و مباحث مطرح در پردازش زبان طبیعی به شرح ذیل است: 1. آواشناسی و واجشناسی (phonology and phonetics)؛ 2. تحلیل لغوی (lexical analysis)؛ 3. تحلیل ساختواژی (morphology)؛ 4. تجزیه نحوی (syntax)؛ 5. پردازش معنایی (semantics)؛ 6. تحلیل کاربردشناسی (pragmatics)؛ 7. تحلیل گفتمان (discourse) . بر همین مبنا، الگوریتمهای بسیاری برای رسیدن به برنامههایی هوشمندتر توسط دانشمندان و متخصصان علوم رایانه، زبانشناسی و ریاضیدانان، طراحی و پیشنهاد شده است؛ به عنوان مثال، میتوان به الگوریتمهای مدل مارکوف و مدل مخفی مارکوف و نیز تلاشهای چندین ساله نوام چامسکی اشاره نمود. با توجه به ضرورت فعالیت در عرصه پردازش محاسباتی زبان و گسترش تلاشهای محققان، روزبهروز بر این پیشرفتها افزوده میشود و پژوهشگران در سراسر دنیا سعی در بهبود و پیادهسازی این روشها در زبانهای بومی خود دارند. افزایش چشمگیر اطلاعات در اشکال مختلف، مانند: منابع اینترنتی، روزنامهها، کتب و... لزوم استخراج و ساماندهی دادهها را بیش از پیش نمایان میسازد. یکی از 2 مهمترین مشکلات در سیستمهای استخراج اطلاعات (IE)، شناسایی و سازماندهی واحدهای اطلاعاتی است. سیستمهای IE، به دو گروه اصلی: نگرشهای دانش مهندسی (که عموما از سیستمهای نقشمحور استفاده میکنند) و نگرشهای یادگیری ماشینی تقسیم میشوند. در این نگرشها از فهرست اسامی جهت کمک به شناسایی واحدهای اسمی (1) (NE) استفاده میشود. البته سیستمهای نقشمحور معمولا بیش از سیستمهای یادگیری ماشینی، به این فهرستهای اسامی متکی هستند. چنین فهرستهایی، نه تنها شامل مدخلهای جغرافیایی از قبیل: نام شهرها، کشورها و غیرهاند، بلکه نام افراد (بهویژه نام کوچک)، سازمانهای بزرگ، ماههای سال، روزهای هفته، اعداد را نیز در بر میگیرند. در حال حاضر، کار شناسایی واحدهای اسمی به طور گستردهای استفاده میشود و نقش بسیار مهمی در حوزههای مختلف پردازش زبان بهخصوص در سیستم پاسخ به سوال، خلاصهسازی متون، بازیابی اطلاعات، سیستم استخراج و ترجمه ماشینی دارد. واحدهای اسمی (NE)، ماهیتی است که نامگذاری آن بر اساس اطلاق نام خاص مانند: شخص (جعفر)، سازمان (مرکز تحقیقات کامپیوتری)، مکان (قم)، واحد پولی (ریال)، تاریخ (10 ذی حجه)، اعداد (1389) و... صورت میپذیرد. شناسایی واحدهای اسمی (NER)، فرآیند شناسایی واحدهای اسمی در متون مختلف همچون: متون اینترنتی، روزنامه و... میباشد. در دهههای اخیر تلاشهای فراوانی صورت گرفته است تا عملکرد و شناسایی واحدهای اسمی بهبود یابد. وظیفه فرآیند شناسایی واحدهای اسمی، جمعآوری فهرست اسامی یک متن است که با بسیاری از چالشهای زبان عربی از قبیل املاء صحیح، پیچیدگی و ابهام زبان سر و کار دارد. در این مقاله، پس از مقدمهای که در بالا ذکر شد، به بررسی پیشینه کار شناسایی واحدهای اسمی پرداخته، سپس به ساختار اسم در زبان عربی و مشکلات شناسایی آن میپردازیم. در بخش بعد، به روشهای شناسایی واحدهای اسمی و در نهایت، به نتیجهگیری از مباحث مطروحه خواهیم پرداخت.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.