تولید پیکره برچسب خورده واحدساز زبان فارسی با درنظر گرفتن ملاحظات زبان شناسی رایانشی آن
متون نگاشته شده فارسی به طورمعمول دو مشکل ساده، ولی مهم دارند. مشکل نخست واژه های چندواحدی هستند که از اتصال یک واژه به واژه های بعدی حاصل می شوند. مشکل دیگر واحدهای چندواژه ای هستند که از جداشدگی واژه هایی که با هم یک واحد واژگانی را تشکیل می دهند، حاصل می شوند. ابزار واحدساز در زبان فارسی که به عنوان یکی از ابزارهای پیش پردازش زبان است، کاربرد فراوانی در تجزیه و تحلیل متون داشته و باید بتواند واحدهای واژگانی را تشخیص دهد. به عبارتی، این ابزار، مرکز کلمات را در متون تشخیص داده و آن را به دنباله ای از کلمات به منظور تحلیل های بعدی تبدیل می کند. تنوع در رسم الخط فارسی و عدم رعایت قوانین جدانویسی و پیوسته نویسی کلمات از یک سو و پیچیدگی های واژگانی زبان فارسی از سویی دیگر فرایندهای مختلف پردازشی زبان از جمله واحدسازی را با چالش های بسیاری روبه رو می کند؛ لذا برای عملکرد بهینه این ابزار، لازم است ابتدا ملاحظات زبان شناسی رایانشی واحدسازی در زبان فارسی مشخص و سپس بر اساس این ملاحظات مجموعه داده ای برای آموزش و آزمایش آن فراهم شد. در این مقاله سعی شد ضمن تبیین ملاحظات یاد شده، به تهیه پیکره ای در این خصوص بپردازیم. پیکره تهیه شده شامل 183/21 کلمه و متوسط طول جملات 28/40 است.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.