ارائه روشی برای استخراج اطلاعات ساختار یافته محدود به دامنه از صفحات وب فارسی
استخراج اطلاعات ساختاریافته از متون وب یکی از وظایف اصلی در حوزه وب کاوی، پردازش زبان طبیعی و استخراج اطلاعات است. در سال های اخیر، روش های مختلفی برای استخراج اطلاعات ساختاریافته از متون انگلیسی وب ارایه شده است. اغلب روش های موجود برای استخراج اطلاعات در مورد انواع موجودیت ها، به یک آنتولوژی از پیش تعریف شده نیاز دارند که شامل دانش کامل در مورد موجودیت ها و خصلت های آن ها است. مشکل اصلی این روش ها عدم توانایی آن ها در استخراج اطلاعات موجودیت هایی است که مشخصات آن ها از قبل در آنتولوژی تعریف نشده اند. در این پژوهش، روش جدیدی برای استخراج خودکار اطلاعات ساختاریافته محدود به دامنه از متون فارسی صفحات وب ارایه شده است که نیازی به دانش پیش زمینه در مورد موجودیت ها و خصلت های آن ها ندارد. روش پیشنهادی شامل سه مولفه پیش پردازش، تحلیل معنایی و نگاشت قاب است. تمرکز اصلی روش پیشنهادی به افزودن اطلاعات معنایی به گزاره های مسند آرگومان و استخراج اطلاعات معنادار و محدود به دامنه از گزاره ها معطوف شده است. اطلاعات استخراج شده در این روش، هم ساختاریافته بوده و هم به مدخل های آنتولوژی عمومی DBPedia نگاشت شده اند، به نحوی که پردازش آن ها به وسیله ماشین به سهولت انجام می شود. برای ارزیابی روش پیشنهادی، یک مجموعه داده کوچک در زبان فارسی ایجاد شده است و روش پیشنهادی و سایر روش ها بر روی این مجموعه داده مورد ارزیابی قرار گرفته اند. نتایج آزمایش ها برتری روش پیشنهادی را در مقایسه با سایر روش ها برحسب برخی از معیارهای کارایی نشان می دهد.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.