ارائه روشی برای استخراج اطلاعات ساختار یافته محدود به دامنه از صفحات وب فارسی

نویسنده:

حجت امامی*

پیام:

نوع مقاله:

مقاله پژوهشی/اصیل (دارای رتبه معتبر)

چکیده:

استخراج اطلاعات ساختاریافته از متون وب یکی از وظایف اصلی در حوزه وب کاوی، پردازش زبان طبیعی و استخراج اطلاعات است. در سال های اخیر، روش های مختلفی برای استخراج اطلاعات ساختاریافته از متون انگلیسی وب ارایه شده است. اغلب روش های موجود برای استخراج اطلاعات در مورد انواع موجودیت ها، به یک آنتولوژی از پیش تعریف شده نیاز دارند که شامل دانش کامل در مورد موجودیت ها و خصلت های آن ها است. مشکل اصلی این روش ها عدم توانایی آن ها در استخراج اطلاعات موجودیت هایی است که مشخصات آن ها از قبل در آنتولوژی تعریف نشده اند. در این پژوهش، روش جدیدی برای استخراج خودکار اطلاعات ساختاریافته محدود به دامنه از متون فارسی صفحات وب ارایه شده است که نیازی به دانش پیش زمینه در مورد موجودیت ها و خصلت های آن ها ندارد. روش پیشنهادی شامل سه مولفه پیش پردازش، تحلیل معنایی و نگاشت قاب است. تمرکز اصلی روش پیشنهادی به افزودن اطلاعات معنایی به گزاره های مسند آرگومان و استخراج اطلاعات معنادار و محدود به دامنه از گزاره ها معطوف شده است. اطلاعات استخراج شده در این روش، هم ساختاریافته بوده و هم به مدخل های آنتولوژی عمومی DBPedia نگاشت شده اند، به نحوی که پردازش آن ها به وسیله ماشین به سهولت انجام می شود. برای ارزیابی روش پیشنهادی، یک مجموعه داده کوچک در زبان فارسی ایجاد شده است و روش پیشنهادی و سایر روش ها بر روی این مجموعه داده مورد ارزیابی قرار گرفته اند. نتایج آزمایش ها برتری روش پیشنهادی را در مقایسه با سایر روش ها برحسب برخی از معیارهای کارایی نشان می دهد.

کلیدواژگان:

وب کاوی ، استخراج اطلاعات ، پردازش زبان طبیعی ، آنتولوژی ، اطلاعات ساختاریافته محدود به دامنه

زبان:

فارسی

انتشار در:

فصلنامه پردازش علائم و داده ها، سال نوزدهم شماره 2 (پیاپی 52، تابستان 1401)

صفحات:

133 تا 146

لینک کوتاه:

magiran.com/p2491242

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

فصلنامه پردازش علائم و داده ها

Signal and Data Processing

فصلنامه فنی مهندسی

آخرین شماره | آرشیو

ISSN: 2538-4201 eISSN: 2538-421X

صاحب امتیاز:

پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی

مدیر مسئول:

دکتر جواد شیخ زادگان

سردبیر:

دکتر محمدحسن قاسمیان

تلفن نشریه: ۰۲۱-۸۳۸۵۷۶۰۵

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله

به جمع مشترکان مگیران بپیوندید!

ارائه روشی برای استخراج اطلاعات ساختار یافته محدود به دامنه از صفحات وب فارسی

حجت امامی*

وب کاوی ، استخراج اطلاعات ، پردازش زبان طبیعی ، آنتولوژی ، اطلاعات ساختاریافته محدود به دامنه

فصلنامه پردازش علائم و داده ها

Signal and Data Processing