خوشه بندی فراابتکاری اسناد فارسی اکس ام ال مبتنی بر شباهت ساختاری و محتوایی

نویسنده:

علی مرادی ، اسدالله شاه بهرامی ، رضا ابراهیمی آتانی ، مهران علیدوست نیا

چکیده:

با توجه به رشد فزاینده ی تعداد اسناد XML، سازماندهی موثر این اسناد به منظور بازیابی اطلاعات مفید از آنها ضروری می باشد. یک راه حل امکان پذیر، انجام خوشه بندی بر روی اسناد XML به منظور کشف دانش است. مسئله کلیدی در خوشه بندی اسناد XML این است که چگونه می توان شباهت بین اسناد XML را اندازه گیری کرد. استفاده از روش های متداول خوشه بندی اسناد متنی که اطلاعات محتوایی را برای اندازه گیری شباهت سند بکار می گیرند، باعث می شود اطلاعات ساختاری موجود در اسناد XML نادیده گرفته شود. در این مقاله، مدل جدیدی با نام مدل فضای ماتریسی برای بازنمایی هر دو ویژگی ساختاری و محتوایی داده ها در اسناد XML، پیشنهاد می شود. بر اساس این مدل، معیار شباهت جاکارد را تعریف و در نهایت از الگوریتم رقابت استعماری برای خوشه بندی اسناد XML استفاده می شود. نتایج تجربی نشان می دهد که مدل پیشنهادی و تابع نزدیکی معرفی شده در شناسایی اسناد مشابه که دارای اطلاعات ساختاری و محتوایی یکسان هستند، موثر است. این روش می تواند به منظور بهبود دقت خوشه بندی و افزایش بهره وری در بازیابی اطلاعات XML مورد استفاده قرار گیرد.

کلیدواژگان:

خوشه بندی ، زبان فارسی ، الگوریتم رقابت استعماری ، پردازش زبان طبیعی و بازیابی اطلاعات

زبان:

فارسی

انتشار در:

فصلنامه پردازش علائم و داده ها، سال سیزدهم شماره 2 (پیاپی 28، تابستان 1395)

صفحات:

11 تا 23

لینک کوتاه:

magiran.com/p1582905

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

فصلنامه پردازش علائم و داده ها

Signal and Data Processing

فصلنامه فنی مهندسی

آخرین شماره | آرشیو

ISSN: 2538-4201 eISSN: 2538-421X

صاحب امتیاز:

پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی

مدیر مسئول:

دکتر جواد شیخ زادگان

سردبیر:

دکتر محمدحسن قاسمیان

تلفن نشریه: ۰۲۱-۸۳۸۵۷۶۰۵

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله

سامانه نویسندگان

نویسنده (3)

ابراهیمی آتانی، رضا

دانشیار گروه مهندسی کامپیوتر، دانشگاه گیلان

اطلاعات نویسنده(گان) توسط ایشان ثبت و تکمیل شده‌است. برای مشاهده مشخصات و فهرست همه مطالب، صفحه رزومه را ببینید.

به جمع مشترکان مگیران بپیوندید!

خوشه بندی فراابتکاری اسناد فارسی اکس ام ال مبتنی بر شباهت ساختاری و محتوایی

علی مرادی ، اسدالله شاه بهرامی ، رضا ابراهیمی آتانی ، مهران علیدوست نیا

خوشه بندی ، زبان فارسی ، الگوریتم رقابت استعماری ، پردازش زبان طبیعی و بازیابی اطلاعات

فصلنامه پردازش علائم و داده ها

Signal and Data Processing