خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

نویسنده:

مریم امیری ، حسن ختن لو

پیام:

چکیده:

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با توجه به اینکه کلمات کلیدی مختلف می توانند برای توصیف یک مفهوم استفاده شوند، این سیستم ها می توانند نتایج نادرست و ناقصی را ایجاد نمایند. همچنین روابط معنایی ممکن است بین کلمات موجود باشد که شناسایی آنها نیاز به استخراج دانش دامنه مورد نظر دارد. مهمترین گام ها در خوشه بندی اسناد نحوه ی نمایش اسناد و معیار اندازه گیری شباهت بین آنها است. این تحقیق بر بهبود کارایی خوشه بندی اسناد تمرکز دارد. الگوریتم خوشه بندی اسناد در سه گام پیشنهاد شده است: نمایش اسناد، اندازه گیری شباهت بین اسناد، سیستم استنتاج فازی به منظور اندازه گیری شباهت نهایی بین اسناد. در نهایت پس از انجام این سه گام، با استفاده از الگوریتم خوشه بندی پایین به بالا خوشه بندی اسناد صورت می پذیرد. در گام اول، اسناد بر اساس دانش دامنه به صورت یک گراف آنتولوژی نمایش داده می شوند. این روش بر خلاف روش مبتنی بر کلمات کلیدی، بر مفاهیم دامنه استوار می باشد و یک سند را بر اساس مفاهیم موجود در آن، به صورت زیرگرافی از آنتولوژی دامنه نمایش می دهد. مفاهیم استخراج شده گره های گراف را تشکیل می دهند. برای هر گره با توجه به فرکانس مفهوم، وزن محاسبه می گردد. روابط موجود بین مفاهیم سند، یال های گراف و میزان این ارتباط اوزان یال ها را مشخص می نماید. در گام دوم برای هر سند بر اساس نمایش گرافی استخراج شده از مرحله ی اول، مفاهیم کلی و جزئی و یال های اصلی مشخص می گردند. شباهت بین هر جفت از اسناد در سه مقدار و بر اساس این سه عامل محاسبه می شود. در گام سوم سیستم استنتاج فازی با سه ورودی و یک خروجی طراحی شده است. ورودی ها مفاهیم کلی، مفاهیم جزئی و یال های اصلی می باشند و خروجی میزان شباهت بین دو سند است. مجموعه ای از قوانین فازی برای موتور استنتاج فازی در نظر گرفته شده است که بر اساس سه شباهت ورودی مقدار شباهت نهایی را تخمین می زند. در نهایت بر اساس ماتریس شباهت اسناد، الگوریتم خوشه بندی سلسله مراتبی پایین به بالا به منظور خوشه بندی اسناد اعمال می گردد. برای ارزیابی الگوریتم پیشنهادی، نتایج با نتایج حاصل از روش های naïve Bayes، دو الگوریتم مبتنی بر هستان شناسی و یک الگوریتم آماری مقایسه شده است. نتایج به دست آمده نشان می دهند که روش پیشنهاد شده مقادیر F-measure و Accuracy را بهبود می دهد. همچنین مقادیر FP و Error به میزان قابل توجهی کاهش می یابد.

کلیدواژگان:

خوشه بندی اسناد ، گراف هستان شناسی ، معیار شباهت ، سیستم اسنتاج فازی

زبان:

فارسی

انتشار در:

نشریه فناوری اطلاعات و ارتباطات ایران، سال پنجم شماره 17 (پاییز و زمستان 1392)

صفحات:

73 تا 96

لینک کوتاه:

magiran.com/p1385999

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

نشریه فناوری اطلاعات و ارتباطات ایران

Journal of Information and Communication Technology

دوفصلنامه فنی مهندسی

آخرین شماره | آرشیو

صاحب امتیاز:

انجمن فناوری اطلاعات و ارتباطات ایران

مدیر مسئول:

دکتر مسعود شفیعی

سردبیر:

دکتر محمدشهرام معین

تلفن نشریه: ۰۲۱-۶۶۴۸۵۸۵۶

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله راهنمای نویسندگان

به جمع مشترکان مگیران بپیوندید!

خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

مریم امیری ، حسن ختن لو

خوشه بندی اسناد ، گراف هستان شناسی ، معیار شباهت ، سیستم اسنتاج فازی

نشریه فناوری اطلاعات و ارتباطات ایران

Journal of Information and Communication Technology