خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

پیام:
چکیده:
داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با توجه به اینکه کلمات کلیدی مختلف می توانند برای توصیف یک مفهوم استفاده شوند، این سیستم ها می توانند نتایج نادرست و ناقصی را ایجاد نمایند. همچنین روابط معنایی ممکن است بین کلمات موجود باشد که شناسایی آنها نیاز به استخراج دانش دامنه مورد نظر دارد. مهمترین گام ها در خوشه بندی اسناد نحوه ی نمایش اسناد و معیار اندازه گیری شباهت بین آنها است. این تحقیق بر بهبود کارایی خوشه بندی اسناد تمرکز دارد. الگوریتم خوشه بندی اسناد در سه گام پیشنهاد شده است: نمایش اسناد، اندازه گیری شباهت بین اسناد، سیستم استنتاج فازی به منظور اندازه گیری شباهت نهایی بین اسناد. در نهایت پس از انجام این سه گام، با استفاده از الگوریتم خوشه بندی پایین به بالا خوشه بندی اسناد صورت می پذیرد. در گام اول، اسناد بر اساس دانش دامنه به صورت یک گراف آنتولوژی نمایش داده می شوند. این روش بر خلاف روش مبتنی بر کلمات کلیدی، بر مفاهیم دامنه استوار می باشد و یک سند را بر اساس مفاهیم موجود در آن، به صورت زیرگرافی از آنتولوژی دامنه نمایش می دهد. مفاهیم استخراج شده گره های گراف را تشکیل می دهند. برای هر گره با توجه به فرکانس مفهوم، وزن محاسبه می گردد. روابط موجود بین مفاهیم سند، یال های گراف و میزان این ارتباط اوزان یال ها را مشخص می نماید. در گام دوم برای هر سند بر اساس نمایش گرافی استخراج شده از مرحله ی اول، مفاهیم کلی و جزئی و یال های اصلی مشخص می گردند. شباهت بین هر جفت از اسناد در سه مقدار و بر اساس این سه عامل محاسبه می شود. در گام سوم سیستم استنتاج فازی با سه ورودی و یک خروجی طراحی شده است. ورودی ها مفاهیم کلی، مفاهیم جزئی و یال های اصلی می باشند و خروجی میزان شباهت بین دو سند است. مجموعه ای از قوانین فازی برای موتور استنتاج فازی در نظر گرفته شده است که بر اساس سه شباهت ورودی مقدار شباهت نهایی را تخمین می زند. در نهایت بر اساس ماتریس شباهت اسناد، الگوریتم خوشه بندی سلسله مراتبی پایین به بالا به منظور خوشه بندی اسناد اعمال می گردد. برای ارزیابی الگوریتم پیشنهادی، نتایج با نتایج حاصل از روش های naïve Bayes، دو الگوریتم مبتنی بر هستان شناسی و یک الگوریتم آماری مقایسه شده است. نتایج به دست آمده نشان می دهند که روش پیشنهاد شده مقادیر F-measure و Accuracy را بهبود می دهد. همچنین مقادیر FP و Error به میزان قابل توجهی کاهش می یابد.
زبان:
فارسی
صفحات:
73 تا 96
لینک کوتاه:
magiran.com/p1385999 
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.
In order to view content subscription is required

Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!