DOSTE: Document Similarity Matching considering Informative Name Entities

Author(s):

Milad Allhgholi , Hossein Rahmani * , Amirhossein Derakhshan , Saman Mohammadiraouf

Message:

Article Type:

Research/Original Article (دارای رتبه معتبر)

Abstract:

Document similarity matching is essential for efficient text retrieval, plagiarism detection, and content analysis. Existing studies in this field can be categorized into three approaches: statistical analysis, deep learning, and hybrid approaches. However, to the best of our knowledge, none have incorporated the importance of named entities into their methodologies. In this paper, we propose DOSTE, a method that first extracts name entities and then utilizes them to enhance document similarity matching through statistical and graph-based analysis. Empirical results indicate that DOSTE achieves better results by emphasizing named entities, resulting in an average improvement of 9% in the average recall metric compared to baseline methods. Also, DOSTE unlike LLM-based approaches, does not require extensive GPU resources. Additionally, non-empirical interpretations of the results indicate that DOSTE is particularly effective in identifying similarity in short documents and complex document comparisons.

Keywords:

Document Similarity , Name Entities , Entities Graph

Language:

English

Published:

Journal of Artificial Intelligence and Data Mining, Volume:13 Issue: 1, Winter 2025

Pages:

85 to 94

https://www.magiran.com/p2844101

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با ثبت ایمیلتان و پرداخت حق اشتراک سالانه به مبلغ 1,950,000 ريال، بلافاصله متن این مقاله را دریافت کنید.اعتبار دانلود 70 مقاله نیز در حساب کاربری شما لحاظ خواهد شد.

پرداخت حق اشتراک به معنای پذیرش "شرایط خدمات" پایگاه مگیران از سوی شماست.

پست الکترونیکی

اگر مقاله ای از شما در مگیران نمایه شده، برای استفاده از اعتبار اهدایی سامانه نویسندگان با ایمیل منتشرشده ثبت نام کنید. ثبت نام

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر ثبت نام با ایمیل دانشگاهی/سازمانی

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

Journal of Artificial Intelligence and Data Mining

مجله هوش مصنوعی و داده کاوی

فصلنامه فنی مهندسی به زبان انگلیسی

آخرین شماره | آرشیو

ISSN: 2322-5211 eISSN: 2322-4444

صاحب امتیاز:

دانشگاه صنعتی شاهرود

مدیر مسئول و سردبیر:

دکتر حمید حسن پور

تلفن نشریه: ۰۲۳-۳۲۳۰۰۲۵۱

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله

به جمع مشترکان مگیران بپیوندید!

DOSTE: Document Similarity Matching considering Informative Name Entities

Milad Allhgholi , Hossein Rahmani * , Amirhossein Derakhshan , Saman Mohammadiraouf

Document Similarity , Name Entities , Entities Graph

Journal of Artificial Intelligence and Data Mining

مجله هوش مصنوعی و داده کاوی