به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت
جستجوی مقالات مرتبط با کلیدواژه

text preprocessing

در نشریات گروه برق
تکرار جستجوی کلیدواژه text preprocessing در نشریات گروه فنی و مهندسی
تکرار جستجوی کلیدواژه text preprocessing در مقالات مجلات علمی
  • حمیدرضا لطفی *، محمدعلی جوادزاده

    با توجه به افزایش روزافزون داده، حجم داده های متنی نیز با سرعت بالایی در حال رشد است. استخراج اطلاعات از این داده های متنی یکی از ضرورت های دنیای مبتنی بر اطلاعات امروزی است. دسته بندی متن یکی روش های دست یابی به اطلاعات این داده های حجیم است. در این تحقیق با استفاده از یک مجموعه داده استاندارد اخبار فارسی که شامل پنج ویژگی در بیش از 86هزار خبر بود به بررسی عملکرد الگوریتم رگرسیون لجستیک در دسته بندی متن فارسی و همچنین مقایسه آن با سایر کارهای مشابه پرداختیم. با توجه مراحل ساخت یک دسته بند متن،روش مورد استفاده در بخش بردارسازی را توضیح داده و همچنین اهمیت بخش پیش پردازش و مخصوصا روش مورد استفاده در برچسب گذاری و تبدیل برچسب های فرعی به اصلی را بیان کردیم. در ارزیابی نهایی، با استفاده از تغییر پارامترهای الگوریتم و همچنین اصلاح برچسب های اخبار، به نتیجه مطلوب 95% در معیار دقت برای دسته بندی متن مجموعه داده اخبار فارسی رسیدیم.

    کلید واژگان: دسته بندی متن، رگرسیون لجستیک، پیش پردازش متن، مجموعه داده اخبار فارسی
    Hamidreza Lotfi, Mohammadali Javadzadeh

    Due to the ever-increasing amount of data, the amount of textual data is also growing at a high speed. Extracting information from these textual data is one of the necessities of today's information-based world. Text classification is one of the methods of obtaining information from this massive data. In this research, using a standard dataset of Persian news, which included five features in more than 86 thousand news, we investigated the performance of the logistic regression algorithm in the classification of Persian text and also compared it with other similar works. Considering the steps of creating a text category, we have explained the method used in the vectorization section and also stated the importance of the pre-processing section, especially the method used in tagging and converting sub-tags to main ones. In the final evaluation, by changing the algorithm's parameters and modifying the news tags, we reached the desired result of 95% in the accuracy criterion for the text classification of the Persian news dataset.

    Keywords: Text classification, Logistic regression, Text preprocessing, Persian news dataset
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال