رده بندی متون فارسی با استفاده از روش های آماری
در این گزارش، سعی شده است تا یکی از تکنیکهای موفق در زمینه ردهبندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از ردهبندی متون، میتوان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش ردهبندی K نزدیکترین همسایه(1) و دو معیار فاصله متون، آزمایشهای خودمان را انجام دادهایم. یکی از این دو معیار، الگو گرفته از نوعی ردهبندی متون زبان عربی[4] بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایشها بر روی پیکره همشهری[1] است. این دو نوع فاصلهسنجی، هر کدام با الگوریتم نزدیکترین همسایه ترکیب شده و ردهبند 1 تا 20 نزدیکترین همسایه را برای آزمایشهای ما آماده کردهاند. نتایج ما نشان میدهد که این روش میتواند با دقت (2) 89% عمل ردهبندی را انجام دهد.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.