متن کاوی :مفاهیم و روش ها
در عصرحاضر، حجم عظیمی از اطلاعات موجود در محیط وب، اسناد و مقالات متنی هستند. متن کاوی، روشی برای استخراج اطلاعات غیرساخت یافته و نیمه ساخت یافته از این حجم اطلاعات موجود در اینترنت و نیز، فرآیند استخراج دانش و الگوهای ناشناخته و غیرقابل فهم و بالقوه، از میان انبوه مجموعه های داده های متنی است.
این پژوهش از نوع مطالعات کتابخانه ای است. با اینکه روش های متن کاوی اکثرا بر روی منابع لاتین انجام گرفته-اند، اما با جستجو در پایگاه های اطلاعاتی فارسی، درمی یابیم طی یک دهه گذشته، موضوع متن کاوی برای محققان ایرانی به-خصوص دانشجویان رشته های علوم کامپیوتر و فناوری اطلاعات، اهمیتی دوچندان پیدا کرده است؛ به طوری که بخش قابل توجهی از مقالات کنفرانس های مربوط به علوم و فنون کامپیوتر را مقالات مربوط به این حوزه تشکیل می دهند.
یافته های پژوهش نشان می دهد که متن کاوی، کاربردی از داده کاوی است و تفاوت اصلی این دو، استخراج الگوها از متنی با زبان طبیعی در متن کاوی است درحالیکه داده کاوی بر روی پایگاه داده های ساخت یافته عمل می کند. فرایندهای متن کاوی دارای دو فاز اصلی پیش پردازش مستندات و استخراج دانش هستند. تاکنون هشت تکنیک نیز برای متن کاوی معرفی شده است که عبارتنداز: استخراج اطلاعات، بازیابی اطلاعات، خلاصه سازی متن، طبقه بندی، خوشه بندی، بصری-سازی، پردازش زبان طبیعی و عقیده کاوی.
در سالیان اخیر، توجه بسیار زیادی در حوزه بین المللی و ملی به متن کاوی شده است. افزایش چشمگیر داده های متنی، پژوهشگران را بر آن داشته است که به دنبال روش هایی جهت کاوش در این داده ها باشند. طبیعی است که محققان ایرانی نیز ازین امر مستنثنا نبوده اند. متن کاوی به همراه تمامی روش ها و تکنیک های آن، کوششی است که پژوهشگران را در استخراج دانش و اطلاعات مفید و باارزش از انبوه متون غیرساخت یافته ای که در محیط اینترنت پراکنده اند، یاری می کند.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.