استخراج اطلاعات از پیکره زبانی: معرفی پیکره مقاله های علمی پژوهشی دانشگاه فردوسی مشهد

نوع مقاله:
مقاله پژوهشی/اصیل (بدون رتبه معتبر)
چکیده:
هدف
پردازش زبان طبیعی، استفاده در فرهنگ نگاری، پیگیری تحولات زبانی و استخراج اطلاعات زبانی خاص از مهم ترین کاربردهای پیکره است. هدف از انجام این پژوهش معرفی و توصیف چگونگی ساخت پیکره مقاله های علمی پژوهشی است که نگارندگان پدید آورده اند.
روش
برای ایجاد پیکره، نخست نرم افزار پیکره ساز طراحی و ساخته شد. این نرم افزار انواع فرمت از جمله doc،docx ،rtf ،txt و pdf را پشتیبانی می کند. همچنین می توان پارامترهای ساخت پیکره را از قبل نیز برای آن تعیین کرد. برای مثال، مشخص کرد که حداقل تعداد توکن فایل برای حضور یک متن در پیکره چه عددی باشد. سپس مجموعه مقاله های علمی پژوهشی اعضای هیئت علمی دانشگاه فردوسی مشهد جمع آوری شد. مجموع مقاله های مشتمل بر 7.154.202 کلمه و 1100 عنوان است. کل پیکره در فایل های مجزا به جمله های تشکیل دهنده آن تجزیه شد. ریشه کلمات استخراج و برچسب نحوی کلمات زده شد. علاوه بر امکان استخراج اطلاعات به طور مستقیم، نرم افزار جانبی دیگری با کاربرد ساده تر برای استخراج اطلاعات آماری نیز طراحی و به آن افزوه شد تا کاربران غیرتخصصی هم بتوانند از آن استفاده و اطلاعات را استخراج کنند.
یافته
برای ارزیابی درستی ابزارهای ریشه یاب و برچسب زنی مقوله های گفتار، از پیکره های استاندارد موجود مانند پیکره PerDT (در سایت دادگان) که شامل تعداد قابل توجهی جمله برچسب خورده با اطلاعات نحوی و ساخت واژی است استفاده شد. همچنین با مطالعه موردی عبارات احتیاط آمیز (بخشی از طرح پژوهشی که به چاپ نرسیده است) یافته این پژوهش که ساخت پیکره مقاله های علمی پژوهشی است آزمایش و با دقت حدود96% تایید شد.
نتیجه
بر اساس نتایج به دست آمده، پیکره ساخته شده قابلیت بسیار بالایی برای داده کاوی و استفاده در تمام پژوهش هایی که بر روی متون علمی انجام می شود را دارا است. با استفاده از این پیکره می توان توصیفی داده محور از نحوه کاربرد زبان توسط گروه های مختلف کاربران زبانی ارائه کرد. با بارگذاری این پیکره در سایت کتابخانه مرکزی دانشگاه فردوسی مشهد، امکان کاربری عام آن به زودی فراهم خواهد شد.
زبان:
فارسی
صفحات:
3 تا 25
لینک کوتاه:
magiran.com/p1861686 
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 990,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.
دسترسی سراسری کاربران دانشگاه پیام نور!
اعضای هیئت علمی و دانشجویان دانشگاه پیام نور در سراسر کشور، در صورت ثبت نام با ایمیل دانشگاهی، تا پایان فروردین ماه 1403 به مقالات سایت دسترسی خواهند داشت!
In order to view content subscription is required

Personal subscription
Subscribe magiran.com for 50 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!