داده کاوی و استقرار دادگان اصطلاحنامه چندزبانه فرهنگی ایران (اصفا) در چهارچوب کریسپ

پیام:
نوع مقاله:
مقاله پژوهشی/اصیل (دارای رتبه معتبر)
چکیده:
هدف

نظام ساده سازماندهی دانش (اسکاس) یک مدل داده ای رایج برای به اشتراک گذاری و پیونددهی نظام های سازماندهی دانش از طریق وب است. اسکاس، مسیر مهاجرت استاندارد و کم هزینه را برای انتقال نظام های سازمان دانش موجود به وب معنایی ارایه می دهد. پیوستن اصفا به جریان وب معنایی نیازمند تبدیل و استقرار دادگان اصفا براساس اسکاس در قالب گراف آر.دی.اف. است. به این منظور باید رکوردهای مبتنی بر مارک ایران مهندسی مجدد شوند. هدف پژوهش حاضر، مهندسی مجدد دادگان اصفا با داده کاوی آنها در چهارچوب کریسپ و استقرار آنها بر روی پلتفرم اسکاسموس است.

روش

این پژوهش از نوع توسعه ای - کاربردی است و از روش شناسی کریسپ-دی.ام.، از نوع بدون نظارت و خوشه بندی سلسله مراتبی برای داده کاوی استفاده شده است. در مرحله اول درک کسب و کار، هدف اصلی تبدیل دادگان اصفا به مدل داده ای اسکاس در قالب گراف آر.دی. اف. تعیین شد. در مرحله درک داده، داده های میراثی اصفا شامل 11006 رکورد ذخیره شده در قالب مارک ایران و شامل 18 حوزه، آموزش و پرورش، ادبیات، ارتباطات، اقتصاد، تاریخ، تصوف و عرفان، جامعه شناسی، جغرافیا، حقوق، روان شناسی، زبان شناسی، دین، علوم سیاسی، فلسفه، فناوری و علوم تجربی، کتابداری و اطلاع رسانی، مدیریت و فرهنگ و هنر است. در مرحله سوم-آماده سازی داده- داده های مفقود و پرت شناسایی و ویرایش شد. برای انتخاب ویژگی ها در لایه پیش پردازش مهندسی داده، عناصر ضروری برای تبدیل به اسکاس شناسایی و جدول انطباق آنها با فیلدهای مارک ایران تدوین گردید. در مرحله مدل سازی، مقادیر ویژگی هدف با تکنیک خوشه بندی سلسله مراتبی و با استفاده از ماکروکد در اکسل تولید شد. ارزیابی مدل با تکنیک بررسی بصری و روش نمونه گیری تصادفی مورد تایید قرار گرفت. در مرحله ششم تبدیل داده های مارک ایران به اسکاس در قالب گراف آر.دی.اف. با استفاده از ابزار اسکاس پلی انجام و داده ها به بستر پلتفرم ووک بنچ انتقال یافت. با استفاده از قالب تورتل، دادگان اصفا در پلتفرم اسکاسموس مستقر شد.

یافته ها

یافته اصلی پژوهش، استقرار و توسعه دادگان اسکاس اصفا در پلتفرم منبع باز اسکاسموس به نشانی skosmos.nlai.ir است. مجموع رکوردها پس از ایجاد رکوردهای مربوط به حوزه و مجموعه برای خوشه بندی به 11880 رکورد افزایش یافت. در مرحله آماده سازی داده یکی از یافته های مهم، تدوین جدول انطباق بین عناصر هسته اسکاس و فیلدهای مارک ایران بود.

نتیجه گیری

در این پژوهش با بهره گیری از علم داده، روش نوآورانه ای برای داده کاوی دادگان اصطلاحنامه ای به کار رفت. روش شناسی های به کار رفته در ادبیات این پژوهش تنها در دو مرحله آماده سازی و استقرار و توسعه از شش مرحله به کار رفته در این پژوهش جا گرفتند.

زبان:
فارسی
صفحات:
58 تا 82
لینک کوتاه:
magiran.com/p2632572 
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.
In order to view content subscription is required

Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!