ارائه روشی برای برچسب زدن تصاویر موجود در متون علمی فارسی با استفاده از روش های پردازش متن
در این مقاله یک روش جدید برای برچسب گذاری تصاویر موجود در متون علمی فارسی معرفی می شود. در اسناد و مقالات علمی، تصاویر حاوی اطلاعلات مهمی هستند و در بسیاری از موارد با بررسی آنها به تنهایی می توان به ایده اصلی و یا نتایج مهم مقاله علمی پی برد، بدون اینکه لازم باشد کل مقاله را مطالعه کرد. به خاطر رشد روز افزون داده های تصویری، بازیابی تصاویر از اسناد علمی توجه زیادی به خود جلب کرده است و تبدیل به یک موضوع رو به رشد در ادبیات شده است. اولین قدم در بازیابی تصاویر تخصیص برچسب های توصیف کننده به هر تصویر است. در اینجا برای استخراج برچسب تصویر از متن سندی که تصویر به آن تعلق دارد استفاده شده است. زیرنویس و قسمتی از متن سند که در آن، به تصویر مورد نظر اشاره شده است در نظر گرفته می شود. عبارات اسمی در متن همراه تصویر با استفاده از پنج روش متفاوت؛ فراوانی عبارات در سند، معکوس فراوانی سند، فراوانی کلمه- معکوس فراوانی سند، شباهت کسینوسی عبارات با زیرنویس و ترکیب روش فراوانی کلمه- معکوس فراوانی سند و شباهت کسینوسی با زیرنویس، رتبه بندی می شوند. برچسب های انتخابی برای تصویر در هر روش، عبارات اسمی با رتبه بالاتر در آن روش است. روش های معرفی شده با استفاده از داده آزمایشی از پایگاه اطلاعات علمی ایران (گنج) که منبع اصلی اسناد علمی فارسی است، ارزیابی می شوند. طبق نتایج بدست آمده در این تحقیق روش فراوانی کلمه- معکوس فراوانی سند بهترین روش برای برچسب زدن تصاویر موجود در اسناد علمی است.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.