ارائه خصیصه های خاص زبان فارسی جهت بازیابی و بازشناسی کلمات تصویری فارسی با استفاده از تعبیه برچسب

چکیده:
جستجو و بازیابی کلمات دستنویس در اسناد تصویری روشی جایگزین برای بازشناسی کاراکترهای نوری (OCR) است. این راهکار بیشتر در مواردی که بازشناسی کاراکترهای نوری دقت پایینی دارند، مانند متون دستنویس یا متون چاپی با کیفیت پایینی مطرح می گردد. امروزه یکی از روش های کارآمد در بازیابی مبتنی بر محتوای تصویر، که برای کلمات تصویری هم توسعه داده شده است، استفاده از رده بندی مبتنی بر خصیصه (Attribute-based Classification) و همچنین تعبیه برچسب (Label Embedding) است. در این مقاله چند خصیصه مختلف مبتنی بر ساختار نگارش زبان فارسی جهت استفاده در بازیابی کلمات تصویری فارسی معرفی شده و نتایج حاصل از روش های مبتنی بر خصیصه های پیشنهادی مقایسه گردیده است. در ارائه خصیصه ها ساختار نگارشی زبان فارسی درنظر گرفته شده است تا بهترین مطابقت را با روش نگارش فارسی داشته باشد. روش مورد مطالعه توانایی بازیابی کلمات تصویری با استفاده از کلمه پرسشی تصویری و متنی را داراست. علاوه بر این می تواند به عنوان روشی جهت بازشناسی کلمات نیز مورد استفاده قرار گیرد. همچنین روش ارائه شده با استفاده از قابلیت رده بندی مبتنی بر خصیصه، توانایی شناسایی کلاس کلماتی که در پایگاه داده آموزشی وجود ندارد را نیز دارا است. آزمایش های تجربی بر روی دو مجموعه داده استاندارد فارسا و ایرانشهر مورد بررسی قرار گرفته و نتایج حاصل از اجرای روش پیشنهادی قابل قبول است.
زبان:
فارسی
صفحات:
45 -54
لینک کوتاه:
magiran.com/p1579774 
روش‌های دسترسی به متن این مطلب
اشتراک شخصی
در سایت عضو شوید و هزینه اشتراک یک‌ساله سایت به مبلغ 300,000ريال را پرداخت کنید. همزمان با برقراری دوره اشتراک بسته دانلود 100 مطلب نیز برای شما فعال خواهد شد!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی همه کاربران به متن مطالب خریداری نمایند!