بهبود تقطیع معنایی ویدئو با استفاده از شبکه های عصبی عمیق و جریان نوری
امروزه از تقطیع معنایی ویدیو در کاربردهای بسیاری از قبیل خودروهای بدون سرنشین، سیستم های ناوبری، سیستم های واقعیت مجازی و... استفاده می شود. در سال های اخیر پیشرفت چشم گیری در تقطیع معنایی تصاویر مشاهده شده است. اما از آن جا که فریم های پشت سر هم یک ویدیو باید با سرعت بالا و تاخیر کم و به صورت بلادرنگ پردازش شوند استفاده از تقطیع معنایی تصویر روی تک تک فریم های ویدیو با مشکل مواجه می شود؛ بنابراین تقطیع معنایی فریم های یک ویدیو به صورت بلادرنگ و با دقت مناسب موضوعی چالش برانگیز است. به منظور مقابله با چالش ذکر شده، در این مقاله یک چارچوب تقطیع معنایی ویدیو معرفی شده است که با در نظر گرفتن تغییرات فریم های پشت سر هم (با استفاده از جریان نوری) و بهره گیری از شبکه عمیق بازگشتی GRU، از اطلاعات تقطیع معنایی فریم های قبلی به منظور افزایش سرعت و دقت استفاده شده است. یک ورودی شبکه GRU تخمینی از تقطیع معنایی فریم فعلی (حاصل از یک شبکه عمیق کانولوشنال از پیش آموزش دیده)، و ورودی دیگر آن لغزش یافته تقطیع معنایی فریم قبلی در راستای جریان نوری دو فریم قبلی و فعلی می باشد. روش پیشنهادی دارای دقت و سرعت قابل رقابت با شناخته شده ترین و بهترین روش ها می باشد. دقت تقطیع معنایی بر اساس معیار ارزیابی mIoU روی مجموعه داده های Cityscapes و Camvid به ترتیب برابر با 83.1 و 79.8 می باشد. این در حالیست که در روش پیشنهادی سرعت تقطیع معنایی با استفاده از یک GPU تسلا مدل P4 روی مجموعه داده های Cityscapes و Camvid به ترتیب به 34 و 36.3 فریم بر ثانیه رسیده است.
پرداخت حق اشتراک به معنای پذیرش "شرایط خدمات" پایگاه مگیران از سوی شماست.
اگر عضو مگیران هستید:
اگر مقاله ای از شما در مگیران نمایه شده، برای استفاده از اعتبار اهدایی سامانه نویسندگان با ایمیل منتشرشده ثبت نام کنید. ثبت نام
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.