فهرست مطالب

ماشین بینایی و پردازش تصویر - سال هفتم شماره 1 (بهار و تابستان 1399)

نشریه ماشین بینایی و پردازش تصویر
سال هفتم شماره 1 (بهار و تابستان 1399)

  • تاریخ انتشار: 1399/07/01
  • تعداد عناوین: 12
|
  • اسما رحیمی، محمدامین شایگان* صفحات 1-16

    امروزه حجم زیادی از تصاویر، توسط دوربین های دیجیتال تولید میشوند. لیکن عواملی همچون ضعف در طراحی لنز دوربین ها، منجر به ایجاد نویز در تصاویر می شود. روش های بهبود تصویر، ویژگی هایی از تصویر مانند لبه ها و مرزها را تیز می نمایند. لیکن تیزسازی لبه ها، خود منجر به افزایش نویز و ایجاد آثار تصنعی در تصاویر می شود. لذا استفاده از تکنیک های تیزسازی باید به صورت کنترل شده بوده و تا حدی انجام گیرد که جزییات تصویر حفظ و نویز موجود در تصویر زیاد تقویت نشود.  در این مقاله، روشی جدید جهت کاهش ماتی تصاویر دیجیتال ارایه شده است. روش پیشنهادی ترکیبی از فیلتر تغییرات کلی نسبی و فیلتر هدایت نورد در فضای رنگی HSV است. در روش پیشنهادی، نخست توسط فیلتر تغییرات کلی نسبی، ساختار تصویر استخراج و سپس توسط فیلتر هدایت نورد، بازیابی لبه ها انجام می شود. سپس با تفریق تصویر کانال روشنایی از تصویر حاصل از اعمال فیلتر هدایت نورد، جزییات و لبه های اصلی تصویر استخراج می شوند. در یک روند تکرارپذیر و براساس میزان وضوح تصویر، جزییات استخراج شده به کانال روشنایی افزوده می شود. در این روش، شدت روشنایی پیکسل های تصویر به یک نسبت تغییر نمی کنند که این امر از ایجاد تحریف های رنگی و افزایش نویز جلوگیری می کند.روش پیشنهادی بر روی تصاویر حاوی تحریف های رنگی و تاری آزمایش شده است. نتایج آزمایش ها نشان می دهند که این روش جهت کاهش تاری 47%، جهت کنترل نویز 85% و جهت حفظ طبیعی بودن تصاویر 83% موثرتر از دیگر روش های مورد مقایسه عمل کرده است.

    کلیدواژگان: بهبود تصویر، تیز نمودن تصویر، مات شدگی تصاویر، فیلتر هدایت شده
  • گونا رحمانیانی، آزاده منصوری* صفحات 17-28
    هدف از ارزیابی کیفیت تصویر، ارایه مدلی برای اندازه گیری کیفیت تصویر است به گونه ای که مدل یاد شده بیشترین سازگاری با سیستم بینایی انسان را داشته باشد. در این مقاله روشی برای ارزیابی کیفیت تصاویر رنگی با استفاده از ترکیب سه ویژگی اندازه گرادیان، هم فازی و برجستگی های دیداری که ساختار تصویر را به شیوه کارایی نمایش می دهند، ارایه شده است. این سه ویژگی ارتباط بسیار نزدیکی با سیستم بینایی انسان دارند، هر گونه تخریبی بر روی تصویر موجب ایجاد تغییراتی در این سه ویژگی می شود. در روش ارایه شده از اندازه تغییرات این ویژگی ها برای تخمین کیفیت دریافتی توسط سیستم بینایی انسان کمک گرفته شده است. نتایج آزمایش ها بر روی مجموعه داده های موجود نشان می دهد که الگوریتم مطرح شده همبستگی زیادی با معیار انسانی داشته و در مقایسه با روش های موجود نتایج مطلوبی فراهم می کند.
    کلیدواژگان: ارزیابی کیفیت تصاویر رنگی، ارزیابی کیفیت مرجع کامل، سیستم بینایی انسان، هم فازی، برجستگی های دیداری
  • الهه سلطاندوست ناری، رضا ابراهیم پور*، کریم رجایی صفحات 29-45

    بازشناسی شییء در صحنه های پیچیده ی ازجمله توانایی های شگرف سامانه بینایی انسان است که تاکنون مدل های محاسباتی بینایی در پیاده سازی آن چندان موفق نبوده اند. در این راستا محققان سعی دارند با شناسایی سازوکار مغز و الهام از آن این مدل را بهبود بخشند. یکی از موفق ترین مدل های ارایه شده در بازشناسی شییء شبکه های عصبی کانولوشنی (CNN’s) هستند. این مدل ها تنها قادر به شبیه سازی مسیر پیش روی بینایی انسان می باشند. با این حال شواهد مطالعات علوم اعصاب نشان می دهند سامانه بینایی انسان سیگنال های بالا به پایین انتظار را در راستای افزایش دقت و سرعت بازشناسی شییء در زمینه های پیچیده به کار می بندد. در این مقاله با بهره مندی از سیگنال های بالا به پایین انتظار، سعی بر شبیه سازی مسیر بازخوردی سیستم بینایی انسان شده است. به این منظور مدل کانولوشنی AlexNet به عنوان مسیر پیش رو سیستم بینایی استفاده شد. برای بازشناسی شییء از مدل آموزش یافته با مجموعه داده ی ImageNet و برای بازشناسی صحنه از مدل آموزش یافته با مجموعه تصاویر صحنه Places استفاده شد. شبکه آموزش دیده بر روی تصاویر صحنه (Place_CNN) برای تولید بردار بازخورد مبتنی بر اطلاعات حاصل از صحنه در نظر گرفته شد. سیگنال های بازخوردی شامل اطلاعاتی از فراوانی تکرار شییء موردنظر در صحنه ی جاری هستند. این سیگنال ها با قاعده ی پس انتشار در قالب سیگنال های بالابه پایین با اطلاعات مسیر پیش رو تلفیق و در شبکه ی تشخیص شییء بازخورد می شوند. به منظور سنجش مدل پیشنهادی آزمایش هایی با استفاده از چند مجموعه داده صورت گرفت. نتایج نشان داد که ترکیب اطلاعات بازخوردی با مسیر پیش رو باعث بهبود معنی دار عملکرد مدل پیشنهادی نسبت به مدل پایه ی AlexNet می شود. استفاده از اطلاعات محتوایی تصاویر باعث بهبود عملکرد بازشناسی شییء می شود به خصوص هنگامی که شییء هدف در شرایط چالشی قرار گرفته است.

    کلیدواژگان: شبکه عصبی کانولوشنی، بازشناسی شییء، محتوا، شبکه ی Place، CNN، شبکه ی AlexNet
  • رسول عسگریان دهکردی، حسین خسروی* صفحات 47-61
    در این مقاله روشی قدرتمند و مقاوم به سایه برای تخمین سرعت و ابعاد خودروها بطور تمام خودکار، با استفاده از ویدیوی دوربین نظارتی جاده ارایه شده است. در روش پیشنهادی، در گام اول با بررسی چند قاب ابتدایی و با توجه به حرکت خودروها، مختصات نقاط محوشدگی و فاصله کانونی دوربین بدست می آید. سپس با شناسایی پیش زمینه و حذف سایه از آن، محدوده دقیق هر خودرو تعیین می شود و جعبه سه بعدی محیطی برای هر خودرو تشکیل می گردد. پس از تصویر کردن خودرو بر صفحه فرضی جاده و حذف پرسپکتیو، ضریب متری (تبدیل پیکسل به متر) با توجه به ابعاد واقعی خودروی غالب محاسبه می شود. حذف پرسپکتیو و استفاده از ضریب متری، امکان تخمین سرعت و ابعاد خودروها در هر قاب را فراهم می کند. لیکن برای کاهش خطا با ردیابی هر خودرو این پارامترها در بازه ای که خودرو در معرض دوربین قرار دارد، تجمیع شده و هیستوگرام هایی برای سرعت و ابعاد هر خودرو تشکیل می شود. سپس بیشینه ی این هیستوگرام ها، به عنوان مقادیر سرعت و ابعاد هر خودرو گزارش می شود. مقایسه نتایج روش پیشنهادی با روش های دیگر بیانگر خطای کمتر این روش است. به گونه ای که بیشترین خطا برای مجموعه های تست در تخمین سرعت برابر با km/h  1/17 و در تخمین ابعاد برابر با 2/6% است.
    کلیدواژگان: کالیبراسیون، پرسپکتیو، سایه، سرعت خودرو، ابعاد خودرو
  • امیرحسین نایبی آستانه*، علیرضا احمدی فرد صفحات 63-75
    در ردیابی هدف با دوربین ساختار هدف بر دقت ردیابی بسیار تاثیر دارد. در این مقاله روشی جدید برای بهینه سازی محل قرار گرفتن پنج نشانگر بر روی یک هدف قابل رویت برای دوربین ارایه می گردد. تابع هدف پیشنهادی برای جایابی نشانگرها برابر با مجموع فاصله هر نشانگر از کلیه صفحاتی است که از ترکیب سه تایی های بوجود آمده از سایر نشانگرها تشکیل می گردد. برای جلوگیری از متقارن شدن ساختار هدف که برچسب زنی نشانگرها را در تصویر ناممکن می سازد، از یک قید که تضمین می کند اختلاف فاصله بین زوج نشانگرها از یک حداقل بیشتر شود، استفاده می نماییم. برای حداکثر کردن تابع هدف پیشنهادی با قید اشاره شده از الگوریتم ژنتیک استفاده شده است. نتایج تجربی حاصل از جایابی نشانگرها در هدف با استفاده از روش پیشنهادی (با اعمال و بدون اعمال قید) و سایر روش ها ارزیابی گردیدند. این روش ها به لحاظ خطای تخمین وضعیت سه بعدی و سرعت ردیابی در حضور نویز مورد مقایسه قرار گرفتند. این نتایج کارایی روش پیشنهادی برای جایابی نشانگرها را تایید می نماید.
    کلیدواژگان: ردیابی هدف مبتنی بر مدل، طراحی ساختار هدف، ردیابی مبتنی بر دوربین، ردیابی وضعیت سه بعدی
  • سمیرا مودتی * صفحات 77-91

    تعیین نوع تومور مغزی براساس پردازش تصاویر ام آرآی در کنار دانش پزشکی می تواند به تصمیم گیری درستی در مورد وضعیت بیمار منجر شود. در این راستا تشخیص خوش خیم یا بدخیم بودن تومور و انتخاب روش درمانی بر این اساس، به دلیل لزوم بررسی دقیق جزییات بافت تومور و امکان بروز خطا می تواند به یک مبحث چالش برانگیز تبدیل شود. در این صورت پرداختن به این مسئله به کمک تکنیک های پردازش تصویر می تواند اهمیت بسیاری داشته باشد. در این مقاله، تشخیص مناسب نوع تومور به کمک ویژگی های بافتی و آماری تصویر و انتخاب بهترین بردار ویژگی صورت می گیرد. سپس از الگوریتم تحلیل مولفه های اساسی تنک ساختار یافته به منظور کاهش بعد این دسته ویژگی ها استفاده می شود. در ادامه بردارهای ویژگی حاصل به منظور آموزش مدل های جامع بازنمایی کننده ساختار داده مربوط به هر نوع تومور مغزی به کمک الگوریتم فاکتورگیری ماتریس غیرمنفی تنک مورد استفاده قرار می گیرند. دسته بندی داده ها در روش پیشنهادی براساس مقدار نرخ انرژی محاسبه شده برای ضرایب تنک صورت می گیرد. همچنین نتایج این دسته بندی با نتایج حاصل از طبقه بندهای مبتنی بر شبکه عصبی و ماشین بردار پشتیبان مقایسه گردیده است. نتایج شبیه سازی ها نشان می دهدکه روش پیشنهادی مبتنی بر ویژگی های ترکیبی آماری/بافتی قادر به دسته بندی انواع تومور مغزی با دقت بالا خواهد بود.

    کلیدواژگان: طبقه بندی تومور مغزی، ویژگی مبتنی بر بافت، ویژگی آماری، تجزیه مولفه های اساسی تنک ساختار یافته، الگوریتم فاکتورگیری ماتریس غیرمنفی تنک
  • شادی کلالی، یحیی فرقانی*، مجید وفایی جهان صفحات 93-109

    مدل تنک مبتنی بر معیار شباهت کورآنتروپی، نوعی مدل طبقه بندی یا شناسایی چهره مبتنی بر روش نمایش تنک است که نسبت به نویز و انسداد در داده های آزمون، مقاوم است. در این مدل، ترکیبی خطی از تصاویر آموزشی، به نحوی تعیین می شود  که برمبنای معیار کورآنتروپی، بیشترین شباهت را با داده آزمون داشته باشد و نرم1 بردار ضرایب این ترکیب خطی، حداقل باشد. نرم1، مشتق ناپذیر است و لذا، نمی توان برای حل این مدل، از روش های کارآمد مبتنی بر گرادیان استفاده کرد. برای ساده سازی این مدل و حل سریعتر آن با روش های مبتنی بر گرادیان، ضرایب ترکیب خطی، نامنفی در نظر گرفته شده است. قید نامنفی بودن ضرایب ترکیب خطی، قید محدودکننده ای است که در صحت طبقه بندی، تاثیر منفی می گذارد. در این مقاله، برای رفع این مشکل، بجای نرم1 از نرم2 بردار ضرایب ترکیب خطی، استفاده می شود و دو روش سریع برای حل مدل جدید ارایه می گردد. به تعبیر دیگر، مدل پیشنهادی، مدل شناسایی چهره مبتنی بر نمایش مشارکتی است که از مفهوم کورآنتروپی برای مقاوم شدن مدل در برابر نویز و انسداد استفاده کرده است. آزمایش های انجام شده نشان می دهد که مدل پیشنهادی، نرخ صحت طبقه بندی و زمان اجرای بهتری نسبت به مدل نمایش تنک مبتنی بر کورآنتروپی با ضرایب نامنفی دارد.

    کلیدواژگان: طبقه بندی مبتنی بر نمایش تنک، نمایش مشارکتی، کورآنتروپی، طبقه بندی مقاوم، انسداد، تخریب
  • ملیحه حبیبی*، علیرضا احمدی فرد، حمید حسن پور صفحات 111-121
    در این مقاله، یک روش جدید خودیادگیرنده برای افزایش تفکیک پذیری تک تصویر ارایه شده است. در این روش، از تصویر ورودی، دو هرم وضوح پایین و وضوح بالا ساخته می شود. رابطه بین وصله های هرم وضوح پایین و روشنایی متناظر وصله ها در تصویر هم سطح از هرم وضوح بالا توسط رگرسیون بردار پشتیبان یادگیری می شود. برای ایجاد تخمین بهتری از روشنایی وضوح بالا، تصاویر دو هرم را براساس رنگ ناحیه بندی می کنیم و مدل های رگرسیونی را برای هر ناحیه بطور مجزا آموزش می دهیم. از طرفی برای کاهش اثر تاری در لبه های تصویر فراتفکیک شده، مدل های جداگانه ای برای یادگیری روشنایی لبه ها ارایه شده است. ویژگی های بکار رفته در یادگیری رگرسیون بردار پشتیبان، ضرایب تنک وصله ها در بازنمایی تنک و گرادیان وصله ها می باشد. برای هر یک از ویژگی های اشاره شده مدل های رگرسیون مجزایی آموزش داده می شود و خطای این مدل ها نیز به کمک رگرسیون بردار پشتیبان مدل می گردد. در هنگام بازسازی تصویر فراتفکیک شده، هر وصله ی تصویر در بالاترین سطح هرم وضوح پایین به مدل های رگرسیونی داده شده و مدلی که کمترین خطا را در تخمین مقدار روشنایی ایجاد کند مشخص می گردد. روشنایی مرکز هر وصله را مدل برنده شده تعیین می کند. نتایج آزمایشات نشان می دهد که روش پیشنهادی نسبت به سایر روش ها با توجه به معیار PSNR  و SSIM تخمین بهتری از تصویر فراتفکیک شده ایجاد می کند. مشاهده بصری نتایج نیز این ادعا را تایید می نماید.
    کلیدواژگان: فراتفکیک پذیری تک تصویر، ناحیه بندی تصویر، بازنمایی تنک، رگرسیون بردار پشتیبان
  • سایه میرزایی*، جواد حق شناس صفحات 123-133
    در این مقاله، به موضوع طبقه بندی تصاویر ابرطیفی پرداخته می شود. با استفاده از روش های تجزیه، ماتریس یا تنسور تصویر ابرطیفی به دو ماتریس تجزیه می شود که یکی نمایانگر امضاهای طیفی مواد تشکیل دهنده تصویر می باشد و دیگری میزان فراوانی هر ماده در هر پیکسل را نشان می دهد. از آنجاییکه ذات تصویر ابرطیفی سه بعدی است، روش های تجزیه تنسور نامنفی بسیار بهتر به مساله منطبق هستند چرا که به جای به دنبال هم نشاندن اطلاعات مکانی در یک بردار ،اطلاعات مکانی را حفظ می کنند و ساختار همسایگی پیکسل ها در مدل لحاظ می شود. با هدف  بهره گیری مشترک از اطلاعات مکانی و طیفی، کل طیف فرکانسی به چندین زیرباند تقسیم می شود و تجزیه روی هر زیر باند به صورت جداگانه صورت می پذیرد و ماتریس های فراوانی زیرباندها به دنبال هم قرار می گیرند و ماتریس ویژگی را می سازند. ماتریس فراوانی حاصل از روش های تجزیه تنسور نسبت به تجزیه ماتریس، به نتایج بهتری منجر می شود. آزمایشها بر روی سه مجموعه داده شناخته شده، مبین بهبود چشمگیر در دقت طبقه بندی حاصل با استفاده از روش پیشنهادی هستند. برای طبقه بندی از شبکه عصبی پیچشی سه بعدی استفاده شده است.
    کلیدواژگان: طبقه بندی تصاویر ابرطیفی، روش تجزیه تنسور نامنفی (NTF)، NTF در زیرباند (Subband NTF)، شبکه های عصبی پیچشی سه بعدی (3D-CNN)
  • امین صداقت*، نازیلا محمدی صفحات 135-151
    تناظریابی تصاویر با خط مبنای بلند و تغییرات شدید زاویه دید، نقش مهمی در بسیاری از کاربردها در ماشین بینایی و فتوگرامتری نظیر بازسازی سه بعدی و هم مرجع سازی تصویر ایفا می کند. یکی از مشکلات اساسی تناظریابی این نوع از تصاویر وجود تعداد نسبتا زیاد تناظرهای اشتباه است. به منظور حذف اشتباهات عموما سازگاری هندسی تناظرها با استفاده از قیدهای هندسی مختلف نظیر خط اپی پولار و روش های برآورد پایدار نظیر اجماع نمونه تصادفی، RANSAC (Random Sample Consensus)، کنترل می شود. این روش ها در تصاویر با خط مبنای بلند به دلیل درصد بالای تناظرهای اشتباه دچار اشکال می شوند. در این مقاله روشی جدید برای حذف تناظرهای اشتباه در تناظریابی تصاویر با تغییر شدید زاویه دید ارایه شده است. برای این منظور، در ابتدا عوارض اولیه بیضی شکل با استفاده از الگوریتم بهبود یافته نواحی حدی بیشینه پایدار MSER (maximally stable extremal regions) در هر دو تصویر استخراج می شوند. سپس برای هر عارضه، توصیفگر متمایز DAISY محاسبه می شود. در مرحله بعد با مقایسه توصیفگرها در دو تصویر تناظرهای اولیه تعیین می شوند. در ادامه، تناظرهای اولیه با استفاده از یک روش جدید بر مبنای قیدهای هندسی مستخرج از ماتریس شکل عوارض با عنوان حذف اشتباهات تناظریابی بر مبنای ماتریس شکل، MESM (Mismatch elimination based on shape matrix) پالایش شده و بیشتر آنها شناسایی و حذف می شوند. در نهایت اشتباهات کم باقیمانده با بهره گیری از یک قید هندسی حذف می شود. روش پیشنهادی بر روی هشت جفت تصویر بردکوتاه با تغییرات شدید زاویه دید اجرا شده و نتایج بیانگر قابلیت بالای آن در تناظریابی کارآمد تصاویر است.
    کلیدواژگان: تناظریابی، استخراج عوارض، MSER، DAISY، ماتریس شکل
  • مجید نصیری، حمیدرضا رشیدی کنعان*، سید حمید امیری صفحات 153-164
    قطعه بندی معنایی تصویر مبتنی بر شبکه های عصبی عمیق، از رویکردهای مهم محققان بینایی ماشین می باشد. در روش های مبتنی بر شبکه های عصبی عمیق، بطور کلی از یک شبکه پایه که برای کاربرد شناسایی تصویر، آموزش دیده است، بمنظور استخراج ویژگی از تصویر استفاده می شود. از آنجا که ابعاد ویژگی های خروجی از این شبکه های پایه کوچکتر از تصویر ورودی می باشد، لذا با اضافه کردن چندین لایه کانولوشنی به انتهای این شبکه های پایه، ابعاد ویژگی های خروجی از این شبکه ها را به اندازه ابعاد تصویر ورودی می رسانند. استفاده از ویژگی های محلی خروجی از شبکه های پایه، بدون در نظر گرفتن ارتباط کلی بین این ویژگی های محلی، منجر به قطعه بندی ضعیف و ناهموار می شود. بر این اساس، در این تحقیق واحدی با نام "واحد ویژگی های آگاه به محتوا" پیشنهاد می شود. این واحد با کمک ویژگی های محلی خروجی از شبکه های پایه، ویژگی های سطح-تصویر ایجاد می کند. واحد پیشنهادی را می توان در معماری های مختلف قطعه بندی معنایی تصویر قرار داد. در این تحقیق، با اضافه کردن واحد پیشنهادی CAF به معماری های پایه FCN و DeepLab-v3-plus، به ترتیب معماری های FCN-CAF و DeepLab-v3-plus-CAF پیشنهاد شده است. بمنظور آموزش معماری های پیشنهادی از دادگان PASCAL VOC2012 استفاده شده است. نتایج آزمایش ها نشان می دهد که معماری های پیشنهادی نسبت به معماری های پایه مربوطه، به ترتیب 7/2 و 81/1درصد بهبود دقت (mIoU) دارد.
    کلیدواژگان: قطعه بندی معنایی تصویر، شبکه های عصبی عمیق، شبکه های عصبی کانولوشنی، واحد ویژگی های آگاه به محتوا
  • زهرا حسین نژاد، حامد آگاهی*، آذر محمودزاده صفحات 165-190

    الگوریتم تبدیل ویژگی مقیاس ثابت (SIFT)، یکی از الگوریتم های پر کاربرد در زمینه بینایی ماشین است که به صورت گسترده مورد توجه و مطالعه پژوهشگران قرار گرفته و بهبود داده شده است. SIFT یکی از شناساگرهای محلی رایج می باشد که در انطباق تصویر، موزاییک تصویر، جعل کپی و جابجایی کاربرد دارد. در این مقاله مروری، ضمن معرفی الگوریتم SIFT، به کاربردها، مزایا و معایب، اصلاحات، دسته بندی ها و رویکردهای تحقیقات جدید در این الگوریتم پرداخته شده است. علاوه بر این، به کمک چهار آزمایش، جنبه های مختلف الگوریتم مورد ارزیابی قرار گرفته است. این مقاله می تواند راهگشای پژوهشگران پردازش تصویر برای استفاده از الگوریتم SIFT باشد. اهتمام نویسندگان بر این بوده است که همه جنبه های این الگوریتم مورد کاوش قرار گیرد.

    کلیدواژگان: نقاط کلیدی، شناساگر، توصیفگر، الگوریتم تبدیل ویژگی مقیاس ثابت (SIFT)، تطبیق
|
  • Asma Rahimi, MohammadAmin Shayegan * Pages 1-16

    Nowadays, a huge amount of images are produced by digital cameras. However, various reasons such as weakness in the design of the camera lens, lead to the creation of noisy images.The image enhancement methods sharp some componentsof images such as the edges in order to increase the resolution of the input images.But, sharpening of the images' edges results in increasing the noise. Hence, in order to reduce the blurriness of images, employing of sharpening techniques should be applied under controlled conditions in order to prevent loosing images details. In this paper, a new method is proposed to reduce the blurriness of digital images. The proposed method is combination of Relative Total Variation filter (RTVf) and Rolling Guidance filter (RGf) in HSV color space. In the proposed method, the image structure is extracted by using RTVfand then the images' edges are retrieved by using RGf. Then, the image details are extracted by subtracting the V channel of input image from the result image of RGf. During a repetition process, image's details are added to image V channel.  In this method, the intensity of the image pixels does not change to a similar ratio, which results in better display of the image details and prevents increasing noises.The proposed method has been tested on benchmark images.The achieved results show that the proposed method achieved to 47% of reducing blurriness, 85% of noise controlling, and 83% of saving naturalness of input images in compared to rival methods.

    Keywords: image enhancement, Image Sharpening, Image Blurring, Guided Filter
  • Gona Rahmaniani, Azadeh Mansouri * Pages 17-28
    The aim of digital image quality assessment is to provide a model predicting the human judgments of viewing scenes. In this paper, a color image quality measure is presented in which a combination of three components including gradient magnitude, phase congruency and visual saliency is utilized for a better prediction. This combination is designed based on the fact that the human visual system extracts the low-level image features. The phase congruency and visual saliency provide robust and contrast invariant structural information of the viewing scene. On the other hand, gradient magnitude captures all changes including the local contrast. Combing these three features can enhance the assessment of local quality. In order to obtain a single measure, the visual saliency is employed in the pooling phase. The experimental results demonstrate that the proposed algorithm can effectively evaluate natural images quality in a consistent manner with the human visual perception.
    Keywords: image quality assessment (IQA), PC, gm, VS, HVS
  • Elahe Soltandoost Nari, Reza Ebrahimpour *, Karim Rajaee Pages 29-45

    Human visual system can recognize object accurately, swiftly, and effortlessly even when objects are under challenging conditions. Many research groups try to model this ability; however, these computational models could not achieve human performance. Convolutional neural networks (CNN’s) are the state-of-the-art successful computational vision models that try to implement feedforward path of human visual system. However, evidence shows that human visual system uses top-down expectation signals to increase accuracy and speed of object recognition under dificult conditons. In this study, we extend a well-known model using top-down expectation signals. In this regard, Alexnet network is considered as feedforward path. We used a pre-trained network on ImageNet dataset for object recognition and a pre-trained network on Places dataset for scene recognition. The pre-trained network on places was used to provide top-down feedback signals based on scene information. The feedback signals contain occurrence frequency information of the objects in the scene. These signals are integrated with information from feedforward path. To evaluate the proposed model several experiments were done on different image sets. The results showed that integrating the feedback information with the feedforward information significantly improve object recognition accuracy in comparison to the base model. This support the idea that content information facilitates object recognition ability, specifically when objects are under challenging conditions.

    Keywords: convolutional neural network, Object Recognition, context, Place, CNN Network, AlexNet Network
  • Rasoul Asgarian Dehkordi, Hossein Khosravi * Pages 47-61
    In this paper, an effective and shadow resistant method is provided to automatically estimate the speed and dimensions of vehicles using video received from a surveillance camera. In this method, at first by examining a few initial frames and considering the motion of vehicles, the vanishing points and focal length of the camera are obtained. Then, by identifying the foreground and removing the shadow, the precise boundary of each vehicle is determined and the 3D bounding box is created for each vehicle. After projecting car on a hypothetical road and eliminating the perspective, the metric coefficient (pixel to meter) is calculated according to the actual dimensions of the dominant car. Removing the perspective and using the metric coefficient allows estimating the speed and dimensions of cars in each frame. But to reduce the error, by tracking the cars, histograms are made for the speed and dimensions of each vehicle. Then the maximum of these histograms is reported as the speed and dimensions of each vehicle. Experiments show better results compared with previous works.The maximum error for the test sets in the speed estimationis 1.17 km/h and in the dimension estimation it equals to 2.6%.
    Keywords: Calibration, perspective, Shadow Removal, speed estimation, Vehicle Dimension Estimation
  • Amirhossein Nayebi *, Alireza Ahmadyfard Pages 63-75
    In camera-based motion tracking, the target structure has a significant impact on the tracking accuracy. In the present research, a new method is proposed for the optimization of the location of five markers on a visible target for the camera. The proposed objective function for positioning of markers is equal to the total distance of each marker from all of the planes formed from the combination of triads made of other markers. To avoid the symmetry of the target structure, which makes the labeling of markers on the image impossible, a constraint is applied that guarantees a minimum difference in the distance between the pairs of markers. The genetic algorithm is exploited for maximizing the proposed objective function with the mentioned constraint. The experimental results obtained from the positioning of markers on the target using the proposed method (with or without the application of the constraint) and other methods are evaluated. These methods are compared in terms of error in estimating 3D pose and tracking speed in the presence of noise. It is notable that the results confirm the applicability of the proposed method in the positioning of markers.
    Keywords: Model-based Target Tracking, Target Structure Design, Camera-based Tracking, 3D Pose Tracking
  • Samira Mavaddati* Pages 77-91

    Classification of brain tumors using MRI images along with medical knowledge can lead to proper decision-making on the patient's condition. Also, classification of benign or malignant tumors is one of the challenging issues due to the need for detailed analysis of tumor tissue. Therefore, addressing this field using image processing techniques can be very important. In this paper, various types of texture-based and statistical-based features are used to determine the type of brain tumor and different types of features are applied in this classification procedure. Sparse non-negative matrix factorization algorithm is used to learn the over-complete models based on the characteristics of each data category. Also, sparse structured principal component analysis algorithm is applied to reduce the dimension of training data. The classification process is carried out based on the calculated energy of the sparse coefficients. Also, the results of this categorization are compared with the results of the classification based on the neural network and support vector machine. The simulation results show that the proposed method based on the selected combinational features and learning the over-complete dictionaries can be able to classify the types of brain tumors precisely.

    Keywords: Classification of brain tumor, Sparse non-negative matrix factorization, Sparse structured principal component analysis, Statistical-based feature, Texture-based feature
  • Shadi Kalali, Yahya Forghani *, Majid Vafaeijahan Pages 93-109

    Sparse correntropy model is a face recognition model on the bases of sparse representation which is robust to noise and occlusion. In this mode, a linear combination of training data is determined such that, on the basis correntropy criterion, is as similar as possible to the test data, and L1-norm of coefficient vector of the linear combination is minimum. L1-norm is not differentiable. Therefore, efficient gradient-based methods can not be used to solve the problem. Thus, to simplify the model to be solved fast, the coefficients were considered to be non-negative. The non-negativity constraint is restrictive which can decrease the accuracy of the model. In this paper, to fix this difficulty, L2-norm instead of L1-norm of the linear combination is minimized. Then, a fast algorithm is proposed to solve the novel model. Experimental results confirm that the runtime and accuracy of our proposed method is better than that of sparse correntropy model with non-negative coefficients.

    Keywords: Sparse representation for classification, collaborative representation, correntropy, robust classification, occlusion, noise
  • Maliheh Habibi *, Alireza Ahmadyfard, Hamid Hassanpour Pages 111-121
    Self-learning super-resolution is an approach for enhancing single-image resolution. In this approach, instead of using the external database for learning the relation between low and high resolution image patches, only relation between patches in the input image pyramid are used for learning. In this paper, a novel self-learning single image super-resolution method by focusing on the organization of the low and the corresponding high-resolution information has been presented. In order to provide training data the low-resolution and the corresponding highresolution images are created by down-sampling and up-sampling of the input image in two image pyramids. In this paper, unlike most prior super-resolution methods, the images in the low-resolution pyramid are segmented and then used for the process of super-resolution. Another remarkable point in this paper is dividing all the images of different levels of the pyramid into the same numbers and similar regions. This is done by segmenting the image at the lowest level of the pyramid and generalizing its regions to the higher-level of the pyramid images. Due to the different number of regions in each input image, the number of training models of the proposed method is different for each image and depends on the content of the input image. The result of the experiments shows that the proposed method is quantitatively and qualitatively improved the previous methods.
    Keywords: Single image super-resolution, statistical region merging, LLE, Sparse representation, Support Vector Machine
  • Sayeh Mirzaei *, Javad Haghshenas Pages 123-133
    In this paper, we are going to classify each pixel of a hyperspectral image. For this purpose, we group the spectral bands to sub-bands and try to decompose the corresponding sub-tensors to the endmember and abundance matrices. Abundance matrices obtained through tensor factorization methods contain spatial information in contrast to the ones acquired by matrix factorization. Therefore, the 2D abundance maps achieved by tensor decomposition methods, construct discriminant features for the classifier. A 3D CNN architecture is proposed for classification which utilizes the abundance maps of the individual sub-bands as input features. This way, we jointly exploit spectral and spatial information of the image. The experiments are performed on well-known hyperspectral data and reveal the effectiveness of the proposed sub-band tensor decomposition methods compared to matrix factorization approaches.
    Keywords: Hyperspectral Image Classification, Sub-band Non-negative Tensor Factorization (NTF), 3D Convolutional Neural Network (3D CNN)
  • Amin Sedaghat *, Nazila Mohammadi Pages 135-151
    Wide-baseline image matching with significant viewpoint differences plays a fundamental role in many computer vision and photogrammetry applications, such as 3D reconstruction and image registration. One of the main problems of matching these images is the existence of a relatively large number of mismatches. Generally, a geometric consistency check process based on various geometrical constraints and robust estimator methods such as the epipolar line and RANSAC algorithm is used for mismatch elimination. However, conventional geometry filtering methods in wide-baseline images will fail if the number of outliers is very high. In addition, these methods have high computational complexity. In this paper, a novel mismatch elimination approach in wide-baseline images with significant viewpoint differences is presented. First, initial elliptical features are extracted using improved MSER (maximally stable extremal regions) detector in both images. Then, a distinctive DAISY descriptor is generated for each extracted feature. In the next step, the initial feature correspondence process is established using Euclidean distance between feature descriptors. Then, a novel mismatch elimination approach based on features shape matrix, named MESM (mismatch elimination based on shape matrix), is applied. Finally, the few remained blunders are removed by using a geometric constraint. The proposed image matching and mismatch elimination algorithms were successfully applied to match eight close-range image pairs with significant viewpoint differences, and the results demonstrate its capability to improve matching performance.
    Keywords: Image matching, Feature Extraction, MSER, DAISY, Shape matrix
  • Majid Nasiri, Hamidreza Rashidy Kanan *, Sayyed Hamid Amiri Pages 153-164
    Semantic image segmentation based on Convolutional Neural Networks (CNNs) is one of the main approaches in computer vision area. In convolutional neural network-based approaches, a pre-trained CNN which is trained on the large image classification datasets is generally used as a backend to extract features (image descriptors) from the images. Whereas, the special size of output features from CNN backends are smaller than the input images, by stacking multiple deconvolutional layers to the last layer of backend network, the dimension of output will be the same as the input image. Segmentation using local image descriptors without involving relationships between these local descriptors yield weak and uneven segmentation results. Inspired by these observations, in this research we propose Context-Aware Features (CAF) unit. CAF unit generate image-level features using local-image descriptors. This unit can be integrated into different semantic image segmentation architectures. In this study, by adding the proposed CAF unit to the Fully Convolutional Network (FCN) and DeepLab-v3-plus base architectures, the FCN-CAF and DeepLab-v3-plus-CAF architectures are proposed respectively. PASCAL VOC2012 datasets have been used to train the proposed architectures. Experimental results show that the proposed architectures have 2.7% and 1.81% accuracy improvement (mIoU) compared to the related basic architectures, respectively.
    Keywords: Semantic Image Segmentation, Deep Neural Network (DNN), Fully Convolutional Network (FCN), Context-Aware Features (CAF) Unit
  • Zahra Hossein Nejad, Hamed Agahi *, Azar Mahmoodzadeh Pages 165-190

    The Scale Invariant Feature Transform (SIFT) algorithm is one of the most widely used algorithms in the machine vision field on which researchers have extensively studied and improved. SIFT is one of the common local detectors used in image registration, image mosaicking, copy-move image forgery, and etc. In this review paper, along with introducing the SIFT algorithm, the applications, pros and cons, modifications, categories and new research approaches in this algorithm are discussed. In addition, via four experiments, different aspects of this algorithm have been evaluated. This paper can help image processing researchers when utilizing the SIFT algorithm. The aim of the authors was to explore all the aspects of this algorithm.

    Keywords: Keypoints, detector, Descriptor, Scale Invariant Feature Transform (SIFT) algorithm, Matching