فهرست مطالب

ماشین بینایی و پردازش تصویر - سال دهم شماره 4 (زمستان 1402)

نشریه ماشین بینایی و پردازش تصویر
سال دهم شماره 4 (زمستان 1402)

  • تاریخ انتشار: 1402/11/14
  • تعداد عناوین: 6
|
  • مرضیه محمودی فر، ندا فرجی* صفحات 1-14
    آشکارسازی میوه با توجه به شرایط روشنایی متفاوت، انسداد و همپوشانی یک کار چالش برانگیز در ربات های برداشت مبتنی بر بینایی ماشین است. هدف از این مقاله بهبود مصالحه دقت-سرعت در آشکارسازی میوه سیب در سیستم بینایی ربات های برداشت کننده کشاورزی است. با توجه به کاربردهای اخیر ماژول های توجه در زمینه آشکارسازی شیء، معماری جدیدی از شبکه YOLOv5 پیشنهاد شده است که در آن ماژول توجه کانالی ECA در ستون فقرات شبکه، جایگزین ماژول C3 شده است. ماژول ECA علی رغم کاهش تعداد پارامترهای شبکه اثر قابل توجهی در کارایی آشکارسازی نداشت و با افزایش سرعت به میزان% 22نسبت به YOLOv5 نسخه نانو، توانست مصالحه بهتری بین دقت و سرعت برقرار کند. برای ارزیابی معماری پیشنهادی از سه نوع مجموعه داده KFuji، MinneApple و ACFR در مرحله آموزش و آزمون استفاده شد و در حالتی که پایگاه داده آموزش و آزمون یکی نبودند، روش یادگیری انتقالی برای بهبود نتایج آزمون به کار گرفته شد. در حالتی که داده های آموزش و آزمون یکی بودند، استفاده از معماری پیشنهادی منجر به بهبود نسبی عدد مصالحه به میزان 21.2% در مقایسه با ماژول C3 شد و در حالت یادگیری انتقالی که داده های آموزش و آزمون یکی نبودند، بهبود نسبی 18% در عدد مصالحه به دست آمد.
    کلیدواژگان: YOLOv5، آشکارسازی، مصالحه دقت-سرعت، ماژول توجه، یادگیری انتقالی
  • محمدامین امیدی، بابک سیف*، امیرحسین فروزان صفحات 15-28

    مدل های زاینده مرز شکل در تشخیص و درک از تصویر کاربرد دارد. تلاش آن است تا این مدل زاینده را با یادگیری از مجموعه ای آموزشی از تابع های شکل (یا به طور معادل، منحنی های درون یابی شده از مرز شکل ها)، بیاموزیم. برقراری تناظر، یا به طور معادل، نحوه ی نمونه برداری از تابع های شکل، بر کیفیت مدل های شکل بسیار اثرگذار است. راهکار روزآمد برای برقراری تناظر، تعریف یک ریسک تجربی تنظیم شده برای مدل های زاینده است که با کمینه سازی این ریسک، تناظر بین شکل ها مشخص می شود. انتخاب پارامترهای تنظیم به کار رفته در تابع های ریسک، تاثیری شگرف بر بهینه سازی دارد. در این مقاله با تخمین بعد موثر مدل تحلیل سازه ی اساسی و به کارگیری الگوریتم تخمین آنتروپی مقدارهای ویژه، اثر واریانس خطا در گزینش تناظر را در مدل های شکل آماری در نظر می گیریم. استفاده از الگوریتم پیشنهادی باعث شده است در مدل اندام های موجود در تصویرهای رادیوگرافی قفسه ی سینه از نظر معیار ویژه بودن به اندازه ی 0.5 میلی متر نسبت به روش طول توصیف کمینه بهبود ایجاد شود و زمان پیدا کردن تناظر نقاط بین شکل ها از 600 ثانیه به 300 ثانیه کاهش پیدا کند. همچنین، تناظر برقرار شده با روش پیشنهادی، از نظر معیار ویژه بودن، بر تناظر برقرار شده با نقطه گذاری توسط پزشکان برتری دارد.

    کلیدواژگان: بینایی ماشین، شناسایی و درک از تصویر، مدل سازی شکل به روش آماری، طول توصیف کمینه، تخمین آنتروپی مقدارهای ویژه
  • سامان آبدانان مهدی زاده*، هادی اورک، فاطمه کاظمی کرجی صفحات 29-47

    هجوم علف های هرز از جمله عوامل محیطی به شمار می رود که ارزش و کیفیت محصول را، به طور مستقیم، از طریق رقابت با گیاه اصلی تحت تاثیر قرار می دهند. سامانه های کنترل علف های هرز که بر اساس ویژگی های ظاهری عمل می کنند می بایست توانایی تشخیص علف های هرز و محصولات تحت توزیع های مختلف را داشته باشند. در این پژوهش به منظور کاهش هزینه ها و مقرون به صرفه سازی، سمپاشی طراحی و توسعه داده شد و با الهام ازبسته کلمات تصویری، برای بهبود عملکرد روش  هیستوگرام شیب های جهت گرا، استفاده متفاوتی از این توصیف گر ارایه گردید. مطابق نتایج بدست آمده از مرحله آموزش، الگوریتم بسته کلمات تصویری به خوبی با میزان دقت، اطمینان و حساسیت بیش از 97%  قادر به تشخیص محصول از گونه های علف هرز رایج در مزارع چغندرقند بود.سامانه سمپاش هوشمند در  حالتی که سامانه با الگوریتم توسعه یافته وارد مزرعه گردید توانست به خوبی با دقت، اطمینان و حساسیت بیش از 94% محصول را از گونه های علف هرز به صورت برخط تشخیص دهد. نتایج نشان داد سامانه سمپاش ارایه شده در بهترین و بدترین حالت سمپاشی به ترتیب 93/78% و 38/69% میزان مصرف علف کش را کاهش داده است. مطابق نتایج بدست آمده بهترین حالت سمپاش هوشمند در حالت نرخ متغیر و استفاده از الگوریتم تشخیص بسته کلمات تصویری بدست آمد.

    کلیدواژگان: علف هرز، شبکه عصبی مصنوعی، سمپاش، HOG، طبقه بندی، علف کش
  • محمدرجب قانع*، عباس بحرالعلوم، مهدی افتخاری صفحات 49-59

    قطعه بندی تصاویر پزشکی یکی از مهم ترین گام ها در تحلیل تصاویر پزشکی، جهت بهبود تشخیص و یافته ها است. یکی از متداول ترین روش های قطعه بندی در یادگیری عمیق، استفاده از شبکه های Unet است. وجود لایه های متراکم در قسمت رمزگشای Unet، اجازه استخراج اطلاعات از لایه های عمیق تر را نمی دهد؛ همچنین به علت محدودیت میدان دریافتی هسته های کانولوشن، اطلاعات و وابستگی های دوربرد به خوبی در نظر گرفته نمی شوند. در این مقاله، هدف طراحی یک ساختار در اتصالات پرش به منظور کاهش شکاف معنایی بین ناحیه رمزگذار و رمزگشا است. استخراج بهتر و تمرکز بیشتر برروی ویژگی های محلی و سراسری در مجموعه داده های مختلف، از ویژگی های این ساختار است.همچنین یک ساختار توجه به منظور کاهش پارامترهای شبکه و بهبود نتایج، در گلوگاه شبکه طراحی شده است. این روش برروی 6 مجموعه داده پزشکی ارزیابی شده است که نتایج به دست آمده در دو معیار ارزیابی Diceو Iou نشان می دهد مدل پیشنهاد شده نتایج بهتری نسبت به Unet و روش های مبتنی بر آن دارد.

    کلیدواژگان: قطعه بندی تصاویر پزشکی، شبکه های عصبی پیچشی، مکانیزم توجه، یادگیری عمیق، Unet
  • علیرضا صفدری نژاد*، سید عبدالله کیانژاد، عطیه گنجعلی صفحات 61-73

    فتومتری یک روش شناخته شده به منظور بازسازی سه بعدی اشیاء به کمک تصاویر اخذ شده در شرایط نورپردازی متفاوت است. در این روش، با معلوم بودن راستای منابع نوری، بردارهای نرمال سطح بصورت مشبک و متراکم از طریق درجات روشنی ثبت شده در تصاویر بازیابی می گردند. با تبدیل هر بردار نرمال به اختلاف ارتفاع در دو راستای متعامد، تخمین همزمان مولفه های ارتفاعی برای شبکه متراکم از طریق حل یک دستگاه معادلات خطی، فرامعین و ناسازگار صورت می پذیرد. هم راستا نبودن سیستم مختصات بازیابی بردارهای نرمال سطح و شبکه متراکم بازسازی سه بعدی موجب بروز خطای سیستماتیک در روند تخمین نقشه ارتفاعی مشبک می گردد. استفاده از روش های کالیبراسیون آزاد در تعیین راستای منابع نوری یکی از عوامل بروز عدم توازی در سیستم های مختصات شیی و بردارهای نرمال سطح است. در این مقاله، روندی متوالی و تکراری به منظور برآورد و اعمال زاویه چرخش مناسب به بردارهای نرمال سطح پیشنهاد شده است. در هر تکرار از این روش، سهمی از چرخش لازم به منظور ایجاد توازی دو سیستم مختصات شیی و بردارهای نرمال سطح از طریق برازش یک تبدیل هندسی به باقیمانده های برآورد شده در روند بازسازی سه بعدی شناسایی می گردد. نتایج بکارگیری روش پیشنهادی در آزمون های مختلف حاکی از بهبود محسوس دقت در بازسازی سه بعدی بوده است.

    کلیدواژگان: فتومتری، بازسازی سه بعدی، بردار نرمال سطح، بردار باقیمانده ها، تخمین کمترین مربعات
  • مازیار زمانی، رضا حسن زاده* صفحات 75-84
    یکی از راه های تشخیص بیماری های چشمی، بررسی تصاویر سطح داخلی شبکیه چشم توسط متخصص است. اما در بیماران مبتلا به بیماری آب مروارید، به دلیل محوشدگی تصاویر سطح داخلی شبکیه، تشخیص سایر بیماری ها بسیار دشوار می باشد. هدف از این مقاله ارایه روشی مبتنی بر یادگیری عمیق جهت افزایش دقت تشخیص بیماریهای شایع چشمی در حضور آب مروارید و سایر ضایعات شبکیه چشم می باشد. در روش پیشنهادی، جهت رفع مشکل همپوشانی متقابل بین بیماری ها که منجر به تشخیص غیر صحیح بیماری می شود، از تکنیک وزن دهی در آموزش مدل به منظور افزایش قابلیت تشخیص شبکه یادگیری عمیق استفاده می گردد. همچنین به دلیل محدودیت در تعداد تصاویر حاوی آب مروارید شامل سایر بیماری های چشمی، برای آموزش شبکه یادگیری عمیق، انواع مدل های تخریب تصاویر سطح داخلی شبکیه چشم جهت شبیه سازی تصاویر آب مروارید و بعضی ضایعات شبکیه چشم به صورت مصنوعی تولید و در فرآیند آموزش شبکه استفاده می شوند. نتایج حاصل از ارزیابی بر روی پایگاه های مرجع تصاویر سطح داخلی شبکیه چشم نشان می دهد که آلگوریتم پیشنهادی توانسته است برای بیماری های تباهی لکه زرد، نزدیک بینی، بافت عروق کوروییدی، آب سیاه، نیوواسکولاریزاسیون قرنیه و شبکیه رنجوری دیابتی در شرایط وجود آب مروارید به ترتیب به مقدار صحت 80، 82، 79، 81، 80 و 65 دست یابد.
    کلیدواژگان: بیماری چشمی، تصاویر سطح داخلی شبکیه، آب مروارید، طبقه بندی، یادگیری عمیق
|
  • Marziye Mahmoudifar, Neda Faraji * Pages 1-14
    Fruit detection due to different lighting conditions, occlusion and overlap is a challenging task in machine vision-based harvesting robots. The aim of this article is to improve the accuracy-speed trade-off in apple fruit detection in the vision system of agricultural harvesting robots. Considering the recent applications of attention modules in the field of object detection, we have proposed a new architecture of YOLOv5 network in which the ECA channel attention module is replaced by the C3 module in the backbone of the network. Despite reducing the number of network parameters, the ECA module has not had a significant effect on the detection efficiency, and by increasing the speed by 22% compared to the YOLOv5 Nano version, it has been able to establish a better trade-off between accuracy and speed. To evaluate the proposed architecture, three datasets KFuji, MinneApple and ACFR are used in the training and testing phase, and in the case that the training and testing databases are not the same, the transfer learning method is used to improve the test results. In the case where the training and test data are the same, the use of the proposed architecture leads to a relative improvement of the trade-off by 21.2% compared to the C3 module. In the case of transfer learning where the training and test data are not the same, a relative improvement of 18% in the trade-off has been achieved.
    Keywords: YOLOv5, Detection, accuracy-speed trade-off, attention module, Transfer learning
  • Mohammad Amin Omidi, Babak Seyfe *, Amir Hossein Foruzan Pages 15-28

    Generative models of shapes for 2D boundaries have applications in object detection and inference from 2D images.We investigate how to learn this generative model from a training set of shape functions.The quality of the correspondence establishment significantly affects the quality of the shape models.A state-of-the-art approach for establishing correspondence is to define a regularized empirical risk for generative models, and by minimizing this risk, the correspondence between shapes is determined.The choice of the regularization parameters of the risk has a significant effect on the quality of the correspondence.In this article, by estimating the effective dimension of the principal component analysis model and using the entropy estimation of eigenvalues algorithm, we consider the effect of error variance in determining the regularization parameter for correspondence establishment.Using Our proposed algorithm leads to the following improvements in the correspondence establishment for shape models of the objects that exist in JSRT chest radiography images: 0.5 mm specificity improvement, and training time reduction from 600 seconds to 300 seconds, compared to the minimum description length method.Moreover, the specificity of the correspondence established by our proposed method is better than that established by experts' manual landmarks in terms of specificity.

    Keywords: Machine Vision, object detection, inference from images, statistical shape modeling, minimum description length, entropy estimation of eigenvalues
  • Saman Abdanan Mehdizadeh *, Hadi Orak, Fatemeh Kazemi Karaji Pages 29-47

    This research highlights the potential of computer vision and machine learning algorithms to enhance weed control systems and decrease herbicide use in agriculture. The development of an efficient and cost-effective smart sprayer system has the capacity to not only benefit farmers financially, but also mitigate the environmental impact of herbicide application. Further investigation could explore the feasibility and practicality of implementing such systems on a larger scale in diverse crop fields. The recognition of weeds and crops based on their appearance characteristics is crucial for effective weed control systems, and the proposed BOVW algorithm demonstrated a high level of accuracy, reliability, and sensitivity in distinguishing between common weed species and sugar beet crops. The smart sprayer system, incorporating the BOVW algorithm, exhibited a high level of precision in identifying the product from weed species online. Notably, the provided sprayer system significantly reduced herbicide consumption by 78.93% and 69.38% in the best and worst mode of spraying, respectively. The findings suggest that the variable rate mode utilizing the BOVW detection algorithm represents the optimal mode of operation for the smart sprayer system.

    Keywords: weed, Artificial Neural Network, Sprayer, HOG, Classification, Herbicide
  • Mohammad Rajabghane *, Abbas Bahrololoum, Mahdi Eftekhari Pages 49-59

    Medical image segmentation is one of the most important steps in medical image analysis to improve diagnosis and findings. One of the most common segmentation methods in deep learning is the use of Unet networks. The presence of overlapping layers in the Unet decoder does not allow extracting information from deeper layers. Also, due to the limited range of the received field of convolution cores, long-range information and dependencies are not considered well. In this article, our goal is to place a structure in the area between encoder and decoder in the Unet model in order to fill the semantic gap between the encoder and decoder area and better extract features by paying attention to local and global features. This model makes the target region more prominent in different medical datasets. We have conducted our experiment on 6 medical data sets, and the results obtained in two evaluation criteria, Dice and Iou, show that our proposed model has better results than Unet and based methods.

    Keywords: Medical Image Segmentation, convolutional neural network, Attention Mechanisms, Deep Learning, Unet
  • Alireza Safdarinezhad *, Seyed Abdollah Kianejad Tejenaki, Atiyeh Ganjali Pages 61-73

    Photometry is a well-known method for 3D reconstruction of objects using images taken in different lighting conditions. In this method, by knowing the light sources' direction, the normal vectors of the surface are recovered in a dense grid through the intensities recorded in the captured images. Each normal vector is then converted to the height difference in two orthogonal directions, and the simultaneous estimation of the heights for the dense grid is done by solving a system of linear, overdetermined and inconsistent equations. The miss-alignment of the coordinate system represents normal vectors and the dense grid frame of 3D reconstruction causes a systematic error in the estimation of the gridded heights map. Photometric self-calibration methods for determining the light sources’ direction are one of the causes of miss-alignments in object and surface normal vectors coordinate systems. In this paper, a sequential and iterative process is proposed to estimate and perform an appropriate rotation to the surface normal vectors. In each iteration of this method, a portion of the necessary rotation is identified in order to parallelize of the two object coordinate systems and surface normal vectors through fitting a geometric transformation to the estimated residuals of the 3D reconstruction process. The results of using the proposed method in various experiments have demonstrated a noticeable improvement in the precision and accuracy of 3D reconstruction.

    Keywords: photometry, 3D Reconstruction, Surface normal vectors, Residuals vector, Least-squares estimation
  • Maziar Zamani, Reza PR Hasanzadeh * Pages 75-84
    One of the ways to diagnose eye diseases is to examine the Retinal Fundus (RF) images by a specialist. But in patients with cataract disease, it is very difficult to diagnose other diseases due to the blurring of the RF images. The purpose of this article is to present a method based on deep learning to increase the accuracy of diagnosing common eye diseases in the presence of cataracts and other retinal lesions. In the proposed method, in order to solve the problem of mutual overlap between eye diseases, which leads to incorrect diagnosis of the disease, the weighting technique is used in the training of the proposed model in order to increase the detection capability of the deep learning network. Also, due to the limitation in the number of images containing cataracts, including other eye diseases for training the deep learning network, various models of destruction of RF images are used to artificially simulate the images of cataracts and some retinal lesions. The results of the evaluation on the reference databases of the RF images suffering of cataract show that the proposed algorithm has been able to achieve diagnosis accuracy value of 80, 82, 79, 81, 80 and 65, respectively, for Age-Related Macular Degeneration (ARMD), Myopia (MYA), Tessellation (TSLN), Glaucoma (GL), Neovascularization (NE), and Diabetic Retinopathy (DR).
    Keywords: Eye disease, Retinal fundus images, cataract, Classification, Deep Learning