فهرست مطالب

نشریه ماشین بینایی و پردازش تصویر
سال دهم شماره 3 (پاییز 1402)

  • تاریخ انتشار: 1402/04/29
  • تعداد عناوین: 6
|
  • حسنیه ذوالفقاری، مریم رستگارپور*، محمد تشنه لب، عباس کوچاری، علیرضا احسانبخش صفحات 1-29

    تفسیرخودکار تصاویر، زمینه جدیدی از هوش مصنوعی است که دو شاخه پردازش زبان طبیعی و یادگیری ماشین را به خدمت می گیرد. تحقیقاتی که در سالهای اخیر بر روی این مقوله انجام شده و نتایج قابل قبولی که در این زمینه حاصل شده است از یک طرف و نیاز جامعه پزشکی به تفسیرخودکار تصاویر پزشکی از طرف دیگر، محققان را بر آن داشته تا این رویکرد را در این زمینه نیز به کار گیرند. تفسیر خودکار تصاویر پزشکی نسبت به مساله توصیف خودکار تصاویر طبیعی، چالش برانگیزتر می باشد.کمیت و کیفیت مجموعه داده های موجود در این مقوله نسبت به مجموعه داده های تفسیر تصاویر طبیعی کمتر است، تفسیرها غیرساختار یافته اند و تفسیر تصاویر طبیعی، شامل توصیف اشیاء و روابط بین آنها با یک یا چند جمله است درحالی که شرح تصاویر پزشکی شامل درک یافته های بالینی و ارایه یک گزارش دقیق از پاراگراف های مختلف است؛ تا فقط آنچه از نظر بالینی مهم است به جای آنچه در تصویر از نظر اشیاء وجود دارد برجسته گردد. در راستای رسیدن به نتایج مطلوب روش های متعددی پیشنهاد شده است که در این بین روش های مبتنی بر یادگیری عمیق، به نتایج بهتری دست یافته است. این مقاله به معرفی مجموعه داده ها، معیارهای ارزیابی و روش های توسعه یافته بر پایه یادگیری عمیق در زمینه تفسیرخودکار تصاویر پزشکی می پردازد تا کمکی در راستای درک ادبیات موجود و برجسته نمودن مسیرهای آینده در این زمینه باشد.

    کلیدواژگان: تفسیر تصاویر پزشکی، تفسیر تصاویر، شبکه عصبی کانولوشن، شبکه عصبی بازگشتی، مکانیزم توجه
  • زهرا نظمی، محمدحسین شکور*، محسن رحمانی صفحات 31-45

    صخره های مرجانی بخش مهمی از اکوسیستم آب های کم عمق استوایی هستند و حفاظت از آنها بسیار مهم است. طبقه بندی تصاویر صخره های مرجانی شامل سه مرحله ی بهبود تصویر، استخراج ویژگی و طبقه بندی می باشد. در این پژوهش با تمرکز بر مرحله ی استخراج ویژگی، روشی برای طبقه بندی تصاویر مرجان های دریایی ارایه شده است. این روش از ترکیب دو الگوریتم دودویی محلی تشکیل شده است. ضمن اینکه بجای استفاده از همسایگی هایی با تعداد نقاط زیاد از ترکیب چند مقیاسی استفاده شده است یعنی چند همسایگی با اندازه های متفاوت ولی با تعداد نقاط ثابت با هم ترکیب شده اند. اینکار دقت طبقه بندی را بدون افزایش نمایی ویژگیها زیاد می کند. در حقیقت با ترکیب روش دودویی متقارن CS_LBP و روش دودویی تقویت شده با میانه MRELBP برخی از ویژگی های تصویر باهم ادغام می شود و ویژگی های محلی استخراج شده به وسیله ی روش CS_LBP در هر مرحله به نصف کاهش می یابد. در این پژوهش دقت مدل پیشنهادی بر روی مجموعه تصاویر مرجان های دریایی EILAT، EILAT2، RSMAS و MLC-2008 و همچنین مجموعه های بافتی CUReT، UIUC و KTH_TIPS ارزیابی شده است. دقت طبقه بندی روش پیشنهادی در همه داده های اخیر افزایش یافته است در حالیکه تعداد ویژگیهای استخراج شده از برخی روش ها کمتر است.

    کلیدواژگان: طبقه بندی تصاویر مرجان های دریایی، طبقه بندی تصاویر بافتی، استخراج ویژگی، الگوی دودویی محلی بهبود یافته
  • علی دلشادی، وحید مهرداد*، محمدباقر دولتشاهی صفحات 47-63

    بزرگ نمایی تصاویر دیجیتالی یکی از روش های پردازش تصویر می باشد، که وضوح تصویر را در زمینه دید رایانه ای بهبود می بخشد. در اصل این کار برای بزرگ نمایی تصاویر ثابت ومتحرک که از زمان تصویر برداری آن ها گذشته و دسترسی به دوربین یا صحنه ها برای زوم وجود ندارد، استفاده می شود. در این مقاله از شبکه سلسله مراتبی جهت استخراج ویژگی های سطح بالا برای حل چالش مرز بندی بین رنگ ها و از بلوک های توجه خود آموز برای کاهش عملیات کانولوشن پیشنهاد می شود. در ادامه برای بهینه سازی شبکه از روش جستجو تصادفی و تقسیم دودویی برای یافتن پاسخ بهینه پارامتر ها و فراپارامتر ها استفاده می گردد. با استفاده از روش جستجوی ذکر شده علاوه بر جستجوی وزن ها و پارامتر های شبکه، میتوان ساختار معماری را نیز جستجو کرد، این عمل باعث تنظیم خودکار فراپارامترها و بهینه سازی ساختار شبکه خواهد شد. برای بررسی کارایی روش پیشنهادی، نتایج شبیه سازی بر روی پایگاه داده تصاویر در این حوزه تست شده که این نتایج برتری روش پیشنهادی نسبت به روش های دیگر را نمایش می دهد. باتوجه به نتایج بدست آمده در بهینه سازی معماری با استفاده از روش ذکرشده در بزرگ-نمایی چهار برابر با بلوک سلسله مراتبی چهار طبقه و استفاده از بلوک توجه در بخش بزرگ نمایی به عدد سیگنال به نویز 66/32 دست یافت.

    کلیدواژگان: بزرگنمایی تصاویر دیجیتال، شبکه عصبی عمیق سلسله مراتبی، بهینه سازی ساختاری، بهینه سازی پویای تک متغیره، بلوک توجه
  • فرشاد غلامی، اسماعیل خان میرزا*، محمد ریاحی صفحات 65-77
    امروزه ترافیک به چالشی برای همه تبدیل شده است. یکی از راه های عبور از این مسیله، هوشمندسازی خودروهاست. لذا در این پژوهش به ارتقای ادراک محیط با استفاده از ترکیب داده های التراسونیک و بینایی استریو پرداخته شده است. در این پژوهش محققان پیشنهاد داده اند که روش بینایی استریوی قطع شده با استفاده از داده های التراسونیک به نحوی به روزرسانی شود که دقت و سرعت شناسایی مانع در خودروهای هوشمند به صورت هم زمان افزایش پیدا کند. بنابراین علاوه بر شباهت نور در پنجره ی انطباق، عمق پیکسل های همسایه به گونه ای مورداستفاده قرارگرفته است که بدون افزایش نمایی بار محاسباتی، اهداف مذکور محقق گردد. در همین راستا دو نوع پنجره ی انطباق تعریف گردیده است. یکی از این دو نمونه پنجره انطباق، مشابه با روش بینایی استریو قطع شده و دیگری به عنوان پنجره استنتاج است. با استفاده از پنجره استنتاج پیشنهادی بر پایه ی بینایی استریوی قطع شده، امکان اعمال تاثیر عمق پیکسل های همسایه به میزان کافی و تاثیرگذار فراهم شده و سبب کاهش57/61 درصدی خطا گردیده است. در ادامه باتوجه به نحوه ی پیاده سازی بر روی کارت گرافیک، علاوه بر کاهش خطا، سرعت شناسایی مانع 93/43 درصد بهبود پیداکرده است. بهبودهای مذکور سبب می شود که چنانچه خودرویی نیاز به شناسایی محیط در هر یک متر از حرکت خود داشته باشد، بتواند به سرعت 178/1km/ hدست پیدا کند و سبب افزایش قابلیت اطمینان در خودروهای هوشمند گردد.
    کلیدواژگان: خودروی هوشمند، شناسایی مانع، بینایی استریو، التراسونیک
  • رمضان هاونگی*، سید حمید خاتمی صفحات 79-92
    تشخیص اشیا، ردیابی اشیا و پیش بینی سری های زمانی، از چالش های اساسی در بینایی ماشین است. یادگیری عمیق، گام های بسیار بزرگی در حل این چالش ها برداشته است. اما برای بسیاری از مشکلات، راه حل های رضایت بخشی که در واقعیت، کاربرد-های مفیدی داشته باشد و بتوان از آن استفاده کرد، هنوز پیدا نشده است. در این مقاله، با دو چالش ردیابی و شناسایی اشیا روبرو هستیم که برای حل این مشکل، پیدا کردن لوله های محدود کننده برای حرکت اشیا در حوزه مکان- زمان پیشنهاد شده است. معمولا ردیابی اشیا و تشخیص اشیا، بصورت دو فرایند جداگانه مورد بررسی قرار می گیرد که تکامل و پیشرفت زیادی از طریق یادگیری عمیق برای تصاویردوبعدی، حاصل شده است. ردیابی اشیا به وسیله تشخیص اشیا، مستلزم آن است که جسم در اولین فریم و در تمام فریم های بعدی، با موفقیت شناسایی شود و بدین گونه، با مرتبط سازی نتایج حاصل شده از تشخیص اشیا، عملیات ردیابی را توسط خط لوله TPN انجام دادیم. عملیات شناسایی اشیا و ردیابی اشیا از طریق یک شبکه واحد، همچنان چالش بر انگیز و قابل بحث است. در این مقاله، یک ساختار شبکه ای پیشنهاد شده است که توانست یک شی متحرک و درحال حرکت را که محصور شده بود، با استفاده ازR-CNN Faster شناسایی کند. در این شبکه، TPN جایگزین RPN شده است و همین موضوع، باعث شناسایی بهتر اشیا و بهبود ردیابی شد. در این روش، با استفاده از عملیات شناسایی اشیا به ردیابی اشیا پرداخته شده است.
    کلیدواژگان: شناسایی و ردیابی همزمان اشیا، شناسایی اشیا، ردیابی اشیا، تشخیص اشیا
  • محدثه هنرمند حقیقی چمثقالی، سارا معتمد* صفحات 93-105
    دوربین های نظارت تصویری می توانند به عنوان یک ابزار قدرتمند برای خودکار سازی تشخیص موقعیت های مختلف و کمک در جهت تصمیم گیری های مناسب به منظور افزایش سطح امنیتی و حفاظتی بکارگرفته شوند ..یکی از مهمترین کاربردهای سیستم های نظارت تصویری، تشخیص اشیاء رها شده مانند چمدان های رها شده برای جلوگیری از بمب گذاری های خطرناک و سایر موارد است. در این راستا، در این مقاله یک مدل دومرحله ای مبتنی بر یادگیری عمیق جهت تشخیص اشیاء رها شده معرفی شده است. هدف مرحله اول تشخیص همه اشیاء ساکن در صحنه و مرحله دوم دسته یندی اشیاء رها شده است. در مرحله اول از مدل مخلوط گاوسی برای مدل سازی پس زمینه و تشخیص اجسام ساکن استفاده می شود. در مرحله دوم نیز برای مشخص کردن اشیاء رها شده از میان کلیه تصاویر استخراج شده از ترکیب شبکه عصبی کانولوشنی و الگوریتم آدابوست استفاده می شود. بر اساس نتایج ارزیابی ها مدل پیشنهادی از دقت بالاتری در تشخیص اشیاء رها شده نسبت به روش های پایه برخوردار است.
    کلیدواژگان: اشیاء مشکوک، دوربین های نظارتی، تفریق پس زمینه، شبکه‎ های عصبی کانولوشنی بهبود یافته، الگوریتم آدابوست
|
  • Hosniyeh Zolfaghari, Maryam Rastgarpour *, Mohammad Teshnehlab, Abbas Koochari, Alireza Ehsanbakhsh Pages 1-29

    Image captioning is a new field of artificial intelligence which uses both natural language processing and machine learning methods. Recently, several researches conducted on Image captioning have led to the acceptable results in this field. Moreover, the need of the medical community for automatic interpretation of medical images, prompted researchers to apply this approach in the field of automatic interpretation of medical images. The medical images captioning is more challenging than the problem of image description because medical images are mostly gray and accompanied by noise, the existing data sets have significantly few samples; On the other hand, the provided interpretations are not structured and have variable lengths. In order to achieve the desired results, many algorithms have been proposed, among which methods based on deep learning have achieved proper results. This article introduces datasets, evaluation criteria and methods developed based on deep learning in the field of automatic interpretation of medical images in order to help understand the existing literature and highlight future directions in this field.

    Keywords: Medical Image Captioning, image captioning, convolutional neural network, Recurrent Neural Network, attention mechanism
  • Zahra Nazmi, MohammadHossein Shakoor *, Mohsen Rahmani Pages 31-45

    Coral reefs are an important part of the tropical shallow water ecosystem and their protection is very important. Classification of coral reef images includes three stages of image enhancement, feature extraction and classification. In this research, by focusing on the feature extraction a method for features extraction for classification of coral corals images is proposed. This method consists of two methods of local binary pattern variants. In addition, instead of using a large neighborhoods, a multi-scale neighborhood with different sizes is used. This method employed a fixed number of points with different size of neighborhoods. This increases the classification accuracy without exponentially increasing the features. By combining the CS_LBP symmetric binary method and the MRELBP median enhanced binary method, some features of the image are merged together, and the local features extracted by the CS_LBP method are reduced by half in each step. In this research, the accuracy of the proposed model has been evaluated on EILAT, EILAT2, RSMAS, and MLC-2008 coral reef image sets. Also a general textures such as CUReT, UIUC, and KTH_TIPS texture are used. The classification accuracy of the proposed method has increased in all recent data, while the number of features extracted is decreased.

    Keywords: Coral Reef Classification, Textural Classification, Feature Extraction, Improved local binary pattern
  • Alli Delshadi, Vahid Mehrdad *, MohammadBager Dowlat Shahi Pages 47-63

    Enlarging digital images is one of the image processing methods, which improves the image in the field of computer vision. Basically, this is used to zoom in on still and moving images that have passed the time of their capture and there is no access to the camera or scenes to zoom. In this article, a hierarchy is proposed to extract high-level features to solve the demarcation challenge between colors and self-learning attention blocks to reduce convolution operations. In the following, to optimize the network, random search and binary division are used to find optimal answers and meta-parameters. Using the mentioned search method, in addition to searching for network weights and networks, I can also search for the architecture of the structure, this action will automatically generate meta-parameters and optimize the network structure. To check the effectiveness of the proposed method, simulation results on the database in this area have been determined, which show that the proposed method is superior to other methods. According to the results obtained in architecture, by using the four-fold magnification mentioned in the four-story series block and using the attention block in the magnification section, the display-to-noise number was 32.66.

    Keywords: super resolution of images, hierarchical deep neural network, Structural Optimization, single variable dynamic optimization, attention block
  • Farshad Gholami, Esmaeel Khanmirza *, Mohammad Riahi Pages 65-77
    Nowadays, traffic has become a challenge for everyone. One of the ways to overcome this problem is to make cars more intelligent. In this research, perception enhancement of the environment has been considered by using the data fusion of ultrasonic data and stereo vision. In this research, the researchers have suggested the cut stereo vision method by ultrasonic data in such a way that the accuracy and speed of obstacle detection will increase simultaneously in smart cars. Therefore, in addition to the similarity of the light intensity in the matching window, the neighboring pixels' depth has been used in a way to achieve the goals mentioned above without exponentially increasing the computational load. So, two types of compliance windows have been defined. One window is similar to the cut stereo method, and the other is called the inference window. By using the proposed inference window based on cut stereo vision, it is possible to apply the influence of the depth of neighboring pixels at a sufficient and effective level, which is reduced 61.57% error compared to the previous study. Furthermore, according to the suggested way of implementation on the graphic card, the obstacle detection speed has improved by 43.93% compared to the previous parallel implementation. The mentioned improvements make it possible to detect the environment in each meter of a car's movement if its speed is 178.1 km/h rather than 100.8km/h in the previous study. So current study produces smart cars more reliable.
    Keywords: Smart vehicles, Obstacle Detection, Stereo vision, ultrasonic
  • Ramazan Havangi *, Seyed Hamid Khatami Pages 79-92
    Identifying objects, tracking objects and predicting time series are among the basic challenges in machine vision. Deep learning has taken great steps in solving these challenges; But for many problems, satisfactory solutions that have useful applications in reality and can be used have not yet been found. In this issue, we are facing two challenges of tracking and identifying objects, and to solve this problem, it is proposed to find limiting tubes for the movement of objects in the space-time domain. Usually, object tracking and object detection are considered as two separate processes, which have been greatly improved through deep learning for 2D images. Object tracking by object detection requires that the object is successfully detected in the first frame and in all subsequent frames, and thus, by associating the results obtained from object detection, we performed the tracking operation by the TPN pipeline. The operation of identifying objects and tracking objects through a single network is still challenging and debatable. In this paper, a network structure is proposed that was able to identify a moving and moving object that was enclosed, using R-CNN Faster. In this network, we replaced TPN with RPN, and this led to better object identification and improved tracking. In this method, we tracked objects using object detection operations.
    Keywords: Simultaneous identification, tracking of objects, object identifying, Object Tracking, Object Recognition
  • Mohadeseh Honarmand Haghighi Chamesghali, Sara Motamed * Pages 93-105
    Video surveillance cameras can be used as a powerful tool for automating the detection of various situations and helping to make appropriate decisions in order to increase the level of security and protection. One of the most important applications of video surveillance systems is the detection of abandoned objects such as abandoned luggage is to prevent dangerous bombings and other cases. In this regard, in this article, a two-stage model based on deep learning has been introduced to detect abandoned objects. The purpose of the first stage is to detect all the objects in the scene and the second stage is to classify the abandoned objects. In the first step, the Gaussian mixture model (GMM) is used to model the background and detect stationary objects. In the second step, a combination of convolutional neural network (CNN) and the AdaBoost algorithm is used to identify the abandoned objects among all the extracted images. Based on the results of the evaluations, the proposed model has a higher accuracy in detecting abandoned objects than the basic methods.
    Keywords: Suspicious objects, surveillance cameras, Background subtraction, improved convolutional neural networks, AdaBoostalgorithm