فهرست مطالب

نشریه ماشین بینایی و پردازش تصویر
سال یکم شماره 1 (بهار و تابستان 1392)

  • تاریخ انتشار: 1392/06/20
  • تعداد عناوین: 6
|
  • فهیمه فولادگر*، شادرخ سماوی، محمدرضا سروش مهر صفحات 1-10
    در سال های اخیر، گسترش تکنولوژی حسگرهای دوربین و هم چنین پردازش توزیع شده، موجب اهمیت شبکه هایی تحت عنوان شبکه حسگر دوربین گردیده است.این شبکه ها در کاربردهایی نظیر پایش محیط و ردیابی اهداف مورد استفاده قرار می گیرند. تشخیص حضور هدف، تعیین مکان و یا ارتفاع هدف در ناحیه مشخصی از محیط دیده بانی از مسائل مهم در چنین کاربردهایی محسوب می شود.تعیینارتفاع هدف، بر اساس تصاویر دوربین ها، به دلیل مواردی از جمله وضوح تصویر و خطای لنز دارای خطا می باشد. به همین دلیل نیاز است دوربین هایی برای تخمین ارتفاع هدف انتخاب شوند که خطای اندازه گیری کمتری داشته باشند. به همین منظور در این مقاله ابتدا به بررسی و تخمین میزان خطای تعیین ارتفاع هدف با استفاده از دو دوربین می پردازیم. در این راستا مدل هندسی جامعی برای تحلیل خطای اندازه گیری حاصل از کوانتیزاسیون صفحه تصویر دوربین ارائه می شودکه در سیستم هایی با بیش از دو دوربین نیز قابل اعمال می باشد. در ادامه با توجه به نیاز افزایش دقت تعیین ارتفاع هدف در شبکه حسگر دوربین، الگوریتم هایحریصانه و ژنتیک برای انتخاب دوربین های مناسب در سطح شبکه ارائه شده است. برخلاف روش های موجود، در الگوریتم های پیشنهادی، دقت تعیین ارتفاع هدف به همراه محدودیت های حاکم بر شبکه حسگر دوربین، در نظر گرفته شده است تا بدین وسیله در حالی که دقت اندازه گیری ها افزایش می یابد، طول عمر شبکه نیز افزایش یابد. نتایج شبیه سازی ها حاکی از آن است که معیار های ارائه شده، می تواند موجب کاهش بارمحاسباتی و میزان مصرف انرژی شبکه و افزایش سرعت انتخاب گردد.
    کلیدواژگان: شبکه حسگر دوربین، تعیین ارتفاع هدف، انتخاب دوربین، طول عمر شبکه
  • سید جلال الدین موسوی راد *، فردین اخلاقیان طاب صفحات 11-18
    برنج یکی از مهمترین مواد غذایی در ایران می باشد. ممکن است یک رقم برنج با کیفیت بالا با اهدافی مثل سودجویی با یک رقم برنج دیگر که کیفیت پایین تری دارد مخلوط شود. این مقاله به ارائه ی یک سیستم خبره جهت تشخیص اصالت ارقام برنج با استفاده از تصاویر گرفته شده از توده ی برنج پرداخته است. ایده ی اصلی جهت تشخیص اصالت بر روی بافت برنج استوار است که ممکن است با مخلوط شدن دو رقم برنج با یکدیگر، بافت توده ی آنها نیز تغییر نماید. به این منظور، در ابتدا، با استفاده از یک جعبه سیاه در فواصل مختلف ترکیبی، تصویربرداری انجام شد. سپس ویژگی های بافتی مربوط به توده ی برنج با استفاده از سه روش هیستوگرام تصویر، ماتریس هم رویدادی و الگوی دودویی محلی به دست آمد. جهت پیداکردن ویژگی های برتر استخراجی، از الگوریتم ژنتیک استفاده شد. سپس از یک شبکه عصبی برای رگرسیون استفاده شد. ورودی این شبکه عصبی، ویژگی های برتر استخراجی و خروجی آن درصد ترکیب بود. بهترین کارایی با استفاده از الگوی دودویی محلی با مقدار خطای 92/4 و ضریب همبستگی9153/0 به دست آمد. برای بهبود نتایج ارائه شده، نتایج مرحله قبل با هم ترکیب شد که مقدار خطا به 21/4 و ضریب همبستگی 9356/0 کاهش پیدا کرد. نتایج این پژوهش می تواند در ساخت یک سیستم اصالت سنج ارقام برنج مورد استفاده قرار گیرد.
    کلیدواژگان: اصالت سنجی، برنج، بافت، الگوریتم ژنتیک، هیستوگرام، ماتریس هم رویدادی، الگوی دودویی محلی
  • عصمت راشدی *، حسین نظام آبادی پور، سعید سریزدی صفحات 19-27
    بازیابی معنایی تصویر از مباحث مورد توجه در بازشناسی الگو است. یکی از روش های متداول جهت نزدیکتر شدن سامانه بازیابی به محتوای معنایی تصاویر، استفاده از بازخورد ربط است. در این مقاله رویکردی جهت یادگیری کوتاه مدت به روش بهبود تابع شباهت ارائه شده که استفاده از گرادیان نزولی در یادگیری وزن های تابع شباهت را بهبود داده است. در این روش، علاوه بر وزن های هر مولفه ویژگی، وزن های نوع ویژگی نیز بهینه سازی می شوند. همچنین یک تابع هزینه مناسب تعریف شده که نسبت به روش های مشابه، دقت و سرعت بازیابی را بالا می برد. روش پیشنهادی در یک پایگاه تصویر با 10000 تصویر آزموده شده و نتایج آن با چند روش متداول در یادگیری کوتاه مدت ارائه و مقایسه شده است. نتایج آزمایش ها، کارامدی روش پیشنهادی را در بهبود دقت و کاهش زمان بازیابی نشان می دهد.
    کلیدواژگان: بازیابی تصویر، بازخورد ربط، یادگیری کوتاه مدت، تابع شباهت، گرادیان نزولی
  • محمد رمضانی، حسین ابراهیم نژاد صفحات 28-43
    امروزه با توجه به رشد روز افزون مدل های سه بعدی در رسانه های دیجیتال و به خصوص اینترنت، نیاز به یک سیستم یک پارچه جستجوی مدل های سه بعدی به شدت احساس می شود. از آنجائیکه بسیاری از توصیف گرهای مورد استفاده در این زمینه نسبت به تغییرات و تبدیلات تشابه، بدون تغییر نیستند، هم تراز کردن مدل های سه بعدی یکی از مهمترین گام های رسیدن به یک سیستم بازیابی و یا تشخیص مدل های سه بعدی با دقت بالا می باشد. بنابراین، در این مقاله، روشی برای تخمین حالت های مختلف یک مدل سه بعدی مثلثی در فضای سه بعدی با استفاده از الگوریتم بهینه سازی Nelder-Mead، ارائه می شود. روش ارائه شده در این مقاله به این صورت می باشد که پس از انجام استانداردسازی مدل های مورد بررسی به لحاظ موقعیت و تغییرات مقیاس، به منظور هم ترازسازی مدل های سه بعدی از نقطه نظر چرخش، در هر کلاس از مدل های موجود در پایگاه داده مورد بررسی، یکی از مدل های سه بعدی به عنوان الگو در نظر گرفته شده و بقیه مدل ها طوری در فضای سه بعدی دوران داده می شوند که به بهترین حالت ممکن برای انطباق با مدل الگو دست یابند. تابع هزینه ای که در الگوریتم مذکور بهینه می شود برابر میزان اختلاف مساحت سایه نماهای حاصله از مدل سه بعدی مورد نظر در زاویه های دید متناظر است. جهت بررسی صحت روش ارائه شده، از مدل های سه بعدی موجود در پایگاه داده McGill، استفاده شده است. نتایج کمی به دست آمده از آزمایشهای مختلف، بیانگر موفقیت الگوریتم پیشنهادی در هم تراز سازی مدل های مورد بررسی می باشد. بطور مثال، برای مدل سه بعدی هواپیما با بکارگیری تصاویر سایه نما با ابعاد 256*256پیکسل، خطای کمینه (مجموع مساحت ناحیه غیر همپوشان سایه نماهای متناظر) در بهترین حالت به مقدار 36437 پیکسل می رسد که این خطا معادل 8/6% مجموع مساحت سایه نماهای دو مدل سه بعدی مورد بررسی (ثابت و متحرک) می باشد.
    کلیدواژگان: مدل سه بعدی، تخمین حالت، هم ترازی چرخشی، الگوریتم Nelder، Mead، بهینه سازی
  • محمدحسین سیگاری *، حمید سلطانیان زاده، حمیدرضا پوررضا صفحات 44-57
    رویداد گل، مهمترین رویداد مسابقه فوتبال است و آشکارسازی آن در سیستم های خلاصه سازی، جستجو و بازیابی ویدیو مسابقات فوتبال کاربرد زیادی دارد. در این مقاله روشی جدید برای آشکارسازی گل در ویدیوی پخش تلویزیونی مسابقات فوتبال ارائه می گردد. روش پیشنهادی با پردازش داده های صوتی و تصویری در سطح پایین و سطح میانی، ویژگی های مناسب را استخراج کرده و از آنها برای آشکارسازی گل که یک مفهوم سطح بالاست، استفاده می کند. در پردازش های سطح پایین، ابتدا انرژی صوتی و هیستوگرام سه بعدی در فضای RGB استخراج شده و مرز بین شات ها تعیین می گردد. سپس در پردازش های سطح میانی، نوع نما برای هر شات تعیین می شود. همچنین لوگوی مسابقات در ویدیو آشکارسازی شده و بر اساس آن، بخش های پخش مجدد مشخص می شود. در مرحله آخر، پس از بخش بندی ویدیو به واحدهای معنایی، ویژگی های استخراج شده از پردازش های سطح پایین و سطح میانی، با استفاده از یک سیستم استنتاج فازی مورد بررسی قرار گرفته تا بخش هایی از ویدیو که شامل رویداد گل هستند، آشکارسازی شوند. نوآوری عمده این روش، به کارگیری دانش زمینه و قوانین اکتشافی در قالب سیستم استنتاج فازی است. این نوآوری علاوه بر ارائه یک راهکار برای توصیف ساده تر قوانین اکتشافی توسط فرد خبره و اعمال آن به سیستم، از مزایای مدل سازی فازی و استنتاج فازی نیز بهره مند است. آزمایش های انجام شده بر روی 12 ویدیو مربوط به مسابقات جام جهانی 2010 آفریقای جنوبی نشان می دهد نرخ دقت و نرخ بازخوانی روش پیشنهادی به ترتیب 90.9% و 90.9% می باشد و نسبت به روش های دیگر عملکرد بهتری دارد .
    کلیدواژگان: آشکارسازی گل، فوتبال، سیستم استنتاج فازی، ویدیو پخش تلویزیونی
  • محمد قاصری، حسین ابراهیم نژاد صفحات 58-68
    در این مقاله روشی برای بازیابی تصاویر چهره با استفاده از هیستوگرام گرادیان و الگوی باینری محلی(LBP) پیشنهاد شده است. در این روش ابتدا تصاویر را با استفاده از موقعیت مرکز چشم ها تنظیم می کنیم و سپس ناحیه ی چهره را در آن ها استخراج می کنیم. برای استخراج ویژگی، در اطراف هر پیکسل سلول های کوچکی در نظر گرفته و در هر سلول هیستوگرام گرادیان را محاسبه می کنیم و آن را به پیکسل مرکزی سلول اختصاص می دهیم. بنابراین برای هر موقعیت پیکسل یک بردار بدست می آید که نشان دهنده ی هیستوگرام گرادیان همسایگی اطراف آن است. سپس برای هر موقعیت پیکسل، 8 همسایه ی آن را در شعاع R در نظر گرفته و هیستوگرام های اختصاص یافته به آن ها را با استفاده از روش LBP کدگذاری می کنیم تا تصویر کد بدست آید. در نهایت تصویر کد به چند ناحیه ی غیرهمپوشان تقسیم شده و در هر ناحیه یک هیستوگرام از مقادیر کدها محاسبه می شود. بردار ویژگی نهایی با کنار هم قرار دادن هیستوگرام های هر ناحیه بدست می آید. همچنین برای بهبود عملکرد سیستم، یک طرح فیدبک ارتباطی مبتنی بر ماشین بردار پشتیبان (SVM) معرفی می کنیم.آزمایش ها را بر روی پایگاه دادهی AR و در دو حالت بدون در نظر گرفتن تصاویر با مانع و با در نظر گرفتن تصاویر با مانع انجام میدهیم. نتایج آزمایشها نشان می دهد که سیستم پیشنهادی بطور موثری می تواند تصاویر چهره را بازیابی کند. همچنینروش پیشنهادی خود را با برخی از روش های موفق در توصیف چهره مقایسه کرده ایم. معیار دقت متوسط میانگین (MAP) برای روش پیشنهادی در حالت های اول و دوم آزمایش به ترتیب 40/94% و 12/68% بدست می آید که در مقایسه با بهترین نرخ روش های مقایسه شده پیشین یعنی 37/90% و 91/66% بهبود قابل توجهی دارد
    کلیدواژگان: الگوی باینری محلی، بازیابی چهره، فیدبک ارتباطی، ماشین بردار پشتیبان، هیستوگرام گرادیان
|
  • Fahimeh Fooladgar*, Shadrokh Samavi, S.M. Reza Soroushmehr Pages 1-10
    Research activities in wireless sensor networks have been growing in recent years. In such a network, sensor nodes collect scalar data such as temperature, pressure, humidity and etc. Scalar data are not sufficient for some applications like automatic surveillance and environmental monitoring. With recent advances in the technology of image sensors and embedded processors, most of attentions have been concentrated on camera sensor networks. Therefore, these networks are being utilized in many applications such as environmental monitoring and target tracking. Target detection, localization and tracking in a specific region are the most important issues in these applications. Due to quantization in CCD cameras, the obtained information from these nodes is not very accurate.
    In this paper, we present a geometrical model to analyze the quantization error. The proposed model can be generalized to a multi-camera system, where more than two cameras are used to have more accurate estimation of the target location. This error can be decreased by selecting cameras in the network with appropriate positions. Camera selection problem in camera sensor networks is essential not only to improve the accuracy of the network but also to compensate for the processing, energy and bandwidth limitation of each sensor node. Hence, for more accurate estimation of the target height and to prolong the lifetime of the network, we propose the priority as well as a genetic search algorithm. In these algorithms, the precision of height estimation and also the resource constraint of the network are considered. Therefore, the accuracy of the measurements and also the lifetime of the network are increased. Simulation results show that the proposed metrics decrease the computational overhead and energy consumption of the network.
    Keywords: Camera sensor network, height estimation, camera selection, network lifetime
  • Seyed Jalaleddin Mousavirad *, Fardin Akhlaghian Tab Pages 11-18
    Rice is one of the most important stable foods in Iran. Sometimes, for reason such as illegal profit, it is probable a commercial rice variety with good quality properties be mixed with some low quality properties that have great similarity in appearance. In this paper, an expert system for rice purity detection based on extracted texture features of bulk samples and modeling by a multilayer neural network has been introduced. First, images of bulk samples are taken using a black box. Then, texture features is extracted. In the next step, the best features are selected using a genetic algorithm approach. Finally, a neural network based regression is used for modeling of proposed approach. The best performance is obtained using local binary pattern. To increase the efficiency of the proposed approach, the results of previous section is combined using a majority voting approach. The result of this study can be used for construction of rice purity detection system.
    Keywords: Rice, Texture, Genetic Algorithm, Co, occurrence Matrix, Local binary pattern
  • Esmat Rashedi*, Hossein Nezamabadi, Pour, Saeid Saryazdi Pages 19-27
    Content-based image retrieval (CBIR) is a major challenge in the field of pattern recognition. The CBIR systems attempt to bridge the semantic gap by employing relevance feedback (RF) methods like short term learning (STL). This paper proposes a similarity refinement based STL method in CBIR systems. In this method, the weights of the feature’s components and also the weights of each type of features are optimized by minimizing an error function. The proposed method is examined in a standard public dataset with 10000 color images. The proposed error function improves the precision and computational time in comparison with the similar methods. The experimental results and comparison with the competing methods confirms the effectiveness and efficiency of the proposed method.
    Keywords: Image Retrieval, Short Time Learning, Similarity Measure, Gradient Decent
  • Mohammad Ramezani, Hossein Ebrahimnezhad Pages 28-43
    Since, most of the descriptors of 3D models are not invariant to various transformations and differentiations, the alignment of 3D models is one of the most important steps to achieve high precision 3D model retrieval system. In this paper, a method is presented to estimate the different pose of triangular mesh model in 3D space using Nelder-Mead optimization algorithm with non-overlapping pixels of each pair of 2D silhouettes for many viewing angles as cost function. So, after applying the translation and scale standardization for 3D models, in each class of considered database, a favorite model is selected as the example and the other models are rotated in such a way to reach the most similar 3D pose of example model. The overall performance of the suggested framework is evaluated using McGill 3D models Database. The numerical results obtained from different experiments prove the ability of proposed algorithm in 3D model alignment. For example, in airplane 3D model with silhouettes size, the error of alignment is 36437 pixels. This error equals to 6.8% of total area of whole 2D silhouette views of fixed moving 3D models.
    Keywords: 3D model, state estimation, rotational alignment, Nelder, Mead algorithm, Optimization
  • Mohammad Hoseyn Sigari *, Hamid Soltanian, Zadeh, Hamid, Reza Pourreza Pages 44-57
    Goal is the most important event in soccer matches; thus, goal event detection is very useful for video summarization and video retrieval. In this article, we propose a new goal event detection method in the broadcast soccer videos using a fuzzy inference system. In this method, audio-visual data is processed and low-level and mid-level features are extracted to detect the goal event as a high-level concept. At the low-level processing stage, audio energy is extracted from the audio signals and 3D RGB histogram is computed for each frame. Additionally, boundaries of shots are detected as low-level features. Then, mid-level processes are accomplished. This stage contains view type recognition, logo detection, and replay boundary detection. Finally, the video is segmented to some semantic parts and a fuzzy inference system investigates the content of each semantic part to detect goal events. The main contribution of our method is presentation of expert's knowledge and heuristic rules in the form of fuzzy rules for goal event detection. This method benefits from fuzzy modeling and fuzzy inference systems while presents heuristic rules in a simple and understandable form. A soccer video data set containing 12 videos related to FIFA 2010 (South Africa) was used for experiments. Experimental results show that precision and recall of our method is 90.9% and 90.9%, respectively. They also illustrate that the proposed method outperforms other methods for goal event detection.
    Keywords: Broadcast Soccer Video, Fuzzy Inference System, Goal Event Detection, Soccer Match
  • Mohammad Ghaseri, Hossein Ebrahimnezhad Pages 58-68
    Face retrieval is an important research topic in image processing and aims finding face images similar to a query image. In this paper, a novel method is proposed to retrieve face images using gradient histogram and local binary pattern (LBP). The combination of these two techniques will increase the robustness against face variations and thus improve system performance in face retrieval. In order to increase system ability, a relevance feedback scheme based on support vector machine (SVM) is proposed. The Experiments have been conducted on the AR face database in two modes: without occluded images and with occluded images. Experimental results show that the proposed method can retrieve face images effectively. In the next, the proposed method is compared with several successful methods in face researches. Mean average precision (MAP) metric for the proposed method in two experimental modes is equal to 94.40% and 68.12% , while the best results for compared methods is 90.37% and 61.99%, respectively. The results show that the proposed method is superior to these methods and is a good method to retrieve the face images.
    Keywords: Local binary pattern, face retrieval, relevance feedback, Support vector machine, gradient histogram