فهرست مطالب

پردازش علائم و داده ها - سال دهم شماره 1 (پیاپی 19، بهار و تابستان 1392)

فصلنامه پردازش علائم و داده ها
سال دهم شماره 1 (پیاپی 19، بهار و تابستان 1392)

  • تاریخ انتشار: 1392/05/07
  • تعداد عناوین: 6
|
  • حسین قانعی یخدان صفحات 3-12
    ارسال ویدئوی فشرده شده درکانال های مستعدخطا ممکن است سبب اتلاف در بسته های ویدئو شود که این می تواند کیفیت تصویر را کاهش دهد. اختفای خطا، یک ره یافت موثر جهت کاهش اتلاف ناشی از اطلاعات از دست رفته است. شیوه های اختفای خطای زمانی متداول، همیشه در مواقعی که شیء ویدئو دارای حرکات غیرعادی باشد، کارایی خود را از دست می دهند. در این مقاله، به منظور غلبه بر این مشکل، یک ره یافت اختفای خطای زمانی کارآمد جهت پنهان سازی خطای ماکروبلاک برای سامانه های کدگذار ویدئو پیشنهاد می شود. روش پیشنهادی از یک شبکه عصبیRBF برای تخمین بردارهای حرکت ماکروبلاک های آسیب دیده استفاده می کند. تخمین زنRBF فقط برای نواحی ویدئو با حرکات سریع استفاده می شود، که این پیچیدگی محاسبات را کاهش می دهد. به دلیل ظرفیت بزرگ شبکه های عصبی در تجسم و تفسیر مجموعه های داده با ابعاد بالا، روش پیشنهادی می تواند بردارهای حرکت آسیب دیده در نواحی با حرکت سریع را به درستی تخمین بزند. نتایج تجربی نشان می دهد که شیوه پیشنهادی، کیفیت ذهنی و عینی فریم های بازسازی شده را ارتقا می دهد؛ به طوری که میانگین بیشینه نسبت سیگنال به نوفه برای دنباله های مورد آزمایش در بعضی از فریم ها حدود dB5/1 نسبت به روش BMA افزایش می یابد.
    کلیدواژگان: اختفای خطای زمانی، شبکه عصبی RBF، تخمین بردار حرکت، جبران سازی حرکت
  • سیده زهره سیدصالحی، سیدعلی سیدصالحی صفحات 13-26
    در این مقاله با توسعه روش های موجود و بر مبنای کمینه سازی خطا و حفظ تمایز بیشینه بین نمونه ها، یک روش پیش تعلیم لایه به لایه سریع و کارا جهت مقداردهی اولیه مناسب وزن ها در شبکه های عصبی با ساختارهای عمیق ارائه شده است. تعلیم شبکه های عصبی عمیق به دلیل مواجهه با تعداد بالای کمینه های موضعی اغلب همگرا نمی شود. درحالی که با مقداردهی اولیه مناسب وزن های شبکه به جای مقادیر تصادفی در ابتدای مسیر تعلیم، می توان از بسیاری از کمینه های موضعی اجتناب کرد. در این روش شبکه عصبی چندلایه به تعداد متناظری شبکه با یک لایه پنهان شکسته می شود و ابتدا این شبکه های یک لایه پنهان تعلیم داده می شوند. سپس مقادیر وزن حاصل از تعلیم اینها در شبکه عصبی اصلی قرار داده می شود و برای تنظیم دقیق وزن ها، تعلیم یک پارچه صورت می گیرد. روش پیشنهادی برای پیش تعلیم شبکه عصبی خودانجمنی پنج لایه پنهان جهت استخراج مولفه های اساسی غیرخطی چهره برای دادگان بسفروس مورد استفاده قرار گرفت. مقایسه میانگین نتایج شبکه های عصبی با مقداردهی اولیه تصادفی و مقداردهی با روش پیش تعلیم لایه به لایه نشان می دهد که این روش پیش تعلیم، علاوه بر اینکه سرعت همگرایی تعلیم را بهبود می دهد، قدرت تعمیم شبکه را نیز بالا می برد. به گونه ای که با وجود خطای تعلیم یکسان، با به کارگیری روش پیش تعلیم لایه به لایه برای مقداردهی اولیه وزن ها، خطای بازسازی هر پیکسل %69/13 کاهش و درصد صحت بازشناسی تصاویر با استفاده از مولفه های استخراج شده حدود %10 بهبود داشته است. همچنین بررسی ها نشان داد که روش پیش تعلیم لایه به لایه در مقایسه با دو روش پیش تعلیم مشرف به هدف و تجزیه به ماشین های بولتزمان کارایی بالاتری دارد
    کلیدواژگان: استخراج مولفه، پیش تعلیم، شبکه های عصبی، ساختار عمیق، همگرایی
  • یاسر شکفته، فرشاد الماس گنج صفحات 27-42
    یکی از رویکردهای موثر در بهبود کارایی سامانه های بازشناسی گفتار، طراحی روش های متنوع استخراج ویژگی از سیگنال گفتار و ترکیب اطلاعات به دست آمده از آنهاست. تحقیقات اخیر نشان می دهد که سیگنال گفتار رفتار غیرخطی و آشوبی دارد؛ ولی از این مشخصه سیگنال گفتار در سامانه های بازشناسی پیوسته گفتار استفاده نمی شود. یکی از حوزه های مناسب برای نمایش مشخصه های پویا و غیرخطی سیگنال آشوبی، فضای بازسازی شده فاز (RPS) است، از این رو در این مقاله یک روش جدید استخراج ویژگی مبتنی بر RPS (LLRPS) پیشنهاد شده است. این ویژگی ها از امتیاز شباهت تراژکتوری سیگنال گفتار جاسازی شده در RPS با مجموعه ای از مانیفولدهای واجی از پیش تعیین شده محاسبه می شوند. سپس مقادیر احتمال پسین واجی به وسیله ساختار شبکه عصبی TMLP از روی ویژگی های LLRPS تخمین زده می شود. ساختار شبکه عصبی استفاده شده، به صورتی است که علاوه بر توانایی استخراج اطلاعات پویا، قابلیت پیاده سازی روش های متنوع ترکیب خروجی دارد. نتایج آزمایش ها برروی مجموعه دادگان گفتاری فارس دات نشان می دهد که ترکیب غیرخطی خروجی سامانه های بازشناسی، شامل ویژگی های متداول کپستروم MFCC و ویژگی های پیشنهادی LLRPS، به ترتیب منجر به بهبود 94/3 درصد در دقت بازشناسی قاب و 02/4 درصد در دقت بازشناسی واج نسبت به عمل کرد سامانه بازشناسی پایه شده است.
    کلیدواژگان: بازشناسی گفتار پیوسته، استخراج ویژگی، فضای بازسازی شده فاز، مانیفولدهای واجی، امتیاز درست نمایی، شبکه عصبی
  • محمدرضا فتاحی حسن آباد، حسین قانعی یخدان، علی محمد لطیف صفحات 43-56
    سامانه های ته نقش نگاری با توجه به کاربرد، ویژگی های خاصی دارند. شفافیت و مقاومت از مهم ترین این ویژگی هاست، که در اکثر کاربرد ها مورد نیازند. این دو ویژگی در تضاد با یکدیگر هستند و با ضریبی به نام قوت ته نقش کنترل می شوند. در اثر کاهش قوت ته نقش، شفافیت سامانه ته نقش نگاری افزایش و مقاومت آن کاهش می یابد و برعکس. در یک سامانه ته نقش نگاری داشتن این دو ویژگی به طور هم زمان امکان پذیر نیست و باید با انتخاب صحیح قوت ته نقش مصالحه ای بین شفافیت و مقاومت برقرار کرد. در این مقاله رهیافت جدیدی بر اساس الگوریتم رقابت استعماری برای یافتن قوت ته نقش جهت داشتن هم زمان ویژگی های شفافیت و مقاومت پیشنهاد می شود. نتایج حاصل از پیاده سازی نشان می دهد که الگوریتم پیشنهادی با داشتن پیچیدگی محاسباتی کم تر، قوت ته نقش مناسبی را برای سامانه ته نقش نگاری در مقایسه با الگوریتم ژنتیک ارائه کرده است.
    کلیدواژگان: ته نقش نگاری تصویر دیجیتال، تبدیل کسینوسی گسسته، الگوریتم رقابت استعاری
  • مهدی بنی طالبی دهکردی، حمیدرضا ابوطالبی، محمد تقی صادقی، جوزف کیتلر صفحات 57-68
    در این مقاله با استفاده از راه کار نمونه برداری فشرده، الگوریتمی برای استخراج ویژگی از سیگنال های صوتی معرفی می شود. در روش پیشنهادی، ابتدا سیگنال صوت، پنجره گذاری شده و تبدیل فوریه نمونه های درون هر پنجره محاسبه می شود. سپس مقادیر دامنه های هنجارشده ضرایب به دست آمده در هر پنجره با هم جمع شده و از بردار حاصله که مولفه های آن مجموع دامنه ضرایب در هر پنجره است دوباره تبدیل فوریه گرفته می شود؛ درنهایت با توجه به تنکی ایجاد شده، از بردار به دست آمده به صورت تصادفی نمونه برداری می شود. در این پژوهش در کاربرد های مختلفی، از بردار ویژگی به دست آمده استفاده شده است. ازجمله این کاربردها می توان به طبقه بندی اصوات و مکان یابی منابع صوت اشاره کرد. در شبیه سازی های صورت گرفته نشان داده می شود که در مقایسه با برخی طبقه بندی کنندهای مطرح دیگر، طبقه بندی کننده مبتنی بر ویژگی ارائه شده، دقت بیش تر و بار محاسباتی کمتر دارد. همچنین در شبیه سازی ها نشان داده شده است که با استفاده از این الگوریتم استخراج ویژگی، موقعیت منابع را با خطای کمتر از دو درصد می توان، تعیین کرد.
    کلیدواژگان: نمونه برداری فشرده، استخراج ویژگی، طبقه بندی اصوات، مکان یابی منابع صوت
  • حمیدرضا شاهدوستی، محمدحسن قاسمیان صفحات 69-78
    هدف نهایی ادغام تصاویر، به دست آوردن تصویری است که به طور هم زمان دقت مکانی و طیفی بالایی داشته باشد. الگوریتمPCA استاندارد که به طور معمول در ادغام تصاویر به کار می رود، منجر به تخریب اطلاعات طیفی در تصویر ادغام شده می-شود. در این مقاله، به منظور جلوگیری از نقطه ضعف الگوریتم PCA استاندارد، از تبدیل PCA مکانی به عنوان روشی نوین در ادغام تصاویر چندطیفی و تک رنگ استفاده و استدلال می شود که روش ارائه شده، کارایی بالاتری در حفظ اطلاعات طیفی و مکانی دارد. در انتهای مقاله یک روش ارزیابی نوین معرفی و استدلال می شود که این روش ارزیابی، کاراتر از روش متداول اطلاعات متقابل است. تصاویر ادغام شده، با استفاده از روش پیشنهادی و سایر روش های رایج مانند: همبستگی خطی، ERGAS، SAM، UIQI، و اطلاعات متقابل ارزیابی می شوند و برتری الگوریتم پیشنهادی در حفظ اطلاعات مکانی و طیفی نسبت به سایر الگوریتم ها نشان داده می شود.
    کلیدواژگان: ادغام تصاویر، تصاویر تک رنگ، تصاویر چند طیفی، PCA استاندارد، PCA مکانی
|
  • Hossein Ghanei Yakhdan Pages 3-12
    Transmission of compressed video over error prone channels may result in packet losses, which can degrade the image quality. Error concealment (EC) is an effective approach to reduce the degradation caused by the missed information. The conventional temporal EC techniques are always inefficient when the motions of the video object are irregular. In this paper, in order to overcome this problem, an efficient temporal EC approach to conceal the macroblock error for video coding systems is proposed. The proposed EC method employs a RBF neural network to estimate the motion vectors of the damaged macroblocks. RBF estimator is used only for areas of the fast motions, which reduces computation complexity. Because the neural networks have a great capacity for visualizing and interpreting high-dimensional data sets, the estimation model proposed herein can exploit the nonlinearity property of the neural networks to estimate lost motion vectors more accurately. Simulation results show that the proposed technique enhances both subjective and objective quality of reconstructed frames, such as the average PSNR increases about 1.5 dB compared to the BMA method for the test video sequences in some frames.
    Keywords: temporal error concealment, RBF neural network, motion vector estimation, motion compensation
  • Seyyede Zohreh Seyyedsalehi, Seyyed Ali Seyyedsal Pages 13-26
    In this paper, we propose efficient method for pre-training of deep bottleneck neural network (DBNN). Pre-training is used for initial value of network weights; convergence of DBNN is difficult because of different local minimums. While with efficient initial value for network weights can avoided some local minimums. This method divides DBNN to multi single hidden layer and adjusts them, then weighs of these networks is used for initial value of DBNN weights and then train network. Proposed network is used for extraction of face component. This Method is implemented on Bosphorus database. Comparing results shows that new method has more convergence speed and generalization than random initial value. By means of this new training method and with same training error rate pixel reconstruction error is decreased 13.69% and recognition rate is increased 10%. Besides, it has been shown that this method bears higher efficiency and convergence speed in comparison with some of the previous pre-training methods.
    Keywords: Deep Architecture, Learning Convergence, Neural Network, Pre, training
  • Yasser Shekofteh, Farshad Almasganj Pages 27-42
    Design of new feature extraction methods out of the speech signal and combination of their obtained information are the most effective approaches to improve the performance of automatic speech recognition (ASR) system. Recent researches have been shown that the speech signal contains nonlinear and chaotic properties, but the effects of these properties were not used in the continuous ASR systems. Reconstructed phase space (RPS) is an appropriate domain to exhibit nonlinear properties of a chaotic signal. Therefore, in this paper a new method is proposed to utilize the RPS-based features (LLRPS). These features will be computed using similarity scores between the embedded speech signal in the RPS and a set of predefined phoneme manifolds. Then, TMLP-based neural network estimates phoneme posterior probability over the LLRPS features. This network includes some useful properties such as extracting dynamic information and output combination methods. Experimental results using Farsdat speech database show that nonlinear combination of the speech recognition outputs including traditional MFCC features and LLRPS features, leading to improvement of 3.94% and 4.02% in the accuracy of frame and phoneme recognition, respectively.
    Keywords: Continuous speech recognition, Feature extraction, Reconstructed phase space, Phoneme manifolds, Likelihood Score, Neural network
  • Mohammadreza Fattahi Hassan Abad, Hossein Ghanei Yakhdan, Ali Mohammad Latif Pages 43-56
    Watermarking systems have specific feathers in accordance with their applications. In many applications transparency and robustness are needed which are the most important features. These two features are in contrast to each other and are controlled by a parameter named watermark strength. With decreasing the watermark strength, transparency of the watermarking system increases while the robustness of the watermarking system decreases and vice versa. Having these two features is not possible at the same time in a watermarking system and there should be tradeoff between transparency and robustness choosing correct watermark strength. In this paper, the imperialist competitive algorithm is used for determining the watermark strength for having transparency and robustness at the same time. The simulation results show that the imperialist competitive algorithm can propose proper watermark strength for a watermarking system with less computational complexity.
    Keywords: digital image watermarking, discrete cosine transform, imperialist competitive algorithm
  • Mehdi Banitalebi, Dehkordi, Hamid Reza Aboutalebi, Mohammad Taghi Sadeghi, Josef Kittler Pages 57-68
    In this paper, we present a Compressive Sampling (CS)-based feature extraction method for audio signals. In the proposed approach, the audio signal is firstly segmented by hamming windows and the Discrete Fourier Transform (DFT) of the samples is calculated within each frame. Then, the normalized values of the DFT coefficients of each frame are accumulated. At the next step, the second DFT is applied on the vector formed from the accumulated sum in consecutive frames. Finally, considering the sparseness of the resulted vector, our proposed CS-2FFT feature vector is achieved by a random sampling. In this research, the performance of CS-2FFT feature vector has been examined in the applications of audio classification and audio source localization. The simulation show that the proposed feature vector results in a classifier which is more accurate and less computationally complex compared to the classical classifiers. Also, it is shown that the employing CS-2FFT feature vector, the localization error will be less than 2%.
    Keywords: Feature Extraction, Compressive Sampling, Genre Classification, Sound Source Localization
  • Hamid Reza Shahdoosti, Mohammad Hassan Ghassemian Pages 69-78
    Obtaining an image with high spectral and spatial resolution is the goal of image fusion. PCA is a well-known pan-sharpening approach widely used for its efficiency and high spatial resolution. However, it can distort the spectral characteristics of the multispectral images. To avoid the weak points of the standard PCA technique, spatial PCA transform has been proposed and reasons of superiority of this method in maintaining the spectral information are discussed in this paper. Also, a new assessment criterion is proposed and the advantage of this criterion relative to the conventional mutual information criterion is argued. The proposed assessment metric and other popular metrics such as: ERGAS, SAM, correlation coefficient UIQI, and mutual information are used to analyze the fusion result. These assessments show that the proposed method has the least color distortions and contains more spatial information.
    Keywords: Image Fusion, Panchromatic Images, Multispectral Images, Standard PCA, Spatial PCA