فهرست مطالب

پردازش علائم و داده ها - سال دوازدهم شماره 3 (پیاپی 25، پاییز 1394)

فصلنامه پردازش علائم و داده ها
سال دوازدهم شماره 3 (پیاپی 25، پاییز 1394)

  • تاریخ انتشار: 1394/10/17
  • تعداد عناوین: 9
|
  • بهزاد میرزابابایی، هشام فیلی صفحه 3
    در عصر فناوری، روزانه حجم زیادی از سند های الکترونیکی تولید می شود. ازآنجاکه این سند ها توسط افراد مختلف تولید می-شود، دارای خطاهایی هستند. وجود خطاها باعث کاهش کیفیت سند ها می شود؛ بنابراین وجود ابزارهای خطایاب باعث افزایش کیفیت می شود. یکی از انواع خطاها، خطای معنایی حساس به متن است. همان طور که از نام آن برمی آید، برای تشخیص و تصحیح آن، نیاز به تحلیل اطلاعات موجود در متن است. در این مقاله، یک رتبه بند متمایزگر مستقل از زبان برای خطایاب های معنایی حساس به متن ارائه دادیم و از اطلاعات کل متن برای رتبه بندی استفاده کردیم. موجود بودن جمله های قبلی و بعدی جمله خطادار یکی از پیش نیازهای روش ارائه شده است. این رتبه بندی توسط ویژگی های حساس به متن و یک مدل لگاریتم خطی انجام شده است. برای ارزیابی روش، از دو روش مبنای مختلف که یکی بر اساس مترجم ماشینی آماری و دیگری بر اساس مدل زبانی است، استفاده کرده ایم. به منظور ارزیابی سامانه از دو داده آزمون مختلف در زبان فارسی استفاده شده است. این روش باعث بهبود 17% در بازخوانی تشخیص و تصحیح نسبت به روش مبنای مترجم ماشینی آماری شده است.
    کلیدواژگان: خطایاب، خطای حساس به متن، مترجم ماشینی آماری، رتبه بندی آگاه به متن
  • الهام بایسته تاشک، علیرضا احمدی فرد، حسین خسروی صفحه 15
    در این مقاله یک روش دومرحله ای برای بازشناسی کلمات دست نوشته فارسی ارائه شده است. در مرحله اول برای افزایش دقت و کاهش بار محاسباتی، الگوریتمی برای کاهش کلمات فرهنگ لغت قابل مقایسه با کلمه مورد آزمون ارائه شده است. برای این منظور کلمات موجود در فرهنگ لغت توسط الگوریتم های خوشه بندی، دسته بندی می شوند. خوشه بندی در این مرحله بر اساس ویژگی هایی که شکل کلی کلمه را توصیف می کنند، می باشد. در مرحله دوم یک روش جدید جهت استخراج ویژگی هیستوگرام گرادیان تصویر کلمه پیشنهاد شده است که این روش پیشنهادی تناظر بین نمونه های مختلف تصاویر یک کلمه دست نوشته را بهتر نشان می دهد. با مقایسه بردار ویژگی استخراج شده از کلمه ورودی و بردار ویژگی کلمات نامزد (به دست آمده از مرحله اول) در یک طبقه بند K نزدیک ترین همسایه بهترین نامزد برای کلمه ورودی شناسایی می شود.
    نتایج پیاده سازی روش پیشنهادی بر روی پایگاه داده «ایران شهر» نشان می دهد که مرحله کاهش فرهنگ لغت و روش جدید جهت استخراج ویژگی هیستوگرام گرادیان، دقت و سرعت سامانه را به طور قابل ملاحظه ای هم از لحاظ دقت و تا حدودی از لحاظ سرعت بهبود می بخشد.
    کلیدواژگان: بازشناسی کلمه دست نوشته، الگوریتم خوشه بندی ISOCLUS، الگوریتم DTW، ویژگی نمایه، ویژگی هیستوگرام گرادیان
  • ابراهیم شاهین ورنوسفادرانی، محمدفرزان صباحی، محمد عطایی صفحه 31
    در این مقاله یک روش نمونه برداری اهمیتی برای تحقق آشکارساز و همسان ساز کور در مخابرات آشوبی پیشنهاد شده است. سیگنال های آشوبی با سامانه های پویای غیرخطی تولید می شوند. این سیگنال ها به دلیل داشتن خواص منحصر به فردی مانند شبه تصادفی بودن، پهنای باند عریض داشتن، غیرقابل پیش بینی بودن برای مدت طولانی و نیز برآورده کردن نیازهای مخصوص برخی از سامانه های مخابراتی، مورد توجه هستند. براساس خواص مختلف آشوب، روش های مخابراتی شامل مدولاسیون آشوبی، پوشش گذاری و طیف گسترده پیشنهاد شده است. در سامانه مخابراتی مورد بررسی در این مقاله نمادهای(Symbol) پیام با روش پوشش آشوبی (Chaos Masking) سوار و ارسال می شود، در این حالت مساله تخمین کانال یک مساله غیر خطی است که روش های متنوعی مانند فیلترکالمن گسترش یافته، فیلترذره ای، کمترین خطای پیش بینی غیرخطی و... برای حل آن استفاده شده است. در این مقاله رویکرد جدیدی برای تخمین ودی مدولاسیون با استفاده از نمونه برداری تصادفی (مونت کارلو) ارائه شده است. در گیرنده، برای تخمین نمادهای پیام ازنمونه برداری اهمیتی استفاده می شود. در مقایسه با فیلترکالمن گسترش یافته روش به کار رفته در این مقاله به خصوص در SNRهای پایین نتایج بهتری دارد.
    کلیدواژگان: مخابرات آشوبی، آشکارسازی، نمونه برداری اهمیتی، همسان سازی کور، پوشش آشوبی
  • علیرضا میرجلیلی، وحید ابوطالبی، محمدتقی صادقی صفحه 43
    در این مقاله مسئله طبقه بندی سیگنال های EEG مبتنی بر تصور حرکتی برای یک سامانه واسط مغز- رایانه (BCI)، توسط طبقه بندی کننده مبتنی بر نمایش تنک (SRC) مورد توجه واقع شده است. این طبقه بندی کننده برای کارایی بالا، نیاز به طراحی ماتریس واژه نامه قوی دارد. با توجه به کارایی بالای الگوریتم الگوهای مکانی مشترک (CSP) در سامانه های BCI، از این روش برای طراحی ماتریس واژه نامه استفاده شده است. از معایب CSPحساس به نوفه بودن و مسئله فرایادگیری در مجموعه های آموزشی کم است. برای رفع این معایب از دو نوع الگوریتم بهبود CSPبا نام های GLRCSPو DLRCSPاستفاده شده است. استفاده از این روش ها منجر به افزایش میانگین درصد صحت تشخیص به میزان حدود 78/ 7 % نسبت به گونه استاندارد CSPشده است. از سوی دیگر یکی از معایب طبقه بندی کننده SRC که از الگوریتم پایه BP استفاده می کند، زمان بربودن آن است. برای رفع این عیب، از الگوریتم جدید SL0 به عنوان جایگزین الگوریتم BP استفاده کردیم. نتایج نشان داد که نه تنها زمان مرحله آزمون بسیار کاهش می یابد، بلکه این تغییر منجر به افزایش میانگین درصد صحت تشخیص به میزان 61/ 1 % نسبت به الگوریتم استاندارد پایه می شود.
    کلیدواژگان: سیگنال های مغزی، طبقه بندی مبتنی بر نمایش تنک، الگوهای مکانی مشترک تنظیم شده، الگوریتم نرم صفر هموارشده (SL0)
  • سید حمیدیزدانی، حمیدرضا ابوطالبی صفحه 57
    با توجه به وجود عوامل بسیار در تخریب سیگنال گفتار، بهسازی این سیگنال اهمیت زیادی دارد. شکل دهی پرتو یکی از روش های مطرح برای بهسازی گفتار است که با استفاده از آرایه های میکروفونی صورت می پذیرد. با توجه به محدودیت های موجود در نحوه چینش میکروفون ها، پنجره ای به سوی بحث آرایه های میکروفونی با چیدمان نامنظم (Ad-hoc) گشوده شده است. با فرض عدم شناخت نسبت به مکان و چینش میکروفون ها و همچنین پراکنده بودن میکروفون ها در محیط، در این مقاله، نطریه خوشه بندی میکروفون ها براساس انرژی دریافتی از منابع موجود در محیط مورد توجه قرار گرفته و روش جدیدی برای خوشه بندی پیشنهاد شده است. در ادامه، برای هر خوشه میکروفونی، دو نوع رتبه پیشنهاد شده که براساس میزان فاصله به منبع نوفه و گوینده می باشند. همچنین براساس نتیجه خوشه بندی و رتبه بندی آنها، ساختار جدیدی برای شکل دهنده پرتو GSC (Generalized Sidelobe Canceller) ارائه شده است. برای حالتی که نوفه پخشنده نباشد، براساس انرژی منابع موجود در محیط روشی برای خوشه بندی پیشنهاد شده که می تواند برای سایر میدان های نوفه ای نیز به کار گرفته شود. با پیاده سازی و ارزیابی روش پیشنهادی دیده می شود که در بعضی از حالت ها، استفاده از یک خوشه در برابر به کارگیری تمام میکروفون ها نتیجه بهتری را به دست می دهد که این خود حاکی از دستاوردی دیگر است. این دستاورد، کاهش تعداد میکروفون های مورد استفاده است که به نوبه خود، کاهش پیچیدگی و حجم محاسبات (در عین افزایش کیفیت خروجی) را به دنبال دارد.
    کلیدواژگان: بهسازی گفتار، شکل دهی پرتو، آرایه های میکروفونی Ad، hoc، خوشه بندی، شکل دهنده پرتو GSC
  • مریم ستارپور، بابک محمدزاده اصل صفحه 69
    وجود تغییرات الکتریکی در مرحله رپلاریزاسیون سیکل قلبی با افزایش خطر آریتمی های بطنی و مرگ قلبی ناگهانی ارتباط مستقیمی دارد، بنابراین تشخیص و ارزیابی این تغییرات، که تغییرات موج (T (TWA نام گذاری شده اند، می تواند امکانات جدیدی را در اختیار پزشکان قرار دهد. با این حال تشخیص صحیح TWA به دلیل دامنه بسیار کوچک آن (گاهی کوچک تر از سطح نوفه) و ادغام شدن با نویزهای بیولوژیکی نظیر حرکت الکترودها، فعالیت ماهیچه ها و تنفس همواره با مشکلاتی مواجه است. ما در این مقاله برای تشخیص تغییرات موج T بر خلاف روش های متداول، از یک روش چندلیدی استفاده کرده ایم. روش پیشنهادی ابتدا تبدیل تحلیل مولفه های اساسی را به سیگنال های پیش پردازش شده اعمال می کند؛ سپس با اعمال روش همبستگی به داده های تبدیل یافته تغییرات موج T را تشخیص می دهد. این روش علاوه بر تشخیص صحیح تغییرات موج T، برخلاف سایر روش های موجود، مکان وقوع تغییرات را نیز تشخیص می دهد.
    کلیدواژگان: تغییرات موج T، روش طیفی، روش همبستگی، مرگ قلبی ناگهانی
  • مهدی دهقانی، محمود صالح اصفهانی صفحه 81
    کانال پوششی به معنی مبادله اطلاعات در پوشش یک کانال آشکار است؛ به نحوی که اصل وجود ارتباط از دید ناظر مخفی بماند. در کانال های پوششی زمان بندی دار تحت شبکه که از ویژگی های زمان بندی ارسال بستک های شبکه برای مدولاسیون اطلاعات پوششی استفاده می شود، طراحی روش کدبندی مناسب اهمیت بالایی دارد. در این پژوهش طراحی روش کدبندی جدید با ترکیب روش های «فاصله بین بستک ها» و «بازترتیب بستک ها» و تاکید بر بهبود ظرفیت و نامحسوسی کانال پوششی ارائه شده، ظرفیت کانال به روش کدبندی ترکیبی محاسبه شده و نامحسوسی و استحکام کانال به روش اندازه گیری عملی ارزیابی شده اند. نتایج پژوهش نشان می دهد که مطابق با وضعیت عادی بازترتیب در شبکه، با انتخاب سه تا پنج بستک در جدول کلمه کد، ظرفیت از 10% تا 300% می تواند افزایش یافته، نامحسوسی تا حد قابل قبولی بهبود یافته و استحکام کانال نیز حفظ شده است.
    کلیدواژگان: کانال پوششی، کدبندی، معیار ارزیابی، بازترتیب بستک ها، فاصله بین بستک ها
  • فرزانه زارعی، هشام فیلی، مریم میریان صفحه 99
    درخت بانک یکی از پرکاربردترین منابع در به کارگیری روش های یادگیری باسرپرستی و نیمه سرپرستی در سامانه های پردازش زبان های طبیعی مانند ابزارهای شناسایی گفتار، تحلیل گرهای نحوی و نرم افزارهای مترجم ماشینی است. روش های مختلفی جهت تولید درخت بانک وجود دارد که می توان آن ها را به دو طبقه اصلی، روش های تولید دستی و روش های تولید خودکار تقسیم کرد. در هر یک از این روش ها، درخت بانک حاصل دارای خطاهایی هستند که البته میزان این خطاها در روش تولید خودکار به مراتب بیشتر است.وجود خطا در درخت بانک باعث می شود که نتوان از آن به عنوان یک منبع مناسب استفاده کرد. در این مقاله یک روش به طور کامل خودکار ارائه شده است که در آن سعی شده یک درخت بانک که با دستور درخت-پیوندی لغوی برچسب گذاری شده است، اصلاح شود. روش ارائه شده نوعی روش تشخیص و تصحیح خطا براساس یادگیری انتقال محور است و بر روی یک درخت بانک که پیشتر به روش خودکار تولید شده بود، اجرا شد و سبب بهبود آن بانک از 68% به 79% طبق معیار F1شد.
    کلیدواژگان: درخت بانک نحوی، تشخیص و تصحیح خطا، دستور درخت، پیوندی، یادگیری انتقال محور
  • مرضیه صالحی، شهرام خدیوی، نوشین ریاحی صفحه 109
    با وجود پیشرفت های اخیر در حوزه ترجمه ماشینی، این فناوری قادر به ترجمه دقیق متون نیست و گاهی ممکن است ویرایش خروجی آن زمان بیشتری نسبت به ترجمه دستی بگیرد. با این حال با داشتن تخمینی از کیفیت خروجی، کاربران می توانند به طور مناسبی با ناکامل بودن این فناوری برخورد کنند. برای کاربردهایی که هدف آنها بالابردن کیفیت ترجمه ماشینی است، نظیر ترکیب خروجی سامانه های ترجمه گر مختلف، بازترتیب فهرست چند ترجمه بهتر و بازتولید خروجی، لازم است که بدون داشتن ترجمه مرجع تخمینی از درستی خروجی داشته باشیم. هنوز روش کارامدی برای تخمین درستی کلمات خروجی ترجمه ماشینی وجود ندارد. در این مقاله پنج گروه ویژگی جدید در قالب ویژگی های مبتنی بر محتوا و مبتنی بر ساختار ارائه شده است. نتایج نشان می دهد که ویژگی مبتنی بر محتوا نسبت به بهترین سامانه پایه (2) برتری 9/63 درصدی در CER، 8/5 درصدی در F-measure و 1/ 5 درصدی در F-measure طبقه منفی داشته است. همچنین ترکیب ویژگی های مبتنی بر ساختار ارائه شده، در مقایسه با بهترین سامانه پایه به ترتیب بهبود 59/ 4، 1/ 4 و 2 درصدی در معیارهای CER، F-measure و F-measure طبقه منفی ایجاد کرده است.
    کلیدواژگان: تخمین اطمینان، ترجمه ماشینی، اطلاعات متقابل، ساختار، محتوا
|
  • Behzad Mirzababaei, Heshaam Faili Page 3
    Nowadays, a large volume of documents is generated daily. These documents generated by different persons, thus, the documents contain spelling errors. Therefore, existence of automatic writing assistance tools such as spell checker/corrector can help to improve their quality. Context-sensitive are misspelled words that have been wrongly converted into another word of the language. Thus, detection of real-word errors requires discourse analysis. In this paper, we propose a language independent discourse-aware discriminative ranker and use information of whole document and a log-linear model for ranking. To evaluate our method, we augment it into two context-sensitive spellchecker systems; one is based on Statistical Machine Translation (SMT) and the other is based on language model. For more evaluation, we also use two different tests. Proposed method causes outperform about 17 %over the SMT base approach with respect to detection and correction recall.
    Keywords: Spell checker, Context, sensitive error, Statistical machine translation, Discourse, aware ranker
  • Elham Bayesteh, Alireza Ahmady Fard, Hossein Khosravi Page 15
    This paper presented a two step method for offline handwritten Farsi word recognition. In first step, in order to improve the recognition accuracy and speed, an algorithm proposed for initial eliminating lexicon entries unlikely to match the input image. For lexicon reduction, the words of lexicon are clustered using ISOCLUS and Hierarchal clustering algorithm. Clustering is based on the features that describe the shape of word generally. In second step, a new method proposed to extract histogram of gradient image which this showed well the correspondence between different samples of handwritten word images. The gradient feature vectors of input words are compared with gradient feature vectors of candidate words using K nearest neighbor classifications. The recognition result on handwritten words of IRANSHAR dataset showed that the lexicon reduction step and the new method of extracting gradient feature increased recognition accuracy and speed by removing classifier confusion.
    Keywords: Handwritten word recognition, ISOLUS clustering algorithm, DTW algorithm, profile feature, gradient histogram feature
  • Ibrahim Shaahin Varnosfaderani, Mohammad Farzan Sabahi, Mohammad Ataei Page 31
    In this paper an Importance Sampling technique is proposed to achieve blind equalizer and detector for chaotic communication systems. Chaotic signals are generated with dynamic nonlinear systems. These signals have wide applications in communication due to their important properties like randomness, large bandwidth and unpredictability for long time. Based on the different chaotic signals properties, different communication methods have proposed such as chaotic modulation, masking, and spread spectrum. In this article, chaos masking is assumed for transmitting modulated message symbols. In this case, channel estimation is a nonlinear problem. Several methods such as extended Kalman filter (EKF), particle filter (PF), minimum nonlinear prediction error (MNPE) and. .. are previously presented for this problem. Here, a new approach based on Monte Carlo sampling is proposed to joint channel estimation and demodulation. At the receiver end, Importance Sampling is used to detect binary symbols according to maximum likelihood criteria. Simulation results show that the proposed method has better performance especially in low SNR.
    Keywords: Chaotic Communication, Detection, Importance Sampling, Blind Equalization, Chaos Masking
  • Alireza Mirjalili, Vahid Abootalebi, Mohammad Taghi Sadeghi Page 43
    In this paper, the problem of classification of motor imagery EEG signals using a sparse representation-based classifier is considered. Designing a powerful dictionary matrix, i.e. extracting proper features, is an important issue in such a classifier. Due to its high performance, the Common Spatial Patterns (CSP) algorithm is widely used for this purpose in the BCI systems. The main disadvantages of the CSP algorithm are its sensibility to noise and the over learning phenomena when the number of training samples is limited. In this study, to overcome these problems, two modified form of the CSP algorithms, namely the DLRCSP and GLRCSP have been used. Using the adopted methods, the average detection rate is increased by a factor of about 7.78 %. Also, a problem of the SRC classifier which uses the standard BP algorithm is the computational complexity of the BP algorithm. To overcome this weakness, we used a new algorithm which is called the SL0 algorithm. Our classification results show that using the SL0 algorithm, the classification process is highly speeded up. Moreover, it leads to an increase of about 1.61% in average correct detection compared to the basic standard algorithm.
    Keywords: Electroencephalogram, sparse representation, based classifier, regularized common spatial patterns, Smoothed L0, norm
  • Seyyed Hamid Yazdani, Hamid Reza Abutalebi Page 57
    Considering the existence of a many speech degradation factors, speech enhancement has become an important topic in the field of speech processing. Beamforming is one of the well-known methods for improving the speech quality that is conventionally applied using regular (classical) microphone arrays. Due to the restrictions in the regular arrangement of microphones, in recent years there has been an emerging trend toward the microphone arrays with irregular arrangement (or so-called Ad-hoc microphone arrays). Due to the lack of knowledge about the location and the arrangement of microphones, and spreading of the microphones throughout the environment, the idea of clustering has been considered in this paper. We propose a method for the clustering of microphones in directional noise fields. For this type of noise fields, we propose a new clustering method that works based on the energy of the received signals. We have tried that the proposed clustering method to be applicable in different directional noise fields. We also propose a modified structure for the GSC beamformer by considering different roles for microphone clusters. Our evaluations indicate that in some situations, employing a microphone cluster produces superior results compared to the usage of all microphones. This, in turn, shows that the performance of the speech enhancement system can been improved using the clustering process, while the computational load is also decreased (due the reduction in the number of employed microphones).
    Keywords: speech enhancement, beamforming, Ad, hoc microphone array, clustering, GSC beamformer
  • Maryam Sattarpour, Babak Mohammadzadeh Asl Page 69
    There is a direct correlation between electrical changes in depolarization phase of cardiac cycle and increased risk of ventricular arrhythmia as well as sudden cardiac death, so detection and evaluation of these changes, named as T wave alternans (TWA), can provide new facilities for the physicians. However, exact detection of TWA, because of its small amplitude (sometimes smaller than the noise level) and fusing with biological noises, such as electrodes motion, muscles activity and breathing, is difficult. In this paper for detection of T-wave alternans, unlike conventional methods, we used a multilead method. The proposed method at first, applies a principal component analysis method to pre-processed signals; then by applying correlation method to the modified data detects T wave alternans. This method, in addition to accurate detection of T wave alternans, unlike other existing methods, can detect the location of the alternans.
    Keywords: T wave alternans, spectral method, correlation method, sudden cardiac death
  • Mahdi Dehghani, Mahmoud Saleh Esfahani Page 81
    Covert channel means communicating information through covering of overt and authorized channel in a manner that existence of channel to be hidden. In network covert timing channels that use timing features of transmission packets to modulating covert information, the appropriate encoding schema is very important. In this paper, a hybrid encoding schema proposed through combining "the inter-packets gap" and "the reordering packets" encoding schemas, emphasizing on improvement of capacity and stealthiness of covert channel. The capacity of proposed channel have computed and stealthness and robustness of channel have evaluated in experimental manner. Our results show that selecting 3 to 5 packet in a codword in accordance to normal situation of network traffic, the capacity is increased from 10% to 300% and stealthness is boosted up to acceptable value, and robustness is high enough.
    Keywords: Covert Channel, Encoding, Performance Evaluation Criteria, Inter, packets gap, Reordering packets
  • Farzaneh Zarei, Hesham Faili, Maryam Mirian Page 99
    The Treebank is one of the most useful resources for supervised or semi-supervised learning in many NLP tasks such as speech recognition, spoken language systems, parsing and machine translation. Treebank can be developded in different ways that could be, generally, categorized in manually and statistical approaches. While the resulted Treebank in each of these methods has the annotation error, one which accomplished by statistical method has much more errors than the other. Error in Treenabanks causes that they are not useful anymore. In this paper an statistical method is proposed which aims to correct the errors in a specific English LTAG-Treebank. The proposed method was applied to a automatically generated Treebank and an improvement from 68% to 79% respect to F-measure is retrieved.
    Keywords: Treebank, error detection, correction, Tree adjoining grammar, Transformation based learning
  • Marzieh Salehi, Shahram Khadivi, Nooshin Riahi Page 109
    Machine translation has been developed over last years. But this technology is still not able to exactly translate texts. Also post-editing the output may takes longer time than the translation process. So having a quality estimation of machine translation output can be very useful. Moreover, Confidence Estimation can be useful for some applications that their goal is to improve machine translation quality such as system combination, regenerating and pruning. But there is not yet any completely satisfactory method for CE task. We propose 5 syntactic and lexico-semantic features that are never used for confidence estimation task. The experimental results show that proposed lexico-semantic feature outperforms the best baseline system (2) by 9.63% in CER, 8.5% in F-measure and 5.1% in negative class F-measure. Moreover the combination of proposed syntactic features outperforms the best baseline system by 4.49% in CER, 4.1% in F-measure and 2% in negative class F-measure.
    Keywords: confidence estimation, machine translation, mutual information, syntactic, lexico, semantic