فهرست مطالب

فصلنامه پردازش علائم و داده ها
سال چهارم شماره 2 (پیاپی 8، پاییز و زمستان 1386)

  • تاریخ انتشار: 1386/10/11
  • تعداد عناوین: 7
|
  • محمد مهدی همایون پور، عباس کوچاری، سید مصطفی موسوی، سینا ایران نژاد، مجید نم نبات، جهانشاه کبودیان، حمیدرضا شجاع مودب صفحه 3
    این مقاله مراحل تحقیق، طراحی و پیاده سازی یک کدکننده واجی با نرخ بیت بسیار پایین (300 بیت در ثانیه) را ارائه می نماید. در این کدکننده، در طرف کدگذار واج های گفتار بازشناسی، کشش هر واج، واکداری-بی واکی و فرکانس گام و نیز بهره (شدت) گفتار، تعیین و پس از چندی شدن، برای کدگشا ارسال می گردند. در طرف کدگشا با استفاده از پارامتر های فوق و با استفاده از یک روش سنتز مبتنی بر مدل های مخفی مارکوف سه واجی ها، گفتار، بازسازی می گردد. بازشناسی کننده واج، مبتنی بر مدل مخفی مارکوف بوده و با استفاده از دادگان فارس دات معمولی آموزش دیده است. در این تحقیق اقدامات متعددی برای بهبود عملکرد کدکننده در تشخیص واج، تشخیص واکدار-بی واکی، تشخیص فرکانس گام و بهره، چگونگی چندی سازی پارامتر ها و روش سنتز گفتار ارائه و با انجام آزمایش های فراوان مورد بررسی قرار گرفته اند. آزمایش های انجام گرفته و گفتار کد و کدگشایی شده توسط این کدکننده، نشان دهنده مناسب بودن کدکننده و کیفت قابل قبول گفتار بازشناسی شده در طرف کدگشا می باشد. نتایج تست MOS برای تعیین میزان وضوح و قابل فهم بودن گفتار بازسازی شده در طرف کدگشا 2.7 به دست آمد.
    کلیدواژگان: کدکننده با نرخ بیت بسیار پایین، بازشناسی گفتار، سنتز گفتار، مدل مخفی مارکوف، تخمین فرکانس گام، تشخیص واکدار، بی واکی
  • ابوالقاسم صیادیان، ابوالقاسم صیادیان، کامبیز بدیع، محمد شهرام معین صفحه 27
    طراحی و پیاده سازی سیستم های بازشناسی گفتار گسسته ناوابسته به گوینده و با دایره لغات وسیع (1000 تا 10000 کلمه) کلاسیک، دارای دو مشکل عمده می باشند؛ الف: زمان بر و هزینه بر بودن تهیه پایگاه داده گفتاری وسیع از تعداد زیادی گوینده (بین حداقل 100 تا 10000 نفر) جهت آموزش مطمئن سیستم؛ ب: عدم امکان اجرای زمان زنده مرحله بازشناسی بر روی رایانه های شخصی موجود. بدین لحاظ مطالعه و بررسی وسیعی در این تحقیق انجام گرفته است. برای حل مشکل (الف) از 50 تا 100 نفر گوینده (تعداد مردان 5/1 برابر زنان) که با منطق خاصی انتخاب شده اند، داده های گفتاری جامع (حدود 60-50 تلفظ برای هر کلمه توسط هر گوینده) تهیه گردید؛ آنگاه برای هر گوینده، یک سیستم بازشناسی وابسته به گوینده طراحی نمودیم؛ سپس با تلفیق مناسب گوینده های مرجع، یک سیستم ناوابسته به گوینده پیاده سازی نمودیم که دارای دقت بازشناسی4/97 درصد با انحراف معیار 1/2 درصد گردید. متاسفانه به علت استفاده از آموزش ML، سیستم در مرحله بازشناسی، به صورت زمان زنده، قابل اجرا (حجم محاسبات مرحله بازشناسی بسیار بالا است). جهت حل مشکل حجم محاسباتی، چندین روش گره زدن مخلوط ها را برای بازنمایی pdf حالات مدل HMM مورد توجه قرار دادیم. درانتها با تلفیق روش های گره زدن مخلوط ها و همچنین مدلسازی SCD و ایجاد ساختار های جستجوی سریع بر روی کتاب کد SCD، قادر به پیاده سازی زمان زنده سیستم در مرحله بازشناسی گردیدیم. استفاده از روش های زیر بهینه فوق الذکر صرفا موجب افت 5/1 درصدی راندمان بازشناسی گردید. درنتیجه سیستم نهایی طرحی شده، دارای دقت بازشناسی 9/95 درصد (درحالت ناوابسته به گوینده) و با انحرف معیار 8/2 درصد گردید. همین سیستم دارای دقت بازشناسی 5/98 درصد با انحراف معیار 2/1 در حالت وابسته به گوینده می باشد. سیستم طراحی شده بر روی رایانه شخصی (پنتیوم 4 با سرعت بالاتر از 4/2 گیگا هرتز و حافظه RAM حدود 512 مگا بایت) به صورت زمان زنده اجرا گردیده است.
    کلیدواژگان: بازشناسی گفتار گسسته با دایره لغات وسیع، مدلسازی نیمه پیوسته مارکف مخفی، بازشناسی گفتار ناوابسته به گوینده با دایره لغات وسیع
  • نگار بارزگانی، فرشاد الماس گنج صفحه 37
    مدل های زبانی آماری در سیستم های بازشناسی گفتار، استفاده گسترده ای دارند. محاسبه پارامتر های مدل های زبانی از نوع n-تایی کلمات که از پرکاربردترین این مدل ها هستند، در مواقعی که واژگان سیستم بسیار بزرگ است، دچار مشکل کمبود حجم پیکره متنی، که پارامتر های مدل از روی آن محاسبه می شوند، می گردند که تنکی یا پراکندگی پیکره نامیده می شود. یک روش حل این مشکل، استفاده از مدل زبانی «n-تایی کلمات از نوع دسته بندی شده» است که مستلزم ایجاد یک سیستم دسته بندی خودکار کلمات می باشد. در این مقاله، روش هایی را برای این گونه دسته بندی کلمات فارسی بررسی و پیاده سازی نموده ایم که می توانند در ساخت مدل زبانی فارسی از نوع دسته بندی شده، مورد استفاده واقع شوند؛ همچنین تعدادی از مهم ترین آنها جهت دسته بندی کلمات فارسی پیاده سازی و آزمایش شده اند. اولین روش پیاده سازی شده از معیار متوسط اطلاعات متقابل و یک آلگوریتم عملکرد پایین به بالا استفاده می نماید و با عنوان روش براون معروف است. دومین روش از معیار کاهش سرگشتگی و آلگوریتم جابه جایی استفاده می کند و توسط مارتین معرفی شده است. در این جا، این دو روش را با یکدیگر ترکیب کرده و به نتایج بهتری رسیدیم؛ سپس روش سومی را که از معیار شباهت آماری بین کلمات و یک آلگوریتم پایین به بالا برای دسته بندی استفاده می کند، پیاده سازی نمودیم. نتایج حاصل از انجام هرکدام از روش ها با محاسبه عدد سرگشتگی بر روی دادگان متن تست، ارزیابی و با یکدیگر مقایسه شده اند. بعد از شناسایی نقاط ضعف و قوت روش های فوق، دو روش اصلاحی پیشنهاد گردیده اند که نتایج قابل توجهی را ارائه می دهند. در روش اصلاحی اول، نقطه شروع آلگوریتم براون با استفاده از معیار شباهت آماری کلمات اصلاح می شود و عدد سرگشتگی پایین تری نسبت به روش براون حاصل می شود. در دومین روش اصلاحی، ترکیبی از آلگوریتم جابجایی و روش براون و یک حد آستانه برای تصدیق ترکیب دسته ها پیشنهاد شده است که به سرگشتگی کمتری روی دادگان تست، نسبت به روش براون، منجر می گردد و در ضمن قابلیت یافتن خودکار تعداد دسته نهایی را هم دارد که برتری مهمی نسبت به بسیاری از روش های خودکار دسته بندی کلمات است.
    کلیدواژگان: دسته بندی کلمات، اطلاعات متقابل، مدل زبانی آماری از نوع دسته بندی شده، سرگشتگی
  • لیلی انصاری، سید علی سید صالحی صفحه 55
    در این مقاله یک روش جدید برای کاهش نویز غیرایستان از سیگنال گفتار مطرح می گردد. در این روش نشان داده می شود که شبکه های عصبی که مولفه های اساسی را از سیگنال ها استخراج می کنند، اگر ابتدا با استفاده از سیگنال گفتار تمیز به نحو مناسب آموزش ببینند، آن گاه قادر به حذف نویز ایستان یا غیرایستان از سیگنال های گفتار نویزی شده خواهند بود. در این تحقیق ابتدا شش مدل شبکه ی عصبی شامل دو مدل جلوسو و چهار مدل بازگشتی بر روی یک جمله تعلیم داده می شوند؛ آزمایش های شنیداری و مقادیر نسبت های سیگنال به نویز، کاملا کاهش نویز غیر ایستان را نشان می دهند؛ سپس مدل های برتر روی دادگان بزرگ گفتاری تعلیم داده می شوند؛ به این منظور که یک مدل عملی حذف نویز از سیگنال گفتار حاصل شود. بر اساس نتایج تست MOS، مدل های ما میزان سیگنال به نویز و خوشایند بودن سیگنال های نویزی را به ترتیب 2/1 و 3/1 و روش تفاضل طیفی به ترتیب 3/0 و 8/0 افزایش می دهند.
    کلیدواژگان: بهسازی گفتار، نویز غیرایستان، شبکه های عصبی
  • بهرام وزیرنژاد، محمدحسن مرادی صفحه 71
    در این تحقیق به منظور تشخیص خودکار نارسایی های گفتاری، به تعریف و استخراج ده ویژگی از سیگنال صوتی واکه کشیده شده /a/ پرداختیم. این ویژگی ها شامل میانگین فرکانس پایه، بالاترین و پایین ترین مقادیر فرکانس پایه در طول سیگنال، انحراف معیار مقادیر فرکانس پایه، میزان نوسانات کوتاه مدت فرکانس پایه، انحراف معیار ضرایب دامنه، میزان اغتشاشات کوتاه مدت دامنه، فرکانس فرمانت اول، نسبت دامنI فرمانت اول به فرمانت دوم، و بعد فرکتال کوتاه مدت سیگنال می باشند. به منظور ارزیابی قدرت هر یک از ویژگی ها در تمایز دادن سیگنال های طبیعی و پاتولوژیک، نسبت پراکندگی بین کلاسی به مجموع پراکندگی های داخل کلاسها برای هر یک از ده ویژگی محاسبه گردید. نتایج، بیانگر قابلیت بالای ویژگی بعد فرکتال سیگنال برای تمایز سیگنال های طبیعی از پاتولوژیک می باشد. در ادامه با استفاده از شبکه عصبی جلوسوی پرسپترون به طبقه بندی سیگنال ها با استفاده از سه ویژگی برتر پرداختیم. فرآیند طبقه بندی با استفاده از شبکه عصبی مستقل از جنسیت گوینده صورت گرفت. و به درصدصحت 09/85% برای داده غیرتعلیم رسیدیم، این نتیجه با استفاده از تنها سه ویژگی بدست آمده است.
    کلیدواژگان: نارسایی های صوتی، پردازش صداهای پاتولوژیک، فرکانس پایه، فرمانت، بعد فرکتال سیگنال، شبکه عصبی
  • یادداشت های تحقیقاتی
  • محمد رضایی، محمود رضا روحانی صفحه 81
  • محرم اسلامی صفحه 93
|
  • Page 3
    Abstract This paper presents the research steps for design and implementation of a 300 bits/s very low bit rate phonetic vocoder. In coder side of this vocoder, recognized phonemes, phoneme duration, voiced-unvoiced, pitch frequency and gain are determined and after quantization are sent to decoder. Phoneme recognizer is based on Hidden Markov Model and is trained using Farsdat database. In this research many experiments are conducted to improve the performance of vocoder in phoneme recognition, voiced-unvoiced estimation, pitch and gain detetection, quantization of vocoder parameters and specch synthesis. Improvements in phoneme recognition led to performance improvement from 57.6% to 77.0%. Result of MOS tests on comprehensibility was 2.7.
  • Page 27
    During the process of design and implementation of classic real-time speaker independent discrete utterance speech recognition systems with large vocabulary (1000 to 10000 words), one encounter two major problems: First, the time consuming process of preparing a large vocabulary data set with a considerable number (100 to 10000) of speakers for obtaining a satisfactory and reliable training of the system, and, second, impossibility of a real-time execution of recognition phase using available personal computers. In order to solve these problems, we have done a detailed and vast research. Regarding the first problem, we have prepared a large speech data set (50 to 60 pronunciations/word for each speaker) using 50 to 100 speakers chosen based on a special methodology (number of males is 1.5 times the number of females), then, we have designed a speaker dependent speech recognition system for each speaker, and by a special combination of reference speakers, we have achieved a speaker independent speech recognition system with an recognition rate of 97.4% with a standard deviation of 2.1%. However, due to the high computational cost of ML (Maximum Likelihood) training method, real-time implementation of recognition phase is impossible. In order to solve this problem, we have used several Tied Mixtures methods to represent the pdf (probability density function) of HMM states. Finally, using Tied Mixtures methods, SCD (Semi Continuous Density) modeling and fast search algorithms in SCD code book, we could reach a real-time implementation of our system during the recognition phase. Due to the utilization of sub-optimal methods, the speech recognition performance of the resulted system has a reduction of 1.5% comparing the previous results. As a consequence, we have achieved a speaker independent speech recognition system with a recognition rate of 95.9% with a standard deviation of 2.8%. In speaker dependent mode, the recognition rate is 98.5% with a standard deviation of 1.2%. This system works in real-time mode tested on a Pentium IV PC with a speed higher than 2.4 GHz and 512 MB of RAM.
  • Page 37
    Statistical language models (SLM) have been widely used in speech recognition systems. Among them, N-gram language model is the most popular ones. Off course, in the case of large vocabulary systems, while estimating the parameters of n-gram language models, as a result of insignificant size of the used corpus, usually the sparse data problem occurs. By assigning the words to some restricted number of classes, the size of the model parameters will be reduced and a not very large corpus could be used to reach to a class-based n-gram model. In this research, we are going to implement some known automatic word classification methods on Persian and modify them to find better classification results. The first method is known as Brown method which exploits a statistical parameter named "mutual information" to evaluate word classification result. The second method, represented by Martin, follows perplexity decrement via a displacement algorithm. The third method finds classes by using a statistical similarity parameter between words and a bottom-up algorithm. We implemented all of these methods on Persian and compared them in the area of the resulted perplexity of class-based bigrams stated on the word classification results. To modify these known methods then two new methods are introduced. In the first one, the initial point of the Brown algorithm is modified which finally leads to a smaller perplexity on test data. In the second method, a complex of the displacement algorithm and choosing a threshold level to verify classes combination is used which leads to a smaller perplexity against original Brown method in addition of finding automatically the best number of word classes, depending on the selected threshold.
  • Page 71
    In this research ten features from sustained /a/ vowel have been extracted to achieve a method for automatic detection of voice disorders. These features include average pitch, highest and lowest pitch value in the signal, standard deviation of pitch, short time perturbation of pitch, standard deviation of amplitude coefficients, short time perturbation of amplitude coefficients, first formant, first to second formant power ratio, short time fractal dimension. In order to evaluate the capability of each feature to discriminate between normal and pathologic classes, between classes to inter classes variance ratio is calculated for each of ten features. Results proof the high ability of fractal feature to discriminate the classes. Then by a feed forward multi layer perceptron neural network the signals are classified using best three features. The classification procedure is independent of gender. The classification accuracy is 85.09% for test dataset.