autoencoder network
در نشریات گروه برق-
شبکه های عصبی عمیق در سال های اخیر به طرز گسترده ای در سیستم های بازشناسی گفتار مورداستفاده قرارگرفته اند. بااین وجود، مقاوم سازی این مدل ها در حضور نویز محیط کمتر موردبررسی قرارگرفته است. در این مقاله دو راهکار برای مقاوم سازی مدل های شبکه حافظه کوتاه مدت ماندگار نسبت به نویز جمع پذیر محیطی موردبررسی قرارگرفته است. راهکار اول افزایش مقاومت مدل های شبکه حافظه کوتاه مدت ماندگار نسبت به حضور نویز است که با توجه به خصوصیت این شبکه ها در یادگیری رفتار بلندمدت نویز ارائه می شود. بدین منظور پیشنهاد می شود از گفتار نویزی برای آموزش مدل ها استفاده شود تا به صورت آگاه به نویز آموزش ببینند. نتایج روی مجموعه داده نویزی شده TIMIT نشان می دهد که اگر مدل ها به جای گفتار تمیز با گفتار نویزی آموزش ببینند، دقت بازشناسی تا 18 درصد بهبود خواهد یافت. راهکار دوم کاهش تاثیر نویز بر ویژگی های استخراج شده با استفاده از شبکه خود رمزگذار کاهنده نویز و استفاده از ویژگی های گلوگاه به منظور فشرده سازی بردار ویژگی و بازنمایی سطح بالاتر ویژگی های ورودی است. این راهکار باعث می شود مقاومت ویژگی ها نسبت به نویز بیشتر شده و درنتیجه دقت سیستم بازشناسی پیشنهادشده در راهکار اول، در حضور نویز 4 درصد افزایش یابد.
کلید واژگان: بازشناسی گفتار، مقاومت نسبت به نویز، داده های چند شرطی، شبکه خود رمزگذار، شبکه حافظه کوتاه مدت ماندگارDeep neural networks have been widely used in speech recognition systems in recent years. However, the robustness of these models in the presence of environmental noise has been less discussed. In this paper, we propose two approaches for the robustness of deep neural networks models against environmental additive noise. In the first approach, we propose to increase the robustness of long short-term memory (LSTM) networks in the presence of noise based on their abilities in learning long-term noise behavior. For this purpose, we propose to use noisy speech for training models. In this way, LSTMs are trained in a noise-aware manner. The results on the noisy TIMIT dataset show that if the models are trained with noisy speech rather than clean speech, recognition accuracy will be improved up to 18%. In the second approach, we propose to reduce noise effects on the extracted features using a denoised autoencoder network and to use the bottleneck features to compress the feature vector and represent the higher level of input features. This method increases the accuracy of the proposed recognition system in the first approach by 4% in the presence of noise.
Keywords: Speech recognition, Noise robustness, Multicondition data, Autoencoder network, Long short term memory network
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.