بازشناسی مقاوم گفتار با استفاده از شبکه های عصبی حافظه کوتاه مدت ماندگار و ویژگی های گلوگاه
شبکه های عصبی عمیق در سال های اخیر به طرز گسترده ای در سیستم های بازشناسی گفتار مورداستفاده قرارگرفته اند. بااین وجود، مقاوم سازی این مدل ها در حضور نویز محیط کمتر موردبررسی قرارگرفته است. در این مقاله دو راهکار برای مقاوم سازی مدل های شبکه حافظه کوتاه مدت ماندگار نسبت به نویز جمع پذیر محیطی موردبررسی قرارگرفته است. راهکار اول افزایش مقاومت مدل های شبکه حافظه کوتاه مدت ماندگار نسبت به حضور نویز است که با توجه به خصوصیت این شبکه ها در یادگیری رفتار بلندمدت نویز ارائه می شود. بدین منظور پیشنهاد می شود از گفتار نویزی برای آموزش مدل ها استفاده شود تا به صورت آگاه به نویز آموزش ببینند. نتایج روی مجموعه داده نویزی شده TIMIT نشان می دهد که اگر مدل ها به جای گفتار تمیز با گفتار نویزی آموزش ببینند، دقت بازشناسی تا 18 درصد بهبود خواهد یافت. راهکار دوم کاهش تاثیر نویز بر ویژگی های استخراج شده با استفاده از شبکه خود رمزگذار کاهنده نویز و استفاده از ویژگی های گلوگاه به منظور فشرده سازی بردار ویژگی و بازنمایی سطح بالاتر ویژگی های ورودی است. این راهکار باعث می شود مقاومت ویژگی ها نسبت به نویز بیشتر شده و درنتیجه دقت سیستم بازشناسی پیشنهادشده در راهکار اول، در حضور نویز 4 درصد افزایش یابد.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.