استخراج ویژگی های مقاوم گفتاری زیر باندی با استفاده از شبکه های درهم پیچش چند دقتی
شبکه های عصبی درهم پیچش (CNN) به عنوان گروهی از شبکه های عصبی عمیق، در سال های اخیر کاربرد فراوانی در مدل سازی آکوستیک و همچنین استخراج ویژگی و مدل سازی توام در بازشناسی گفتار یافته اند. در مقاله حاضر، پیشنهاد می شود تا از CNN برای استخراج ویژگی مقاوم به نویز استفاده شود، درحالی که ورودی CNN طیف سیگنال گفتار نویزی و خروجی هدف آن خروجی های متناظر تمیز از بانک فیلتر مل است. به این ترتیب CNN ویژگی های مقاوم به نویز را از طیف سیگنال گفتار استخراج می نماید. نقطه ضعف CNN در این روش آن است که تنها یک وضوح فرکانسی ثابت را به کار می گیرد. ازاین جهت، در این مقاله استفاده از چند شبکه عصبی درهم پیچش با اندازه های فیلتر درهم پیچش متفاوت، جهت مدل سازی تفاوت وضوح فرکانسی برای استخراج ویژگی از طیف سیگنال گفتار پیشنهاد می شود. روش پیشنهادی را شبکه عصبی درهم پیچش چند دقتی (MRCNN) نام گذاری کرده ایم. آزمایش ها روی دادگان Aurora2 نشان می دهند که CNN نسبت به شبکه باور عمیق در استخراج ویژگی مقاوم به نویز میانگین دقت بازشناسی را 20 درصد بهبود می دهد. همچنین نتایج نشان می دهند که MRCNN میانگین دقت بازشناسی را نسبت به شبکه عصبی درهم پیچش استاندارد (تک دقتی) 1 درصد بهبود می دهد.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.