استخراج ویژگی های مقاوم گفتاری زیر باندی با استفاده از شبکه های درهم پیچش چند دقتی

پیام:
چکیده:

شبکه‌های عصبی درهم‌پیچش (CNN) به‌عنوان گروهی از شبکه‌های عصبی عمیق، در سال‌های اخیر کاربرد فراوانی در مدل‌سازی آکوستیک و همچنین استخراج ویژگی و مدل‌سازی توام در بازشناسی گفتار یافته‌اند. در مقاله حاضر، پیشنهاد می‌شود تا از CNN برای استخراج ویژگی مقاوم به نویز استفاده شود، درحالی‌که ورودی CNN طیف سیگنال گفتار نویزی و خروجی هدف آن خروجی‌های متناظر تمیز از بانک فیلتر مل است. به‌این‌ترتیب CNN ویژگی‌های مقاوم به نویز را از طیف سیگنال گفتار استخراج می‌نماید. نقطه‌ضعف CNN در این روش آن است که تنها یک وضوح فرکانسی ثابت را به کار می‌گیرد. ازاین‌جهت، در این مقاله استفاده از چند شبکه عصبی درهم‌پیچش با اندازه‌های فیلتر درهم‌پیچش متفاوت، جهت مدل‌سازی تفاوت وضوح فرکانسی برای استخراج ویژگی از طیف سیگنال گفتار پیشنهاد می‌شود. روش پیشنهادی را شبکه عصبی درهم‌پیچش چند دقتی (MRCNN) نام‌گذاری کرده‌ایم. آزمایش‌ها روی دادگان Aurora2 نشان می‌دهند که CNN نسبت به شبکه باور عمیق در استخراج ویژگی مقاوم به نویز میانگین دقت بازشناسی را 20 درصد بهبود می‌دهد. همچنین نتایج نشان می‌دهند که MRCNN میانگین دقت بازشناسی را نسبت به شبکه عصبی درهم‌پیچش استاندارد (تک دقتی) 1 درصد بهبود می‌دهد.

نوع مقاله:
مقاله پژوهشی/اصیل
زبان:
فارسی
صفحات:
1393 -1404
لینک کوتاه:
magiran.com/p2071723 
روش‌های دسترسی به متن این مطلب
اشتراک شخصی
در سایت عضو شوید و هزینه اشتراک یک‌ساله سایت به مبلغ 300,000ريال را پرداخت کنید. همزمان با برقراری دوره اشتراک بسته دانلود 100 مطلب نیز برای شما فعال خواهد شد!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی همه کاربران به متن مطالب خریداری نمایند!