بازشناسی آوای فارسی با استفاده از شاخص های صوتی و روش های جبران سازی تنوعات مبتنی بر شبکه های عصبی
شواهد و آزمایشات گفتاری نشان می دهد که اطلاعات در سیگنال گفتار به صورت غیر یکنواخت توزیع شده و انسان با تمرکز به نواحی پر اطلاعات آن قادر است به صورت مقاوم گفتار را بازشناسی کند. در این راستا در این تحقیق، یک سامانه ی بازشناسی آوای فارسی مبتنی بر تمرکز روی بازشناسی مقاوم نواحی پراطلاعات و مجزای صوتی ارایه شده است. این نواحی شاخص های صوتی نامیده می شوند. بدین منظور ابتدا برای سیگنال گفتار زبان فارسی یک مجموعه از شاخص های مناسب صوتی انتخاب شده و به یک شبکه ی عصبی عمیق آموزش داده شده اند. سپس، به منظور حذف تنوعات شاخص های صوتی، تغییراتی در ساختار مدل و شیوه ی آموزش آن در چهار طرح مختلف انجام شده است. در طرح اول، از یک شبکه ی عصبی جداگانه و در طرح دوم از یک ساختار یادگیری چند تکلیفی برای جبران سازی غیرخطی تنوعات شاخص های صوتی استفاده شده است. در طرح سوم نیز از یک اتصال بازگشتی در لایه ی پنهان شبکه برای بازسازی ورودی و در طرح چهارم از یک ساختار مبتنی بر شبکه های جاذب دار عمیق برای کاهش تنوعات ناخواسته استفاده شده است. در این مقاله آزمایش ها روی مجموعه دادگان گفتاری فارسی "فارس دات" انجام شده است و نتایج بازشناسی به صورت خطای بازشناسی آوا گزارش شده است. بهترین مدل آموزش یافته، یک شبکه ی عصبی جلوسو با پنج لایه ی پنهان است. خطای بازشناسی آوای این ساختار روی دادگان آزمون برابر 74/21 درصد به دست آمد. همچنین استفاده از چهارطرح پالایش تنوعات به ترتیب خطای بازشناسی آوا را به طور مطلق 39/0، 58/0، 43/0 و 3/1 درصد کاهش داده است.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.