تشخیص حس وابسته به گویندة گفتار فارسی با استفاده از ویژگی‌های آکوستیکی

نوع مقاله : مقاله ترویجی

نویسندگان

1 کارشناس‏ارشد هوش مصنوعی دانشگاه صنعتی شریف

2 کارشناس‏ارشد زبان‌شناسی رایانشی دانشگاه صنعتی شریف

3 دانشیار دانشکدۀ کامپیوتر دانشگاه صنعتی شریف

چکیده

بیان احساس در ارتباطات روزمره از جایگاه ویژه‌ای برخوردار است. از جمله بسترهای نمود احساس، گفتار است. از این‌رو، یکی از جنبه‌های مهم در طبیعی‌سازی ارتباط میان انسان و ماشین، تشخیص حس گفتار و تولید بازخورد متناسب با احساس درک‌شده است. باوجود پیشرفت‌های گسترده در حوزة پردازش گفتار، استخراج و درک احساس پنهان در گفتار انسان، همچون خشم، شادی و جز این‌ها، از یک‌سو و تولید گفتار احساسی مناسب از سوی دیگر، همچنان یکی از چالش‌های مهم برای ساخت ماشین‌های هوشمند محسوب می‌شود. در این مقاله، یک سیستم وابسته به گوینده برای تشخیص حس گفتار فارسی ارائه شده است. مراد از تشخیص حس وابسته به گویندة گفتار، شناسایی خودکار حالت احساسی یک یا چند گویندة خاص با استفاده از نمونه‌های گفتاری آنهاست. در طراحی سیستم معرفی‌شده، از روش‌های آماری استفاده شده است و معماری آن شامل دو بخش اصلی، استخراج ویژگی و آموزش مدل دسته‏بند می‏باشد. در مرحلة استخراج ویژگی، 28 ویژگی آکوستیکی شامل اطلاعات مربوط به فرکانس گام، ساخت سه فرمنت‌ اول و دامنه از نمونه‎‌های گفتار احساسی دو گوینده (یک مرد و یک زن) به‌طور مجزا و به ازای شش حس متفاوت خشم، تنفر، ترس، شادی، غم و خنثی استخراج شده است. پس از تشکیل بردار ویژگی، سه روش دسته‌بند، شامل ماشین بردار پشتیبان[i]، k نزدیکترین همسایه[ii] و شبکة عصبی[iii]، آموزش داده شده‌اند. در نهایت، سه روش پیاده‌سازی‌شده با استفاده از پار‌ه‌گفتارهای احساسی دادة آزمون ارزیابی شده و دقت و صحت و بازخوانی آنها مشخص شده است. با مقایسة عملکرد سه روش دسته‌بند مشخص شد که بیشترین دقت برای گویندة مرد و زن به‌ترتیب مربوط به ماشین بردار پشتیبان (97 درصد) و شبکة عصبی (93 درصد) بوده است. این در حالی است که در آزمون انسانی صورت‌گرفته، میانگین دقت انسان در تشخیص حس پاره‌گفتارهای احساسی دادة آزمون 78 درصد و کمتر از دقت روش‌های دسته‌بند گزارش‌شده در سیستم پیاده‏سازی شده است.
[i]. support vector machine (SVM) [ii]. K-nearest neighbor (KNN) [iii]. neural network (NN)

کلیدواژه‌ها