Работа состоит из нескольких этапов: обзор предметной области, описание системы, программная реализация модели и анализ результатов. В данной работе производится изучение сферы речевого распознавания эмоций, анализ и выявле-ние основных компонентов, которые необходимы для построения современной системы SER.
Были разработаны функции и методы для извлечения речевых признаков, включая MFCC, мел-спектрограммы, частоту пересечения нуля и четыре типа фрактальных размерностей: Каца, Кастильони, Петросяна и Хигучи. Реализована архитектура одномерной сверточной нейронной сети с использованием методов регуляризации и снижения размерности через PCA.
В качестве результатов получены шесть обученных моделей на русско-язычном датасете DUSHA. Базовая модель показала точность 78,11%, модель с полным набором фрактальных размерностей достигла 82,76%. Статистический анализ подтвердил значимость улучшений (p<0,05), что доказывает эффектив-ность использования фрактальных размерностей для классификации эмоций в русской речи.
СОДЕРЖАНИЕ
СПИСОК ОБОЗНАЧЕНИЙ И СОКРАЩЕНИЙ .................................................. 7
ВВЕДЕНИЕ ................................................................................................................... 8
1.ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ ................................................................... 10
1.1. Классификация эмоций ..................................................................................... 10
1.2. Характеристики речевого сигнала .................................................................... 11
1.2.1. Спектральные характеристики ............................................................... 12
1.2.2. Просодические характеристики ............................................................. 14
1.2.3. Нелинейные признаки ............................................................................ 16
1.3. Особенности построения системы распознавания эмоций ......................... 17
1.4. Спецификация распознавания эмоций в русской речи................................ 22
1.4.1. Лингвистические особенности русской речи в эмоциях .................... 22
1.4.2. Обзор доступных датасетов для русского языка ................................. 23
2.ОПИСАНИЕ СИСТЕМЫ ..................................................................................... 25
2.1. Схема работы системы ...................................................................................... 25
2.2. Спектрограмма ................................................................................................... 26
2.3. Скорость пересечения нуля (Zero Crossing Rate) ............................................ 27
2.4. MFCC .................................................................................................................. 29
2.5. Фрактальные размерности ................................................................................ 33
2.6. Архитектура Сети............................................................................................... 35
3.ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СИСТЕМЫ .............................................. 38
3.1. Окружение и инструменты ............................................................................... 38
3.2. Организация кода ............................................................................................... 39
РЕЗУЛЬТАТЫ ........................................................................................................... 42
4.1. Модель с базовыми признаками (стандартные признаки) ............................. 42
4.2. Модели с отдельными фрактальными размерностями .................................. 43
4.3. Модель с полным набором фрактальных размерностей ................................ 46
4.4. Статистический анализ результатов ................................................................ 46
ЗАКЛЮЧЕНИЕ ......................................................................................................... 49
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ........................................... 50
Приложение ................................................................................................................ 56
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Аксютина, З. А. Подходы к исследованию категориальной системы в пе-дагогике / З. А. Аксютина // Омский научный вестник. – 2014. – № 1. – С. 105-108.
2. Амэнтес, А. А. REPV (Russian Emotional Phonetic Voices): датасет для рас-познавания эмоций в русской речи / А. А. Амэнтес, Н. С. Давидчук, И. В. Лубенец // Искусственный интеллект и принятие решений. – 2022. – № 3. – С. 82-94.
3. Амэнтес, А. А. RESD (Russian Emotional Speech Dialogs): датасет диало-гов с эмоциональной русской речью / А. А. Амэнтес, Н. С. Давидчук, И. В. Лубенец // Компьютерная лингвистика и интеллектуальные техноло-гии. – 2022. – № 21. – С. 568-579.
4. Барышев, Д. А. Реализация модели автоматического распознавания эмо-ций человека по речи / Д. А. Барышев, А. С. Зубанков, В. Л. Розалиев // Известия Волгоградского государственного технического университета. – 2024. – № 1. – С. 35-42.
5. Белинский, А. В. Влияние эмоционального напряжения на автоматизиро-ванные навыки письма : дис. ... канд. психол. наук : 19.00.01 / А. В. Бе-линский. – Москва, 2018. – 187 с.
6. Брызгунова, Е. А. Звуки и интонация русской речи / Е. А. Брызгунова. – Москва : Русский язык, 1977. – 279 с.
7. Верходанова, В. О. RuSETs: корпус эмоциональной русской речи / В. О. Верходанова, А. А. Карпов // Моделирование и анализ информационных систем. – 2020. – Т. 27, № 2. – С. 177-193.
8. Ильин, Е. П. Эмоции и чувства / Е. П. Ильин. – Санкт-Петербург : Питер, 2019. – 784 с.
всего 52 источника