Данная работа посвящена разработке end-to-end системы распознавания русской речи на основе архитектуры Transformer. Входными данными для системы служат аудиозаписи русского языка, которые преобразуются в текстовую форму. Особое внимание уделено особенностям обработки русскоязычных аудиосигналов и построению модели, способной эффективно работать с такими данными.
В процессе работы был проведён анализ и исследование современных решений и методов автоматического распознавания речи. Это позволило выделить наиболее эффективные подходы и технологии, которые учитывались при выборе архитектуры и реализации модели, обеспечивая её эффективность.
Была реализована и обучена модель на основе Transformer, адаптированная под специфику русского языка. Обучение проводилось на открытых датасетах CommonVoice и OpenSTT. В результате тестирования была достигнута точность WER = 22% и CER = 6%, что подтверждает работоспособность разработанного решения. Полученные результаты могут быть использованы при построении прикладных систем автоматического преобразования речи в текст и внедрении речевых интерфейсов в различные цифровые продукты.
СОДЕРЖАНИЕ
УСЛОВНЫЕ ОБОЗНАЧЕНИЯ, ТЕРМИНЫ И СОКРАЩЕНИЯ .................................... 7
ВВЕДЕНИЕ .................................................................................................................... 8
ГЛАВА 1. АНАЛИЗ СОВРЕМЕННЫХ СИСТЕМ АВТОМАТИЧЕСКОГО
РАСПОЗНАВАНИЯ РЕЧИ ............................................................................................ 10
1.1. Традиционные архитектуры ASR ........................................................................ 10
1.1.1 HMM-GMM модели.......................................................................................... 10
1.1.2. Гибридные модели........................................................................................... 11
1.2. Современные end-to-end подходы ........................................................................ 15
1.2.1. Модели с CTC (Connectionist Temporal Classification) ......................................... 16
1.2.2. RNN-T (Recurrent Neural Network Transducer) .................................................... 18
1.2.3. AED (Attention-based encoder-decoder) ............................................................... 20
1.2.4. Архитектуры на базе трансформеров ................................................................ 21
ГЛАВА 2. ПОСТАНОВКА ЗАДАЧИ И ОБОСНОВАНИЕ ПРОЕКТНЫХ РЕШЕНИЙ ... 25
2.1 Цель и функциональные требования к системе.................................................... 25
2.2. Обоснование выбора архитектуры ...................................................................... 25
2.3. Выбор фреймворков и библиотек ........................................................................ 26
2.4. Датасеты .............................................................................................................. 28
2.5. Аппаратное и программное обеспечение .............................................................. 29
ГЛАВА 3. РАЗРАБОТКА СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ ДЛЯ РУССКОГО
ЯЗЫКА ......................................................................................................................... 31
3.1. Используемые библиотеки и инструменты .......................................................... 31
3.3. Архитектура модели ............................................................................................ 34
3.3.1. PositionalTokenEmbedding ................................................................................ 34
3.3.2. AcousticFeatureEncoder ..................................................................................... 35
3.3.3. AudioEncoder ................................................................................................... 36
3.3.4. TextDecoder ..................................................................................................... 38
3.3.5. Transformer...................................................................................................... 40
3.4. Колбэк для оценки модели ................................................................................... 42
3.5. Пользовательское расписание обучения .............................................................. 45
3.6. Обучение и тестирование модели ......................................................................... 46
3.6.1. Запуск обучения модели................................................................................... 46
3.6.2. Тестирование модели ....................................................................................... 49
ГЛАВА 4. РЕЗУЛЬТАТЫ ОБУЧЕНИЯ И ТЕСТИРОВАНИЯ МОДЕЛИ......................... 51
4.1. Результаты обучения модели на датасете CommonVoice ...................................... 51
4.2. Результаты обучения модели на датасете OpenSTT ............................................. 52
4.3. Тестирование модели ........................................................................................... 54
4.4. Сравнение с аналогами........................................................................................ 56
ЗАКЛЮЧЕНИЕ ............................................................................................................ 58
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ........................................................ 60
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Ермоленко Т. В., Пикалёв Я. С. Система автоматического распознавания слитной русской речи на основе глубоких нейросетей [Электронный ресурс]. CyberLeninka. // URL: . (дата
обращения: 01.05.2025).
2. Snakers4. Сравнение систем распознавания русского языка 2024 [Электронный ресурс]. (дата обращения: 01.05.2025).
3. Abdel-Hamid, O., Deng, L., Yu, D. Exploring convolutional neural net-work structures and optimization techniques for speech recognition // Proceedings of Interspeech 2013. — 2013. — P. 3366–3370.
4. Andrusenko A., Laptev A., Medennikov I. Exploration of End-to-End ASR for OpenSTT – Russian Open Speech-to-Text Dataset. [Электронный ресурс]. (дата обращения: 01.05.2025).
5. Child R., Gray S., Radford A., Sutskever I. Generating Long Sequences with Sparse Transformers [Электронный ресурс] // arXiv. URL: (дата обращения: 01.05.2025).
всего 34 источника