Разработка end-to-end системы распознавания речи

Раздел
Программирование
Просмотров
16
Покупок
0
Антиплагиат
Не указан
Размещена
28 Фев в 11:21
ВУЗ
2025
Курс
Не указан
Стоимость
2 700 ₽
Файлы работы   
1
Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.
pdf
вкр
680.8 Кбайт
Описание

Данная работа посвящена разработке end-to-end системы распознавания русской речи на основе архитектуры Transformer. Входными данными для системы служат аудиозаписи русского языка, которые преобразуются в текстовую форму. Особое внимание уделено особенностям обработки русскоязычных аудиосигналов и построению модели, способной эффективно работать с такими данными.

В процессе работы был проведён анализ и исследование современных решений и методов автоматического распознавания речи. Это позволило выделить наиболее эффективные подходы и технологии, которые учитывались при выборе архитектуры и реализации модели, обеспечивая её эффективность.

Была реализована и обучена модель на основе Transformer, адаптированная под специфику русского языка. Обучение проводилось на открытых датасетах CommonVoice и OpenSTT. В результате тестирования была достигнута точность WER = 22% и CER = 6%, что подтверждает работоспособность разработанного решения. Полученные результаты могут быть использованы при построении прикладных систем автоматического преобразования речи в текст и внедрении речевых интерфейсов в различные цифровые продукты.

Оглавление

СОДЕРЖАНИЕ

УСЛОВНЫЕ ОБОЗНАЧЕНИЯ, ТЕРМИНЫ И СОКРАЩЕНИЯ .................................... 7

ВВЕДЕНИЕ .................................................................................................................... 8

ГЛАВА 1. АНАЛИЗ СОВРЕМЕННЫХ СИСТЕМ АВТОМАТИЧЕСКОГО

РАСПОЗНАВАНИЯ РЕЧИ ............................................................................................ 10

1.1. Традиционные архитектуры ASR ........................................................................ 10

1.1.1 HMM-GMM модели.......................................................................................... 10

1.1.2. Гибридные модели........................................................................................... 11

1.2. Современные end-to-end подходы ........................................................................ 15

1.2.1. Модели с CTC (Connectionist Temporal Classification) ......................................... 16

1.2.2. RNN-T (Recurrent Neural Network Transducer) .................................................... 18

1.2.3. AED (Attention-based encoder-decoder) ............................................................... 20

1.2.4. Архитектуры на базе трансформеров ................................................................ 21

ГЛАВА 2. ПОСТАНОВКА ЗАДАЧИ И ОБОСНОВАНИЕ ПРОЕКТНЫХ РЕШЕНИЙ ... 25

2.1 Цель и функциональные требования к системе.................................................... 25

2.2. Обоснование выбора архитектуры ...................................................................... 25

2.3. Выбор фреймворков и библиотек ........................................................................ 26

2.4. Датасеты .............................................................................................................. 28

2.5. Аппаратное и программное обеспечение .............................................................. 29

ГЛАВА 3. РАЗРАБОТКА СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ ДЛЯ РУССКОГО

ЯЗЫКА ......................................................................................................................... 31

3.1. Используемые библиотеки и инструменты .......................................................... 31

3.3. Архитектура модели ............................................................................................ 34

3.3.1. PositionalTokenEmbedding ................................................................................ 34

3.3.2. AcousticFeatureEncoder ..................................................................................... 35

3.3.3. AudioEncoder ................................................................................................... 36

3.3.4. TextDecoder ..................................................................................................... 38

3.3.5. Transformer...................................................................................................... 40

3.4. Колбэк для оценки модели ................................................................................... 42

3.5. Пользовательское расписание обучения .............................................................. 45

3.6. Обучение и тестирование модели ......................................................................... 46

3.6.1. Запуск обучения модели................................................................................... 46

3.6.2. Тестирование модели ....................................................................................... 49

ГЛАВА 4. РЕЗУЛЬТАТЫ ОБУЧЕНИЯ И ТЕСТИРОВАНИЯ МОДЕЛИ......................... 51

4.1. Результаты обучения модели на датасете CommonVoice ...................................... 51

4.2. Результаты обучения модели на датасете OpenSTT ............................................. 52

4.3. Тестирование модели ........................................................................................... 54

4.4. Сравнение с аналогами........................................................................................ 56

ЗАКЛЮЧЕНИЕ ............................................................................................................ 58

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ........................................................ 60

Список литературы

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Ермоленко Т. В., Пикалёв Я. С. Система автоматического распознавания слитной русской речи на основе глубоких нейросетей [Электронный ресурс]. CyberLeninka. // URL: . (дата

обращения: 01.05.2025).

2. Snakers4. Сравнение систем распознавания русского языка 2024 [Электронный ресурс]. (дата обращения: 01.05.2025).

3. Abdel-Hamid, O., Deng, L., Yu, D. Exploring convolutional neural net-work structures and optimization techniques for speech recognition // Proceedings of Interspeech 2013. — 2013. — P. 3366–3370.

4. Andrusenko A., Laptev A., Medennikov I. Exploration of End-to-End ASR for OpenSTT – Russian Open Speech-to-Text Dataset. [Электронный ресурс]. (дата обращения: 01.05.2025).

5. Child R., Gray S., Radford A., Sutskever I. Generating Long Sequences with Sparse Transformers [Электронный ресурс] // arXiv. URL: (дата обращения: 01.05.2025).

всего 34 источника

Вам подходит эта работа?
Похожие работы
Другие работы автора
Прямой эфир