Разработка end-to-end системы распознавания речи — Купить готовую дипломную работу по дисциплине №611198

Главная

Магазин

Дипломная работа

Информационные системы

Разработка end-to-end системы распознавания речи

Math-Econom

Был(а) на сайте 5 часов назад

Раздел

Программирование

Предмет

Информационные системы

Тип

Дипломная работа

Просмотров

Покупок

Антиплагиат

Не указан

Размещена

28 Фев в 11:21

ВУЗ

2025

Курс

Не указан

Стоимость

2 700 ₽

Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.

вкр

680.8 Кбайт

Данная работа посвящена разработке end-to-end системы распознавания русской речи на основе архитектуры Transformer. Входными данными для системы служат аудиозаписи русского языка, которые преобразуются в текстовую форму. Особое внимание уделено особенностям обработки русскоязычных аудиосигналов и построению модели, способной эффективно работать с такими данными.

В процессе работы был проведён анализ и исследование современных решений и методов автоматического распознавания речи. Это позволило выделить наиболее эффективные подходы и технологии, которые учитывались при выборе архитектуры и реализации модели, обеспечивая её эффективность.

Была реализована и обучена модель на основе Transformer, адаптированная под специфику русского языка. Обучение проводилось на открытых датасетах CommonVoice и OpenSTT. В результате тестирования была достигнута точность WER = 22% и CER = 6%, что подтверждает работоспособность разработанного решения. Полученные результаты могут быть использованы при построении прикладных систем автоматического преобразования речи в текст и внедрении речевых интерфейсов в различные цифровые продукты.

СОДЕРЖАНИЕ

УСЛОВНЫЕ ОБОЗНАЧЕНИЯ, ТЕРМИНЫ И СОКРАЩЕНИЯ .................................... 7

ВВЕДЕНИЕ .................................................................................................................... 8

ГЛАВА 1. АНАЛИЗ СОВРЕМЕННЫХ СИСТЕМ АВТОМАТИЧЕСКОГО

РАСПОЗНАВАНИЯ РЕЧИ ............................................................................................ 10

1.1. Традиционные архитектуры ASR ........................................................................ 10

1.1.1 HMM-GMM модели.......................................................................................... 10

1.1.2. Гибридные модели........................................................................................... 11

1.2. Современные end-to-end подходы ........................................................................ 15

1.2.1. Модели с CTC (Connectionist Temporal Classification) ......................................... 16

1.2.2. RNN-T (Recurrent Neural Network Transducer) .................................................... 18

1.2.3. AED (Attention-based encoder-decoder) ............................................................... 20

1.2.4. Архитектуры на базе трансформеров ................................................................ 21

ГЛАВА 2. ПОСТАНОВКА ЗАДАЧИ И ОБОСНОВАНИЕ ПРОЕКТНЫХ РЕШЕНИЙ ... 25

2.1 Цель и функциональные требования к системе.................................................... 25

2.2. Обоснование выбора архитектуры ...................................................................... 25

2.3. Выбор фреймворков и библиотек ........................................................................ 26

2.4. Датасеты .............................................................................................................. 28

2.5. Аппаратное и программное обеспечение .............................................................. 29

ГЛАВА 3. РАЗРАБОТКА СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ ДЛЯ РУССКОГО

ЯЗЫКА ......................................................................................................................... 31

3.1. Используемые библиотеки и инструменты .......................................................... 31

3.3. Архитектура модели ............................................................................................ 34

3.3.1. PositionalTokenEmbedding ................................................................................ 34

3.3.2. AcousticFeatureEncoder ..................................................................................... 35

3.3.3. AudioEncoder ................................................................................................... 36

3.3.4. TextDecoder ..................................................................................................... 38

3.3.5. Transformer...................................................................................................... 40

3.4. Колбэк для оценки модели ................................................................................... 42

3.5. Пользовательское расписание обучения .............................................................. 45

3.6. Обучение и тестирование модели ......................................................................... 46

3.6.1. Запуск обучения модели................................................................................... 46

3.6.2. Тестирование модели ....................................................................................... 49

ГЛАВА 4. РЕЗУЛЬТАТЫ ОБУЧЕНИЯ И ТЕСТИРОВАНИЯ МОДЕЛИ......................... 51

4.1. Результаты обучения модели на датасете CommonVoice ...................................... 51

4.2. Результаты обучения модели на датасете OpenSTT ............................................. 52

4.3. Тестирование модели ........................................................................................... 54

4.4. Сравнение с аналогами........................................................................................ 56

ЗАКЛЮЧЕНИЕ ............................................................................................................ 58

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ........................................................ 60

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Ермоленко Т. В., Пикалёв Я. С. Система автоматического распознавания слитной русской речи на основе глубоких нейросетей [Электронный ресурс]. CyberLeninka. // URL: . (дата

обращения: 01.05.2025).

2. Snakers4. Сравнение систем распознавания русского языка 2024 [Электронный ресурс]. (дата обращения: 01.05.2025).

3. Abdel-Hamid, O., Deng, L., Yu, D. Exploring convolutional neural net-work structures and optimization techniques for speech recognition // Proceedings of Interspeech 2013. — 2013. — P. 3366–3370.

4. Andrusenko A., Laptev A., Medennikov I. Exploration of End-to-End ASR for OpenSTT – Russian Open Speech-to-Text Dataset. [Электронный ресурс]. (дата обращения: 01.05.2025).

5. Child R., Gray S., Radford A., Sutskever I. Generating Long Sequences with Sparse Transformers [Электронный ресурс] // arXiv. URL: (дата обращения: 01.05.2025).

всего 34 источника

Вам подходит эта работа?

24 Апр в 16:40

Методы и средства проектирования информационных систем и технологий, Лабораторные работы 4,5,6 ПГУТИ ИСТ

Информационные системы

Контрольная работа

1 500 ₽

user469936

0 покупок

24 Апр в 16:33

Методы и средства проектирования информационных систем и технологий - Лабораторные работы 1,2,3 ПГУТИ ИСТ

Информационные системы

Лабораторная работа

1 500 ₽

user469936

0 покупок

24 Апр в 15:56

Проектирование и разработка ИС туристического агентства курсовая работа Платформы и программные среды разработки информационных систем ПГУТИ ИСТ

Информационные системы

Курсовая работа

2 000 ₽

user469936

0 покупок

24 Апр в 15:49

Платформы и программные среды разработки информационных систем - 8 работ ПГУТИ ИСТ

Информационные системы

Лабораторная работа

1 500 ₽

user469936

0 покупок

24 Апр в 12:56

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ РАЗРАБОТКИ САЙТА

Информационные системы

Дипломная работа

10 000 ₽

reshu_1

0 покупок

13 Апр в 09:48

Защита от эксплуатации бинарных уязвимостей на основе самомодифицирующегося кода

Информационная безопасность

Дипломная работа

3 700 ₽

Math-Econom

0 покупок

13 Апр в 09:43

Выявление вредоносных мобильных приложений на основе анализа используемых функций и разрешений

Информационная безопасность

Дипломная работа

2 700 ₽

Math-Econom

0 покупок

13 Апр в 09:39

Коммуникационная продвижения компании индустрии красоты и здоровья ООО Galderma

Реклама и PR

Дипломная работа

1 700 ₽

Math-Econom

0 покупок

13 Апр в 09:36

НАРРАТИВНЫЕ МАНИПУЛЯЦИИ ВО ВНЕШНИХ КОММУНИКАЦИЯХ ОРГАНИЗАЦИИ (НА ПРИМЕРЕ ООО «ВЕКТОР»)

Реклама и PR

Дипломная работа

1 800 ₽

Math-Econom

0 покупок

13 Апр в 09:34

Коммуникационное продвижение сети вьетнамских ресторанов в Санкт-Петербурге

Реклама и PR

Дипломная работа

1 700 ₽

Math-Econom

0 покупок

Предыдущая работа

Физика 3 (РОСДИСТАНТ ТГУ) промежутки+итоги

Следующая работа

ОТЧЕТ о прохождении профессиональной практики по профессиональному модулю ПМ.05 Выполнение работ по профессии "Штукатур" МТИ

Закажите новую работу, выполненную по вашим требованиям у эксперта

Темы журнала

Статьи справочника

Прямой эфир