Программное средство детектирования действий человека на видео, разработанное с применением нейросетевых технологий. В своей основе содержит отдельно разработанную нейростетевую SSM-модель, особенности строения которой позволяют достичь высокой скорости обучения и учёта длинных временных зависимостей обрабатываемых данных. Главное преимущества: скорость обучения, возможность детекции длительных действий человека и малые затраты вычислительных ресурсов при использовании.
ВВЕДЕНИЕ ............................................................................................................ 8
ГЛАВА 1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ .................................................. 10
1.1. Задача детекции действий ..................................................................... 10
1.2. Существующие решения ....................................................................... 11
1.3. Обзор существующего решения на примере YOWOv3 ...................... 15
1.4. SSM-модель ........................................................................................... 17
ГЛАВА 2. РАЗРАБОТКА SSM-МОДЕЛИ ......................................................... 23
2.1. Рекуррентное представление ................................................................ 23
2.2. Свёрточное представление .................................................................... 23
2.3. Оптимизация вычисления ядра свёртки ............................................... 25
2.4. Производящая функция последовательности ...................................... 26
2.5. Диагональная матрица .......................................................................... 28
2.6. Добавление компоненты низкого ранга ............................................... 29
2.7. Результат оптимизаций ......................................................................... 30
2.8. Обратное преобразование из DPLR в RNN .......................................... 30
ГЛАВА 3. АРХИТЕКТУРА НЕЙРОСЕТЕВОЙ МОДЕЛИ ДЕТЕКЦИИ
ДЕЙСТВИЙ ...................................................................................................... 32
3.1. Общая структура ................................................................................... 32
3.2. Модуль Backbone 2D ............................................................................. 33
3.3. Блок слияния (Fusion Head) .................................................................. 34
3.4. Блок SSM................................................................................................ 35
3.5. Блок локализации (Localization Head) .................................................. 37
3.6. Блок классификации (Classification Head) ............................................ 38
ГЛАВА 4. ОБУЧЕНИЕ НЕЙРОСЕТИ, РЕЗУЛЬТАТЫ ..................................... 40
4.1. Датасет для обучения ............................................................................ 40
4.2. Подготовка данных для обучения ........................................................ 43
4.3. Функция потерь ..................................................................................... 44
4.4. Процесс обучения .................................................................................. 46
4.5. Программный прототип ........................................................................ 49
4.6 Результат работы, сравнение с существующими решениями .............. 50
ЗАКЛЮЧЕНИЕ .................................................................................................... 52
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ............................................ 53
ПРИЛОЖЕНИЕ 1 ................................................................................................. 55
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Бронштейн Е. М. Производящие функции // Соросовский Образовательный Журнал. — 2001. — Т. 7, № 2. — С. 103—108.
2. Max A. Woodbury, Inverting modified matrices - Statistical Research Group, Princeton University, Princeton, NJ, 1950 - 4 c.
3. Ronald Bracewell. The Fourier Transform & Its Applications - The McGraw-Hill Companies Inc., 1999. - 636 с.
4. Albert Gu, Karan Goel ans Christopher Re, Efficiently Modeling Long Sequences with Structured State Spaces // The International Conference on Learning Representations, 2022 - 32 с. - URL: (дата обращения: 12.06.2025).
5. Christoph Feichtenhofer, X3D: Expanding Architectures for Efficient Video Recognition // Computer Vision and Pattern Recognition Conference 2020 - 14 с. - URL: (дата обращения: 12.06.2025).
всего 15 источников