Задание от преподавателя:
(словарь уже подтверждён и выбран, файл ниже)
Рекомендации по выполнению минипроекта:
1. Сопроводительную документацию к проекту следует создать в отдельной ячейке типа markdown в среде JupyterLab (вся сопутствующая работа за исключением приложенных файлов должна содержаться в файле фамилия_имя_шифр.ipynb).
2. Изучить возможности оцифровки словаря с использованием доступных OCR-средств. Определить особенности использования OCR-инструментария, выявить оптимальную стратегию получения текста с наименьшим количеством ошибок. Выбрать OCR-средство и перевести словарь в цифровой вид: получить текстовый файл словаря в кодировке UTF-8, содержащий текст с потенциальными ошибками (выходной файл название_словаря_raw.txt). Выводы по этапу отразить в markdown-ячейке (таблица сравнительных характеристик OCR-средств, аргументация выбора конкретного OCR-средства, ДРАКОН-схемы алгоритмов действий для получения текста с наименьшим количеством ошибок). При наличии в словаре графических иллюстраций подготовить файлы соответствующих изображений.
3. Проанализировать текстовый файл словаря, выявив, классифицировав и систематизировав закономерности ошибок в текстовом файле. Выводы по этапу отразить в markdown-ячейке (таблица типичных ошибок после оцифровки по категориям с указанием ошибочных и верных вариантов).
4. Исправить ошибки в текстовом файле словаря, используя кусочную автоматизацию на основе выявленных типичных ошибок (выходной файл в кодировке UTF-8 название_словаря_auto.txt). Выводы по этапу отразить в markdown-ячейке и документации (в markdown-ячейке -- алгоритмы действий, в отдельной ячейке типа code -- код python, реализующий кусочную автоматизацию исправления ошибок). Схемы алгоритмов выполнить в среде DrakonHub, на файлы .drakon сделать гиперссылки из блокнота JupyterLab.
5. Оставшиеся ошибки исправить в ручном режиме в максимально возможном количестве словарных статей, идущих с начала словаря; отразить в markdown-ячейке типы этих ошибок с примерами, обосновать невозможность автоматизации. В итоге словарь разбивается на две части, и получится два текстовых файла: файл начальной части словаря с полностью исправленными ошибками (файл название_словаря_correct.txt) и файл с остальными словарными статьями (название_словаря_auto2.txt).
Обязательные файлы:
название_словаря_raw.txt
название_словаря_auto.txt
название_словаря_correct.txt
название_словаря_auto2.txt
Гарантия на работу | 1 год |
Средний балл | 4.55 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |