Отцифровка словаря и автоматизация исправления ошибок в нём

Отменен
Заказ
6752496
Раздел
Программирование
Предмет
Основы программирования
Антиплагиат
Не указан
Срок сдачи
31 Мая в 23:55
Цена
3 000 ₽
Блокировка
10 дней
Размещен
25 Мая в 18:43
Просмотров
79
Описание работы

Задание от преподавателя:

(словарь уже подтверждён и выбран, файл ниже)

Рекомендации по выполнению минипроекта:


1. Сопроводительную документацию к проекту следует создать в отдельной ячейке типа markdown в среде JupyterLab (вся сопутствующая работа за исключением приложенных файлов должна содержаться в файле фамилия_имя_шифр.ipynb).

2. Изучить возможности оцифровки словаря с использованием доступных OCR-средств. Определить особенности использования OCR-инструментария, выявить оптимальную стратегию получения текста с наименьшим количеством ошибок. Выбрать OCR-средство и перевести словарь в цифровой вид: получить текстовый файл словаря в кодировке UTF-8, содержащий текст с потенциальными ошибками (выходной файл название_словаря_raw.txt). Выводы по этапу отразить в markdown-ячейке (таблица сравнительных характеристик OCR-средств, аргументация выбора конкретного OCR-средства, ДРАКОН-схемы алгоритмов действий для получения текста с наименьшим количеством ошибок). При наличии в словаре графических иллюстраций подготовить файлы соответствующих изображений.

3. Проанализировать текстовый файл словаря, выявив, классифицировав и систематизировав закономерности ошибок в текстовом файле. Выводы по этапу отразить в markdown-ячейке (таблица типичных ошибок после оцифровки по категориям с указанием ошибочных и верных вариантов).

4. Исправить ошибки в текстовом файле словаря, используя кусочную автоматизацию на основе выявленных типичных ошибок (выходной файл в кодировке UTF-8 название_словаря_auto.txt). Выводы по этапу отразить в markdown-ячейке и документации (в markdown-ячейке -- алгоритмы действий, в отдельной ячейке типа code -- код python, реализующий кусочную автоматизацию исправления ошибок). Схемы алгоритмов выполнить в среде DrakonHub, на файлы .drakon сделать гиперссылки из блокнота JupyterLab.

5. Оставшиеся ошибки исправить в ручном режиме в максимально возможном количестве словарных статей, идущих с начала словаря; отразить в markdown-ячейке типы этих ошибок с примерами, обосновать невозможность автоматизации. В итоге словарь разбивается на две части, и получится два текстовых файла: файл начальной части словаря с полностью исправленными ошибками (файл название_словаря_correct.txt) и файл с остальными словарными статьями (название_словаря_auto2.txt).


Обязательные файлы:

название_словаря_raw.txt

название_словаря_auto.txt

название_словаря_correct.txt

название_словаря_auto2.txt

Нужна такая же работа?
  • Разместите заказ
  • Выберите исполнителя
  • Получите результат
Гарантия на работу 1 год
Средний балл 4.55
Стоимость Назначаете сами
Эксперт Выбираете сами
Уникальность работы от 70%
Предыдущий заказ
Следующий заказ
Нужна аналогичная работа?
Оформи быстрый заказ и узнай стоимость
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Темы журнала
Показать ещё
Прямой эфир