Отцифровка словаря и автоматизация исправления ошибок в нём

Главная

Заказы

Контрольная работа

Отцифровка словаря и автоматизация исправления ошибок в нём

user918250

Был(а) на сайте 4 месяца назад

Отменен

Заказ

6752496

Раздел

Программирование

Предмет

Основы программирования

Тип работы

Контрольная работа

Антиплагиат

Не указан

Срок сдачи

31 Мая в 23:55

Цена

3 000 ₽

Блокировка

10 дней

Размещен

25 Мая в 18:43

Просмотров

Описание работы

Задание от преподавателя:

(словарь уже подтверждён и выбран, файл ниже)

Рекомендации по выполнению минипроекта:

1. Сопроводительную документацию к проекту следует создать в отдельной ячейке типа markdown в среде JupyterLab (вся сопутствующая работа за исключением приложенных файлов должна содержаться в файле фамилия_имя_шифр.ipynb).

2. Изучить возможности оцифровки словаря с использованием доступных OCR-средств. Определить особенности использования OCR-инструментария, выявить оптимальную стратегию получения текста с наименьшим количеством ошибок. Выбрать OCR-средство и перевести словарь в цифровой вид: получить текстовый файл словаря в кодировке UTF-8, содержащий текст с потенциальными ошибками (выходной файл название_словаря_raw.txt). Выводы по этапу отразить в markdown-ячейке (таблица сравнительных характеристик OCR-средств, аргументация выбора конкретного OCR-средства, ДРАКОН-схемы алгоритмов действий для получения текста с наименьшим количеством ошибок). При наличии в словаре графических иллюстраций подготовить файлы соответствующих изображений.

3. Проанализировать текстовый файл словаря, выявив, классифицировав и систематизировав закономерности ошибок в текстовом файле. Выводы по этапу отразить в markdown-ячейке (таблица типичных ошибок после оцифровки по категориям с указанием ошибочных и верных вариантов).

4. Исправить ошибки в текстовом файле словаря, используя кусочную автоматизацию на основе выявленных типичных ошибок (выходной файл в кодировке UTF-8 название_словаря_auto.txt). Выводы по этапу отразить в markdown-ячейке и документации (в markdown-ячейке -- алгоритмы действий, в отдельной ячейке типа code -- код python, реализующий кусочную автоматизацию исправления ошибок). Схемы алгоритмов выполнить в среде DrakonHub, на файлы .drakon сделать гиперссылки из блокнота JupyterLab.

5. Оставшиеся ошибки исправить в ручном режиме в максимально возможном количестве словарных статей, идущих с начала словаря; отразить в markdown-ячейке типы этих ошибок с примерами, обосновать невозможность автоматизации. В итоге словарь разбивается на две части, и получится два текстовых файла: файл начальной части словаря с полностью исправленными ошибками (файл название_словаря_correct.txt) и файл с остальными словарными статьями (название_словаря_auto2.txt).

Обязательные файлы:

название_словаря_raw.txt

название_словаря_auto.txt

название_словаря_correct.txt

название_словаря_auto2.txt

Нужна такая же работа?

Разместите заказ
Выберите исполнителя
Получите результат

Гарантия на работу	1 год
Средний балл	4.55
Стоимость	Назначаете сами
Эксперт	Выбираете сами
Уникальность работы	от 70%

Предыдущий заказ

Сделать задание

Следующий заказ

Задача срочно

Темы журнала

Прямой эфир