Учебные материалы
1 Введение
2 Тема 1. Большие данные: термины, проблемы
3 Тема 2. Обработка структурированной информации
4 Тема 3. Обработка слабоструктурированной информации
5 Тема 4. Обработка визуальной информации
6 Тема 5. Неструктурированная информация на примере корпуса текстов
7 Заключение
… – английское сокращенное обозначение специализированных комплектов разработчика позволяющих при необходимости создавать собственное программное обеспечение, адаптированное к задачам, решаемым той или иной организацией
… – проект фонда Apache Software Foundation, платформа с открытым исходным кодом для обработки больших данных; благодаря распределенной файловой системе и распределенным вычислениям эта разработка позволяет обрабатывать и анализировать очень большие объемы данных.
… – это полный набор объектов, связанных с поставленной перед изучением проблемой
… – это сокращенное английское обозначение одного из основных процессов в управлении хранилищами данных, которое можно перевести как «извлечение, преобразование, загрузка / извлечение, загрузка, преобразование»
… – это утверждение о том, что представляют собой законы, лежащие в основе изучаемой генеральной совокупности
… включает данные, которые относятся к нескольким однородным объектам, при этом каждый объект описан в виде набора характеристик; обычно его можно представить в виде таблицы в несколько строк и столбцов
… впервые использовал термин «большие данные» в журнале Nature по аналогии с терминами «большая нефть», «большая руда»
… данные – это данные текстовых файлов с определенными паттернами для их обработки
… данные обычно существуют в таблицах, подобных файлам Excel и электронным таблицам Google Docs
… данные представляют собой высокоорганизованную, фактическую и точную информацию и обычно представлены в форме букв и цифр, которые хорошо вписываются в строки и столбцы таблиц
… данных – это процесс, посредством которого извлекается необходимая для обработки информация, впоследствии предоставляющая решение поставленной перед ним задачи/проблемы
… данных являются соцсети, приложения, веб-визоры, камеры наблюдения, видеорегистраторы, датчики и другие системы, где генерируются разнородные данные
… таблица – это специальный тип таблицы, суммирующий информацию из конкретных полей списка или базы данных; допускает после построения настройку на различные разрезы данных
Английское название хранилищ данных масштаба предприятия, где данные хранятся в неструктурированном / необработанном виде, – Data …
В числе наиболее доступных источников информации на сегодня - … (укажите 2 варианта ответа)
Данные, у которых нет строго зафиксированного формата, называются …
Для работы с реляционными базами данных и хранилищами используется специальный язык программирования – язык структурированных запросов …, который был разработан IBM в 1970-х гг
Карта с нанесенной на нее информацией в виде цвета или с помощью других способов – это …
Комплексный набор методов, подходов и инструментов обработки структурированных и неструктурированных данных колоссальных объемов –это …
Компонентом системы машинного зрения является датчик для … частей обнаружения (часто оптический или магнитный датчик), который служит для захвата и обработки изображений
Макрокоманда, содержащая последовательность действий, записанных пользователем, – это …
На рисунке ниже приведены … списка
Одной из задач машинного зрения является …, например: определение трехмерного движения камеры; слежение, то есть следование за перемещениями объекта (машины, человека)
Операция над данными, с помощью которой можно переупорядочить строки в списке в соответствии с содержанием конкретных столбцов, – это …
Подборка тематически связанных данных, расположенных на одном рабочем листе, – это …
После того как первая версия поискового словаря создана, дальнейшие операции …
Программный продукт TextAnalyst научно-производственного инновационного центра …, использует для решения задач распознавания слов нейросетевые технологии и, в основном, предназначен для решения задачи автоматического реферирования документов
Совокупность методов и средств извлечения их организованных данных для принятия решений – это … данных
Согласно принципу трех V английским словом «…» обозначают разнообразие, способность обработки множества типов, источников и форматов данных
Создание большого количества различных визуальных представлений одних и тех же данных – это …
Среди разработчиков программного обеспечения, реализующих передовые поисковые лингвистические технологии, следует выделить ЗАО «…» – такие разработки этой фирмы, как «Следопыт», «Классификатор» и «Аннотатор», позволяют осуществлять оперативный поиск документов, их индексирование, классификацию и автоматическое аннотирование
Структурированные данные часто называют …, что означает, что их объективный и заранее определенный характер позволяет нам легко подсчитывать, измерять и выражать данные в числах
Такой метод обработки изображений, как …, используется для поиска и (или) подсчета деталей, его цель заключается в упрощении и/или изменении представления изображения, чтобы его было проще и легче анализировать
Такой метод обработки изображения, как …, заключается в преобразовании изображения в серых тонах в белые и черные пиксели; значения каждого пикселя условно кодируются как 0 и 1
Текстовые данные с неустойчивым форматом, которые для обработки инструментами требуют больших временных затрат на преобразование, – это … данные
Услуга эвристического поиска, основанного на использовании систем искусственного интеллекта, формирующих расширенный запрос на основе применения специализированных отраслевых тезаурусов и семантических сетей, в Интернете на сегодня …
Установите правильную последовательность действий, если необходимо создать собственный формат данных (лс) и применить его для поля электронной таблицы «Мощность двигателя» (см. рисунок ниже):
Установите правильную последовательность этапов анализа данных:
Установите правильный порядок процедуры анализа текстовой информации, осуществляемой аналитиком:
Установите соответствие английского обозначения признака больших данных и характеристики данного признака:
Установите соответствие дат и описаний исторических прорывов в машинном зрении:
Установите соответствие компонентов распознавания текста и их характеристик:
Установите соответствие основания классификации и соответствующих примеров корпусов текстов:
Установите соответствие понятий и их определений:
Установите соответствие признаков больших данных и их характеристик:
Установите соответствие примеров и характеристик систем управления реляционными базами данных (СУБД), инструментов и технологий для обработки данных:
Установите соответствие элементов специфики работы со неструктурированными данными и их содержания:
Установите хронологическую последовательность исторических прорывов в машинном зрении:
Чтобы переименовать рабочий лист электронной таблицы, сначала нужно … кнопки мыши вызвать контекстное меню на ярлыке листа и выбрать в нем команду «Переименовать»