ИТОГОВЫЙ ТЕСТ + КОМПЕТЕНТНОСТНЫЙ ТЕСТ
110 вопросов с ответами
Последний раз тест был сдан на 90 баллов из 100 "Отлично".
Год сдачи -2024-2025.
***ВАЖНО*** Перед покупкой запустите тест и сверьте подходят ли эти ответы именно Вам***
После покупки Вы получите файл с ответами на вопросы которые указаны ниже:
1. Вычислительная единица в искусственных нейронных сетях, которая получает информацию, производит над ней простые вычисления и передает ее дальше, – это …
*перцептрон
*градиент
*нейрон
*протон
2. Velocity в контексте характеристик Big Data означает …
*высокую скорость генерирования данных
*разные типы данных в колонках таблиц реляционных систем управления базами данных (СУБД)
*разнообразие отраслей, являющихся источниками данных
*разнообразие типов данных, включающих структурированные, полуструктурированные и неструктурированные
3. Нажатием сочетания клавиш «…» и «–» можно написать оператор присваивания "<-"
4. Установите соответствие между описательными статистиками и их определением:
A. Мода
B. Медиана
C. Первый квартиль
D. Третий квартиль
E. наиболее часто встречающееся значение признака в совокупности
F. значение признака, которое делит ранжированную совокупность на две равные части
G. значение признака, ниже (левее) которого располагаются 25 % измеренных значений
H. значение признака, правее которого располагаются 75 % измеренных значений
5. Возможность снижения размерности признакового пространства обусловлена … (укажите 3 варианта ответа)
*неинформативностью признаков, значения которых мало меняются при переходе от одного объекта к другому
*информативностью признаков, значения которых сильно меняются при переходе от одного объекта к другому
*дублированием информации по причине корреляции исходных признаков
*возможностью агрегирования исходных признаков
*невозможностью агрегирования исходных признаков
6. Целое четырехзначное число, отражающее количество зеттабайт в йоттабайте, – …
7. Процесс преобразования данных в код, который можно распознать только с помощью определенного ключа или пароля, – это …
8. Ваша компания использует различные технологии для сбора и хранения данных. Приведите пример данных, когда эффективнее использовать технологию Hadoop.
*Поминутное сохранение данных транзакций торговых точек.
*Построение графика ежегодной выручки.
*Анализ 10 Гб данных.
*Сравнение цен с конкурентами.
9. Метод исследования, характеризующийся выделением и изучением отдельных частей объектов исследования, – … (слово происходит от греч. «разложение»)
10. Отказоустойчивость Big Data имеет место, когда …
*активируются до 1000 компьютеров
*сбой в одном звене системы не ведет к сбоям в других звеньях
*недостоверные данные удаляются из системы
*данные обрабатываются на других серверах
11. Расположите в правильной последовательности этапы дивизимного метода кластерного анализа:
1 все объекты помещаются в один кластер С1
2 выбирается объект, у которого среднее значение расстояния до других объектов в этом кластере наибольшее
3 выбранный объект удаляется из кластера С1 и формирует первый элемент второго кластера С2
4 объект в кластере С1, для которого разность между средним расстоянием до объектов, находящихся в С2, и средним расстоянием до объектов, остающихся в С1, наибольшая, переносится в С2
5 каждый последующий уровень применяет процедуру разделения к одному из кластеров, полученных на предыдущем уровне
12. Нажатие клавиши «…» предложит возможные варианты продолжения текста кода, включая выбор параметров и переменных в аргументах набираемых команд
13. В изучении нейронных сетей и машинного обучения часто упоминают закон Мура, согласно которому …
*не следует множить сущее без необходимости
*20 % усилий дают 80 % результата, а остальные 80 % усилий – лишь 20 % результата
*каждое следующее поколение компьютеров работает в 2,5 раза быстрее
*если все слова текста упорядочить по убыванию частоты их использования, то частота n-го слова окажется приблизительно обратно пропорциональной его порядковому номеру n
14. Язык программирования … имеет лицензию от компании MathWorks и широко используется для вычислений как в научных, так и в промышленных целях
15. В реляционной модели представленные данные для пользователя передаются в виде …
*таблиц
*списков
*графа типа дерева
*произвольного графа
*файлов
16. Установите соответствие целей инфраструктуры Hadoop и их характеристик:
A. Надежность
B. Отказоустойчивость
C. Масштабируемость
D. Портируемость
E. достигается посредством создания нескольких копий данных и повторного применения логики обработки в случае сбоя
F. обнаружение сбоев и их автоматическое и применение автоматического восстановления
G. данные и их обработка распределяются в кластерах
H. возможность установки на всех видах устройств и операционных систем
17. Сокращенное английское название семейства нереляционных баз данных – …
18. Укажите правильную последовательность этапов анализа данных в языке программирования R:
1 сбор данных
2 импорт данных из источника в программную среду R
3 разведочный анализ
4 очистка и трансформация данных
5 моделирование
6 презентация результатов
19. Рассматривается несколько технологий систем управления базами данных (СУБД). Это технологии Hadoop, Cassandra, HDInsight и Redis. Какая из данных технологий не использует принцип MapReduce?
*Hadoop
*Cassandra
*HDInsight
*Redis
20. Название технологии, которая имитирует человеческое поведение, – искусственный …
21. Вам необходимо выполнить интерактивную визуализацию данных. Какой из языков программирования содержит больше библиотек и фреймворков для интерактивной визуализации и лучше подойдет для выполнения этой задачи?
*JavaScript
*R
*Python
*С++
22. Установите соответствие между понятием и его содержанием:
A. Data lake
B. Data science
C. Data mining
D. Machine learning
E. хранилище больших данных в необработанном виде
F. дисциплина, изучающая проблемы анализа, обработки и представления информации в цифровой форме
G. интеллектуальный анализ данных с целью выявления закономерностей
H. теория и практика разработки самообучающихся программ, большая область искусственного интеллекта
23. Вам необходимо принять решение о выдаче кредита клиенту. Какой метод машинного обучения вам в этом поможет?
*Поиск ассоциативных правил.
*Деревья решений.
*Кластеризация.
*Регрессия.
24. Функция … реализует алгоритм классификации в языке программирования R
*kmeans()
*hcclust()
*randomForest()
*classify()
25. Причина создания баз данных NoSQL – …
*высокая стоимость горизонтальной масштабируемости RDBMS при сохранении требования высокой доступности
*недостаточная гибкость языка запросов SQL
*невозможность хранения больших объемов информации в базе данных
*дороговизна лицензий RDBMS
26. Целое четырехзначное число, отражающее количество петабайт в зеттабайте, – …
27. Установите соответствие между пакетами языка программирования R и их назначением:
A. arm
B. ggplot2
C. maptools
D. vcd
E. outliers
F. анализ моделей регрессии
G. графический пакет высокой функциональности
H. инструментарий работы с географическими картами
I. визуализация категориальных данных
J. анализ выбросов в данных
28. Название на английском языке системы или репозитория данных, хранящихся в необработанном формате, – …
29. Web Mining применяет технологию Data Mining для анализа … (укажите 4 варианта ответа)
*неструктурированной информации
*структурированной информации
*неоднородной информации
*однородной информации
*распределенной и значительной по объему информации
*информации, содержащейся на веб-узлах
30. Процедура снижения признакового пространства …
*возможна в случае некоррелированности признаков
*возможна в случае сильной коррелированности признаков
*возможна всегда
*никогда не возможна
31. Установите правильный порядок действий при проектировании баз данных (БД):
1 анализ предметной области с учетом требования конечных пользователей
2 обобщенное описание БД с использованием естественного языка,
математических формул, графиков и других средств
3 формализация представления данных в БД
4 решение проблемы передачи данных
32. SQL – это …
*реляционная база данных
*язык неструктурированных запросов
*язык структурированных запросов
*средство для создания пайплайнов
33. Функция … реализует алгоритм кластеризации в языке программирования R
*pam()
*nnet()
*party()
*cluster()
34. Определите правильную последовательность этапов распределенных вычислений MapReduce:
1 Input
2 Splitting
3 Mapping
4 Shuffling
5 Reducing
35. Если расстоянием между кластерами называется минимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой – во второй, то это расстояние …
*ближнего соседа
*средней связи
*ближайшего центра
*дальнего соседа
36. … – это процесс преобразования данных в выводы, на основе которых будут приниматься решения и строиться действия с помощью людей, процессов и технологий
37. В числе систем управления базами данных (СУБД), которые полностью полагаются на оперативную память при хранении информации, – … (укажите 2 варианта ответа)
*Oracle Exalytics
*SAP HANA
*BigTable
*HBase
38. Чтобы получить помощь в программной среде R, можно … (укажите 3 варианта ответа)
*поставить курсор на название функции и нажать F1
*перед названием функции напечатать знак вопроса
*воспользоваться функцией help()
*поставить курсор на название функции и нажать ALT + F1
*поставить курсор перед названием функции и нажать F1
39. Hadoop – это проект …
*фонда Apache Software Foundation
*SAP
*SAS
40. Язык программирования, который объединяет объектно-ориентированный и функциональный подходы и используется в Apache Spark, – это язык …
41. Вам необходимо организовать потоковую обработку событий в режиме реального времени. Какую технологию необходимо использовать?
*Spark Streaming
*Apache Kafka
*Apache Hadoop
*MapReduce
42. Краудсорсинг – это …
*сбор данных из нескольких источников в единое место хранения
*объединение данных из различных источников для получения их согласованного представления
*привлечение к решению инновационных задач широкого круга лиц по типу субподрядной работы на добровольных началах
*область исследования, занимающаяся созданием компьютерных алгоритмов для преобразования данных в обоснованные действия
43. В языке программирования R используются такие типы данных, как … (укажите 5 вариантов ответа)
*numeric
*integer
*quantitative
*attributive
*logical
*complex
*character
44. Машинное обучение – это …
*сбор данных из нескольких источников в единое место хранения
*объединение данных из различных источников для получения их согласованного представления
*привлечение к решению инновационных задач широкого круга лиц по типу субподрядной работы на добровольных началах
*область исследования, занимающаяся созданием компьютерных алгоритмов для преобразования данных в обоснованные действия
46. Английское название фреймворка для вычисления наборов распределенных задач с использованием большого количества компьютеров, образующих кластер, – …
47. Установите соответствие этапов MapReduce и их содержания:
A. Input
B. Splitting
C. Mapping
D. Shuffling
E. Reducing
F. загрузка входных данных для обработки
G. разбивка данных на порции
H. обработка порционных данных воркерами в формате «ключ – значение»
I. сортировка ключей для упрощения обобщенных данных
J. объединение и вывод результата
48. В числовом ряду 3, 5, 8, 12, 2, 9, 6, 10, 11, 14 медиана (с точностью до 0,1) равна …
49. Совокупность сведений, зафиксированных на определенном носителе в форме, пригодной для постоянного хранения, передачи и обработки, – это …
50. Вам необходимо импортировать в программную среду RStudio текстовый файл с разделителем. Какую функцию вы будете использовать?
*read.text()
*read.table()
*read_text()
*read_table()
51. Деревья классификации относятся к стратегии …
*обучения с учителем
*обучения без учителя
*обучения с подкреплением
*ленивого обучения
52. Неверно, что Big Data – это …
*данные, имеющие объем свыше 1 Гб
*данные, которые можно обрабатывать с помощью Python
*данные, для которых используют технологию Hadoop
*как правило, неструктурированные данные
53. Метод Data Mining, который относит объекты к одному из заранее известных классов, – это …
54. Укажите правильную последовательность этапов анализа данных в языке программирования R:
1 сбор данных
2 импорт данных из источника в программную среду r
3 разведочный анализ
4 очистка и трансформация данных
5 моделирование
6 презентация результатов
55. В языке программирования R ошибочными являются такие варианты присвоения, как … (укажите 2 варианта ответа)
*x -> 3
*x <- 3
*3 <- x
*3 -> x
56. Область исследования, включающая создание компьютерных алгоритмов для преобразования данных в обоснованные действия, – это … обучение
57. Первые большие наборы данных начали использовать …
*в 1990-х гг.
*в 1960–70-х гг.
*в 1980-х гг.
*после 2012 г.
58. В числе примеров структурированных данных – … (укажите 2 варианта ответа)
*отчет о продажах в MS Excel
*таблица с ежедневными показаниями температуры помещения за год в файле формата CSV
*каталог продуктов в базах данных SQL
*фильмы, представленных в формате MPEG на одном жестком диске
59. Фамилия британского ученого, который разработал эмпирический тест, призванный определить способность компьютера мыслить как человек, – …
60. Простейший вид нейронной сети, который представляет собой алгоритм для выполнения двоичной классификации, – это …
61. Если был проведен компонентный анализ по шести переменным и суммы квадратов факторных нагрузок для трех главных компонент равны 3,5, 1,3 и 0,3 соответственно, тогда относительный вклад первых двух компонент в общую дисперсию составляет … %
62. Установите соответствие видов искусственных нейронных сетей и их характеристик:
A. Однослойная нейронная сеть
B. Многослойная нейронная сеть
C. Сеть прямого распространения
D. Сеть с обратными связями
E. нейронная сеть, в которой сигналы от входного слоя сразу подаются на выходной слой
F. нейронная сеть, состоящая из входного, выходного и расположенных между ними скрытых слоев нейронов
G. нейронная сеть, в которой сигнал распространяется строго от входного слоя к выходному
H. нейронная сеть, в которой нейрон, подаваемый на выход, может вновь подаваться на вход
63. Вам необходимо предсказать значения непрерывной числовой величины для входных данных. Какой метод вам в этом поможет?
*Переобучение.
*Регрессия.
*Кластеризация.
*Классификация.
64. Консолидация – это …
*сбор данных из нескольких источников в единое место хранения
*объединение данных из различных источников для получения их согласованного представления
*привлечение к решению инновационных задач широкого круга лиц по типу субподрядной работы на добровольных началах
*область исследования, занимающаяся созданием компьютерных алгоритмов для преобразования данных в обоснованные действия
65. Разным группам пользователей с различным уровнем доступа требуется доступ к одной и той же информации. Что следует предпринять руководству?
*Снизить уровень классификации этой информации.
*Улучшить контроль за безопасностью этой информации.
*Требовать подписания специального разрешения каждый раз, когда человеку требуется доступ к этой информации.
*Открыть временный доступ к информации по запросу пользователей.
66. Группа элементов, обладающих каким-то общим свойством и находящихся на небольшом расстоянии другу от друга, – это …
67. Variety в контексте характеристик Big Data означает …
*высокую скорость генерирования данных
*разные типы данных в колонках таблиц реляционных систем управления базами данных (СУБД)
*разнообразие отраслей, являющихся источниками данных
*разнообразие типов данных, включающих структурированные, полуструктурированные и неструктурированные
68. Вашей компании необходимо закупить новый вид сырья. Вам необходимо узнать, насколько может упасть стоимость этого сырья в ближайшем будущем и когда это может произойти. Какой метод Data Mining вы будете использовать?
*Прогнозирование.
*Кластеризация.
*Классификация.
*Поиск ассоциативных правил.
69. Язык программирования R является потомком языка …
*JavaScript
*S
*Python
*С++
70. Элементы матрицы факторных нагрузок меняются в пределах …
*(-1;0)
*(-1,1)
*(0,1)
*(0; 2)
71. Выполнены следующие строки кода в программной среде RStudio: vec <-c(3,5,2,1,8,4,9,10,3,15,1,11) vec[2]
*2
*5
*10
*2,5
72. Метод, используемый для предотвращения дублирования данных в реляционных базах данных, – …
73. Библиотека … является базовой для Data Science на языке программирования Python
*NumPy
*Theano
*MDP
*Mahout
74. Неверно, что MapReduce …
*это интерфейс для массово-параллельной обработки данных, где вычисления производятся на узлах
*это две операции: распределения и сборки данных
*был придуман разработчиками Hadoop
*был анонсирован разработчиками Google
75. Реляционные базы данных организованы в виде …
*таблиц
*списков
*презентации
*мультимедийного файла
76. Вычислительная единица в искусственных нейронных сетях, которая получает информацию, производит над ней простые вычисления и передает ее дальше, – это …
77. Укажите правильную последовательность шагов алгоритма машинного обучения (ML):
1 сбор данных
2 исследование и подготовка данных
3 обучение модели
4 оценка модели
5 улучшение модели
78. Если все значения признака увеличить в 16 раз, дисперсия увеличится в … раз
79. Язык программирования R является потомком языка …
80. В вашей компании необходимо организовать сбор, хранение и обработку больших данных. На что в первую очередь должно обратить внимание руководство при организации хранения и обработки данных?
*Обеспечить управление доступом, которое должно защищать данные.
*Оценить уровень риска и отменить контрмеры.
*Обеспечить необходимый уровень доступности, целостности и конфиденциальности данных.
*Обеспечить удобство использования данных при анализе.
81. Расположите в правильной последовательности этапы кластерного анализа методом k-средних:
1 выбирается k произвольных исходных центров кластеров – обычно выбираются k объектов
2 все объекты разбиваются на k групп, наиболее близких к одному из центров
3 вычисляются новые центры кластеров
4 проводится новое разбиение всех объектов на основании близости к новым центрам
82. Вашей компании необходимо проанализировать продуктовые наборы для их своевременной закупки и совместного размещения в торговом зале. Какой метод Data Mining вы будете использовать?
*Прогнозирование.
*Кластеризация.
*Классификация.
*Поиск ассоциативных правил.
83. Установите соответствие баз данных и их характеристик:
A. MongoDB
B. Reddis
C. Neo4J
D. Cassandra
E. хранилище документов
F. хранилище «ключ – значение»
G. графовая база данных
H. столбцовая база данных
84. Минимальная единица измерения информации – это …
85. Если выборочные данные о потреблении и накоплении пяти домохозяйств представлены матрицей «объект – свойство» (см. ниже), то, считая, что различия в потреблении в 4 раза важнее различий в накоплении, а сумма весовых коэффициентов равна 1, взвешенное евклидово расстояние между домохозяйствами № 1 и № 2 с точностью до 0,01 будет равно …
86. Компьютер, выделенный из группы персональных компьютеров (или рабочих станций) для выполнения какой-либо сервисной задачи без непосредственного участия человека, – это …
87. Data Mining – это процесс обнаружения в сырых данных … (укажите 3 варианта ответа)
*ранее сформулированных гипотез
*неочевидных закономерностей
*практических закономерностей
*объективных закономерностей
*большого количества закономерностей
88. Установите соответствие между аргументами функции leaflet() и их содержанием:
A. data
B. width
C. crs
D. origin
E. scales
F. матрица, фрейм данных, пространственные данные
G. ширина карты
H. используемая система координат
I. начало координат в проекции
J. масштабные коэффициенты
89. Аналитическим отделом компании был получен спам по e-mail с приложенным файлом: Что следует предпринять?
*Прочитать приложение, если оно не содержит ничего ценного – удалить.
*Сохранить приложение в папке «Спам», выяснить затем IP-адрес генератора спама.
*Написать ответное письмо с просьбой не присылать спам.
*Удалить письмо с приложением, не раскрывая (не читая) его.
90. Сокращенное английское название языка структурированных запросов – …
91. Циклический алгоритм используется при вычислении … (укажите 2 варианта ответа)
*суммы всех чисел от 1 до 100
*площади трапеции
*корня квадратного уравнения
*суммы двух чисел, введенных с клавиатуры
*среднего арифметического всех двухзначных чисел
92. Интеграция – это …
*сбор данных из нескольких источников в единое место хранения
*объединение данных из различных источников для получения их согласованного представлени
*привлечение к решению инновационных задач широкого круга лиц по типу субподрядной работы на добровольных началах
*область исследования, занимающаяся созданием компьютерных алгоритмов для преобразования данных в обоснованные действия
93. … – это группа файлов стандартной структуры, служащих для хранения данных и организованных таким образом, чтобы обеспечить легкий доступ к ним, эффективное управление и обновление
94. Вектор частных производных функции потерь по весам нейронной сети, который указывает на направление наибольшего роста этой функции, – это …
95. Разветвляющийся алгоритм – это …
*присутствие в алгоритме хотя бы одного условия
*набор команд, которые выполняются последовательно друг за другом
*многократное выполнение одних и тех же действий
*алгоритм, использующий подпрограммы
96. Процесс привлечения к решению задач в инновационной сфере широкого круга лиц по типу субподрядной работы на добровольных началах с применением информационно-коммуникационных технологий – это …
97. Если в результате расчетов получены значения двух первых главных компонент λ1=1,928 и λ2=0,072, тогда относительный вклад первой главной компоненты в суммарную дисперсию (с точностью до 0,1) равен … %
98. … является шириной коробки в диаграмме «ящик с усами»
*Диапазон
*Интерквартильный размах
*Стандартное отклонение
*Нижний квартиль
*Медиана
99. Способность языка программирования распознавать типы переменных – это …
100. Градиентом в искусственных нейронных сетях называют …
*вектор, своим направлением указывающий на убывание некоторой скалярной величины
*вектор, который направлен в сторону максимального изменения функции
*функцию со многими параметрами, весовыми коэффициентами связей, которые влияют на выходной сигнал
*распространение ошибки сети между нейронами в обратном направлении
101. Такой вид машинного обучения, как …, основывается на взаимодействии обучаемой системы со средой
*обучение с учителем
*глубинное обучение
*обучение без учителя
*обучение с подкреплением
102. Расстояние Манхэттен между векторами (-6, 3, -2) и (-1, 3, -3) равно …
103. Минимальное количество слоев, которые должна иметь нейронная сеть, для того чтобы к ней возможно было применить алгоритм обратного распространения, – …
104. Вашей компании необходимо определить структуру клиентов по их вкладу в доходы компании. Какой метод Data Mining вы будете использовать?
*Прогнозирование.
*Кластеризация.
*Классификация.
*Поиск ассоциативных правил.
105. Установите правильный порядок действий при проектировании баз данных
1 анализ предметной области, с учетом требования конечных пользователей
2 обобщенное описание баз данных с использованием естественного языка,
математических формул, графиков и других средств
3 формализация представления данных в базе данных
4 решение проблемы передачи данных
5 оценка работы и поддержка базы данных
106. Вам нужно рассчитать необходимые параметры для создания обшивки самолета. Какая из областей машинного обучения вам в этом поможет?
*Компьютерное зрение.
*Латентная модель.
*Обучение ранжированию.
*Предсказательное моделирование.
107. Установите правильную последовательность этапов процесса MapReduсe подсчета цветов в текстовых файлах:
1 чтение входных файлов
2 каждая строка передается заданию
3 ключ отображается на значение
4 ключи сортируются, чтобы упростить обобщение данных
5 фаза свертки суммирует количество вхождений каждого цвета и выводит для каждого ключа один файл с общим количеством вхождений этого цвета
6 ключи собираются в выходной файл
108. Неверно, что Variety в контексте характеристик Big Data означает … (укажите 3 варианта ответа)
*высокую скорость генерирования данных
*разные типы данных в колонках таблиц реляционных систем управления базами данных (СУБД)
*разнообразие отраслей, являющихся источниками данных
*разнообразие типов данных, включающих в себя структурированные, полуструктурированные и неструктурированные
109. Неверно, что существует такой вид искусственных нейронных сетей, как …
*рекуррентные
*противоборствующие
*наивные
*импульсные
110. Данные являются структурированными в … (укажите 2 варианта ответа)
*отчете о продажах, составленном в MS Excel
*таблице с ежедневными показаниями температуры помещения за год в файле формата CSV
*файлах Google Sheets
*фильмах, представленных в формате mpeg на одном жестком диске
УЧЕБНЫЕ МАТЕРИАЛЫ
Текущие
Введение в курс
Тема 1. Понятие «большие данные» (Big Data) и их применение в анализе бизнес-процессов
Тема 2. Подходы к формированию больших данных (Big Data) и технологии их обработки
Тема 3. Методы и алгоритмы анализа больших данных (Big Data)
Тема 4. Алгоритмы Data Mining в анализе больших данных (Big Data)
Тема 5. Программные комплексы анализа больших данных (Big Data)
Заключение
Итоговая аттестация
Итоговый тест
Компетентностный тест