- Введение в курс
- Тема 1. Введение в прикладной статистический анализ
- Тема 2. Законы распределения, наиболее часто используемые при обработке экспериментальных данных
- Тема 3. Основы теории статистического вывода
- Тема 4. Непараметрические критерии
- Тема 5. Корреляционный анализ
- Тема 6. Современные методы анализа рисков и порядка наступления событий
- Заключение
- Итоговая аттестация
… — применяют для описания статистики малых выборок, в том числе при небольшом объеме выборки
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Распределение Стьюдента
- Нормальное распределение
- F-распределение
… гипотеза — это предположение о свойствах генеральной совокупности, которое является логичным и правдоподобным, об отсутствии влияния или воздействия фактора
Тип ответа: Текcтовый ответ
… используется для анализа данных с цензурированными наблюдениями
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Линейная регрессия
- Логистическая регрессия
- Метод Каплана-Мейера
… Каплана-Мейера — это кривая, отражающая пропорцию пациентов, у которых ожидаемое событие не произошло к определенному моменту времени
Тип ответа: Текcтовый ответ
… критерии сравнения — это методы статистической обработки данных, применение которых не требует знания закона распределения изучаемых признаков в совокупности и вычисления их основных параметров
Тип ответа: Текcтовый ответ
… применяют для моделирования суммы квадратов нормально распределенных величин
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Хи-квадрат распределение
- F-распределение
- Биномиальное распределение
… является непараметрическим
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- T-критерий Стьюдента
- ANOVA
- Критерий Уилкоксона
- T-критерий для зависимых выборок
В компании «SmartAds» анализируют эффективность рекламных кампаний. Они заметили, что чем больше денег тратится на рекламу (бюджет), тем больше новых пользователей приходит на их сайт. Аналитик хочет узнать, насколько сильно связаны потраченная сумма (бюджет) и количество новых пользователей. Какой коэффициент корреляции лучше всего использовать для измерения связи между бюджетом рекламной кампании и количеством новых пользователей?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Коэффициент корреляции Пирсона.
- Коэффициент корреляции Спирмена.
- Коэффициент вариации.
- Стандартное отклонение.
Если корреляция между двумя переменными равна +0.85, то это означает, что между переменными …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- наблюдается сильная положительная связь
- отсутствует связь
- наблюдается слабая отрицательная связь
Команда разработчиков мобильного приложения «FitLife» обновила алгоритм подсчета шагов. После обновления они хотят узнать, увеличилось ли в среднем количество шагов, которые пользователи приложения делают за день. Для этого они провели эксперимент. Случайным образом выбрали 50 пользователей и в течение недели собирали данные о количестве шагов. До обновления среднее количество шагов, которые делали пользователи, составляло 7000 шагов в день. После обновления среднее количество шагов в тестовой выборке составило 7200 шагов в день. Стандартное отклонение в выборке после обновления составило 1000 шагов. Команда разработчиков хочет провести статистический тест, чтобы понять, является ли разница между средним количеством шагов до и после обновления статистически значимой или она возникла случайно. Они планируют использовать одновыборочный t-тест. Какую нулевую гипотезу (H0) должна сформулировать команда разработчиков для своего t-теста?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Среднее количество шагов после обновления равно 7000.
- Среднее количество шагов после обновления больше 7000.
- Среднее количество шагов после обновления меньше 7000.
Компания «CloudSecure» предоставляет услуги облачного хранения данных. Команда аналитиков изучает статистику использования дискового пространства клиентами. Аналитики собрали следующие данные (в гигабайтах) о размере занимаемого дискового пространства для 10 случайных клиентов: [10, 15, 12, 25, 18, 15, 16, 14, 10, 20] Аналитики хотят проанализировать распределение данных, чтобы понять, насколько равномерно клиенты используют дисковое пространство. С этой целью они вычислили Среднее значение и Медиану. Какие значения получили аналитики соответственно для Среднего значения и Медианы?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- 15,5 и 15.
- 15 и 15.
- 15,5 и 25.
- 10 и 20.
Компания «CloudSpeed» предоставляет услуги облачного хостинга. Один из ключевых показателей, за которым они следят, — это время отклика серверов на запросы пользователей (в миллисекундах). Компания обнаружила, что время отклика серверов в их сети в целом стабильно, но иногда случаются небольшие отклонения. Аналитик компании заметил, что если взять большое количество измерений времени отклика, то они группируются вокруг среднего значения, при этом отклонения от среднего примерно одинаково вероятны в обе стороны. Он также построил гистограмму времени отклика и увидел, что она имеет форму колокола. С помощью какого закона распределения можно наиболее точно охарактеризовать время отклика серверов в сети «CloudSpeed»?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- С помощью экспоненциального распределения.
- С помощью равномерного распределения.
- С помощью нормального распределения (Гауссовское).
- С помощью распределение Пуассона.
Компания «CloudStorage» предоставляет услуги облачного хранения данных. Они внедрили новую систему хранения данных, оптимизированную для более быстрого доступа к файлам. Компания хочет оценить, насколько новая система влияет на время доступа к файлам, хранящимся в облаке. Аналитики собирают данные о времени (в секундах), которое требуется пользователям для загрузки файлов из облака. Они фиксируют: время доступа: время, затраченное на загрузку файла (в секундах). цензура: если файл был успешно загружен, это нецензурированные данные (1). Если при загрузке произошла ошибка (например, из-за временных проблем с сетью), это цензурированные данные (0), то есть мы знаем, что время загрузки превышает измеренное, но точное время неизвестно. Аналитики используют таблицы выживаемости для анализа времени доступа. Они хотят построить график выживаемости, чтобы визуализировать вероятность того, что файл будет загружен в течение определенного времени. В контексте анализа выживаемости, что представляют собой цензурированные данные?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Данные, которые были удалены из анализа.
- Данные, для которых время события (загрузки файла) неизвестно точно, но известно, что оно больше или меньше определенного значения.
- Данные, которые были введены с ошибками.
- Данные, полученные только для файлов определенного размера.
Компания «CodeCraft» разрабатывает новую поисковую систему. Чтобы оценить удобство использования, они провели тестирование. Пять добровольцев использовали старую версию поисковика, а затем пять других добровольцев использовали новую версию. Тестируемым нужно было выполнить несколько заданий по поиску информации. Время, затраченное на выполнение заданий (в секундах), было измерено для каждой версии поисковика. Поскольку время выполнения заданий не всегда подчиняется нормальному распределению (может быть искажено, например, из-за внешних факторов), аналитик решил использовать непараметрический статистический тест для сравнения двух групп. Полученные результаты тестирования: Старая версия: 30, 45, 60, 35, 50 Новая версия: 25, 38, 55, 32, 40 Какой непараметрический критерий наиболее подойдет для сравнения двух независимых выборок (старая и новая версии) в данной ситуации?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Наиболее подойдет критерий Манна-Уитни (U-критерий).
- Наиболее подойдет критерий знаков.
- Наиболее подойдет критерий Краскела-Уоллиса.
- Наиболее подойдет критерий Уилкоксона (ранговый критерий знаков).
Компания «GameDev» разрабатывает онлайн-игры. Они выпустили новую игру и хотят проанализировать, как долго игроки остаются активными в ней. Для этого они отслеживают время (в днях) с момента регистрации игрока до его выхода из игры (прекращения активности). Аналитики собирают следующие данные: время игры, т.е. количество дней, в течение которых игрок был активен; статус, где 1 = игрок покинул игру (выбыл); 0 = игрок все еще активен (данные цензурированы). Например, если игрок зарегистрировался месяц назад и до сих пор играет, его данные будут цензурированы. Аналитики используют таблицы выживаемости для анализа этих данных. Они хотят построить кривую выживаемости, чтобы оценить, как быстро игроки покидают игру. Какие параметры покажет таблица выживаемости?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Таблица выживаемости покажет, сколько денег было потрачено на разработку игры.
- Таблица выживаемости покажет, какие игроки совершили внутриигровые покупки.
- Таблица выживаемости покажет, как долго игроки остаются активными, и выявить периоды наибольшего оттока игроков.
- Таблица выживаемости покажет, сколько всего игроков зарегистрировалось в игре.
Компания «QuickLoad» оптимизирует время загрузки веб-страниц. Они протестировали новый метод сжатия изображений на двух веб-сайтах. Результаты (время загрузки в секундах) для каждого сайта: Сайт 1 (старый метод): 3, 5, 7 Сайт 2 (новый метод): 2, 4, 6 Аналитик хочет определить, улучшился ли средний результат (время загрузки) при использовании нового метода, но не уверен, что данные распределены нормально. Какой непараметрический тест эффективнее использовать для сравнения времени загрузки на двух сайтах?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Эффективнее использовать t-тест.
- Эффективнее использовать критерий Манна-Уитни.
- Эффективнее использовать Z-тест.
- Эффективнее использовать критерий Краскела-Уоллиса.
Компания «SecureNet» разрабатывает систему обнаружения вторжений (IDS). Чтобы оценить эффективность новой версии IDS, команда проводит тестирование. Они устанавливают новую версию IDS в тестовой сети и в течение недели собирают данные о количестве ложных срабатываний (когда IDS ошибочно определяет нормальную активность как подозрительную). Старая версия IDS выдавала в среднем 5 ложных срабатываний в день. Аналитики хотят проверить, уменьшилось ли количество ложных срабатываний с новой версией IDS. В результате тестирования новая версия IDS выдавала в среднем 4 ложных срабатывания в день. Стандартное отклонение количества ложных срабатываний новой версии составило 1,5. Количество дней тестирования — 25. Аналитики провели односторонний (однонаправленный) t-тест и получили p-значение (p-value), равное 0,06. Используя уровень значимости (альфа), равный 0,05, какой вывод можно сделать на основе результатов t-теста?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Следует отклонить нулевую гипотезу: количество ложноположительных срабатываний уменьшилось.
- Следует не отвергать нулевую гипотезу: нет достаточных доказательств того, что количество ложноположительных срабатываний уменьшилось.
- Следует отклонить нулевую гипотезу: количество ложноположительных срабатываний увеличилось.
Компания «WebScale» занимается оптимизацией веб-сайтов. Они провели A/B-тестирование нового дизайна главной страницы своего сайта. Посетители сайта были случайным образом разделены на две группы: группа A: Видела старый дизайн; группа B: Видела новый дизайн. Основной метрикой для оценки успешности нового дизайна является коэффициент конверсии: процент посетителей, совершивших целевое действие (например, покупку, регистрацию). После двух недель тестирования были получены следующие результаты: группа A (старый дизайн): Коэффициент конверсии = 3 %; группа B (новый дизайн): Коэффициент конверсии = 4 %. Аналитик хочет выяснить, является ли увеличение коэффициента конверсии статистически значимым или это просто случайное колебание. Он планирует использовать статистический тест для сравнения двух долей (коэффициентов конверсии). Какую альтернативную гипотезу (H1) должен сформулировать аналитик, если он хочет доказать, что новый дизайн увеличивает коэффициент конверсии?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Коэффициент конверсии для нового дизайна равен 3 %.
- Коэффициент конверсии для нового дизайна больше 3 %.
- Коэффициент конверсии для нового дизайна меньше 3 %.
Компания предоставляет услуги хостинга. Аналитики компании хотят понять, как связаны между собой два важных показателя. «Загрузка ЦП (использование процессора): процент времени, которое процессор сервера тратит на обработку задач». «Время отклика (Response Time): время, которое требуется серверу для ответа на запрос пользователя (в миллисекундах)». Аналитики собрали данные об использовании процессора и времени отклика за несколько дней. Они подозревают, что чем выше загрузка процессора, тем больше времени требуется для ответа на запросы (то есть время отклика). Они хотят использовать корреляционный анализ, чтобы проверить эту гипотезу. Какой коэффициент корреляции следует использовать, чтобы оценить взаимосвязь между загрузкой ЦП и временем отклика?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Следует использовать коэффициент корреляции Пирсона.
- Следует использовать коэффициент корреляции Спирмена.
- Следует использовать коэффициент детерминации.
- Следует использовать коэффициент вариации.
Компания разрабатывает программное обеспечение (ПО) для управления проектами. Они внедрили новую систему лицензирования, которая предусматривает пробный период использования ПО. Компания хочет проанализировать, как долго пользователи используют пробную версию ПО, прежде чем принять решение о покупке лицензии. Аналитики собирают данные о пользователях, которые зарегистрировались для пробной версии. Они фиксируют: Время использования: количество дней, в течение которых пользователь использовал пробную версию. Статус: покупка лицензии (1) или отказ от использования (0) (цензурированные данные). Если пользователь купил лицензию, это означает, что он «пережил» определенный период. Если пользователь отказался, это означает, что он «выбыл» из исследования. Аналитики используют таблицы выживаемости для анализа этих данных. Они хотят оценить вероятность того, что пользователь продолжит использовать пробную версию в течение определенного времени. Что представляет собой «функция выживаемости» (Survival Function) в контексте этого анализа?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Вероятность того, что пользователь купит лицензию.
- Вероятность того, что пользователь продолжит использовать пробную версию в течение заданного количества дней.
- Количество пользователей, купивших лицензию.
Коэффициент корреляции применяется для …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- измерения связи между двумя переменными
- определения среднего значения выборки
- нахождения медианного значения
- вычисления моды
Основная цель составления таблицы смертности — …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- изучить причины смерти
- оценить ожидаемую продолжительность жизни
- исследовать динамику численности населения
Представьте, что Вы работаете аналитиком данных в компании, которая занимается разработкой и эксплуатацией облачных сервисов. Ваша команда анализирует сетевой трафик и производительность виртуальных машин (ВМ). Вам нужно проанализировать данные о времени задержки пакетов (в миллисекундах) при передаче данных между ВМ. В ходе анализа были собраны данные за определенный период времени. Графическое представление данных показывает, что распределение времени задержки имеет существенную асимметрию — хвост распределения сильно смещен вправо (большие значения задержки). Это означает, что большая часть пакетов передается с относительно небольшими задержками, но иногда возникают значительные задержки, возможно, из-за проблем с сетью или перегрузки. Вам необходимо выбрать наиболее подходящий закон распределения для моделирования времени задержки пакетов, учитывая его асимметричный характер. Какой закон распределения будет наиболее подходить для моделирования времени задержки пакетов, учитывая его асимметричный характер?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Наиболее подойдет нормальное распределение.
- Наиболее подойдет логнормальное распределение.
- Наиболее подойдет распределение Стьюдента.
Расположите в правильном порядке этапы построения модели регрессии:
Тип ответа: Сортировка
- 1 визуализация данных
- 2 подбор подходящей функции
- 3 оценка коэффициентов модели
- 4 проверка адекватности модели
Расположите в хронологическом порядке этапы расчета функции выживаемости в таблице выживаемости:
Тип ответа: Сортировка
- 1 определить общее число пациентов в группе
- 2 определить число умерших в каждом временном интервале
- 3 учесть цензурированные наблюдения
- 4 рассчитать долю выживших на конец каждого временного интервала
- 5 рассчитать кумулятивную функцию выживаемости
Расположите шаги применения критерия знаковых рангов Вилкоксона для парных выборок в хронологическом порядке:
Тип ответа: Сортировка
- 1 определение гипотез
- 2 вычисление разностей между парами наблюдений
- 3 присвоение рангов ненулевым разностям
- 4 суммирование рангов положительных и отрицательных разностей
- 5 сравнение сумм рангов с критическим значением
Расположите шаги проведения статистического вывода в хронологическом порядке:
Тип ответа: Сортировка
- 1 формулировка гипотез (H0 и H1)
- 2 сбор данных
- 3 выбор уровня значимости (α)
- 4 проведение статистического теста
- 5 интерпретация результатов
Распределите этапы проверки гипотезы с использованием t-критерия в логической последовательности:
Тип ответа: Сортировка
- 1 формулирование гипотез
- 2 вычисление значения t-статистики
- 3 установление критического значения t-критерия
- 4 сравнение вычисленного значения с критическим
С возрастанием числа степеней свободы, распределение Стьюдента быстро приближается к …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- нормальному распределению
- распределению Фишера
- распределению Пирсона
Соотнесите критерии с условиями их применения:
Тип ответа: Сопоставление
- A. Критерий Манна-Уитни
- B. Критерий Краскела-Уоллиса
- C. Критерий Вилкоксона
- D. независимость выборок
- E. множество независимых выборок
- F. параметры сдвига
Тип цензурирования данных, при котором наблюдения …, называется цензурированием справа
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- прекращаются, когда событие произошло раньше заданного времени
- продолжаются, даже если событие не произошло до конца исследования
- прекращаются, когда событие не произошло до заданного времени Тест должен быть в утвердительной форме
Уровень значимости α — это …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- вероятность ошибки второго рода
- вероятность ошибки первого рода
- процент верно принятых гипотез
- доверительный интервал для оценки параметра
Установите соответствие между законом и его характерной особенностью:
Тип ответа: Сопоставление
- A. Нормальное распределение
- B. Равномерное распределение
- C. F-распределение
- D. все значения имеют одинаковую вероятность появления
- E. имеет форму колокола и определяется двумя параметрами: средним и стандартным отклонением
- F. применяется для анализа отношения дисперсий двух нормальных распределений
Установите соответствие между законом распределения и его основными свойствами:
Тип ответа: Сопоставление
- A. Нормальное распределение (Гаусса)
- B. Распределение Стьюдента
- C. Распределение Фишера
- D. симметричное распределение, основанное на большой выборке данных
- E. асимметричное распределение, используемое для моделирования доходов населения
- F. используется для сравнения дисперсий двух выборок
Установите соответствие между методами и их назначениями:
Тип ответа: Сопоставление
- A. Регрессия
- B. Кластеризация
- C. Дисперсионный анализ
- D. Корреляционный анализ
- E. построение предсказательной модели
- F. группировка схожих объектов
- G. сравнение нескольких групп
- H. поиск зависимостей между переменными
Установите соответствие между понятиями и их примерами:
Тип ответа: Сопоставление
- A. Таблица смертности
- B. Кривая Каплана-Мейера
- C. Таблица выживаемости
- D. демографическая таблица, показывающая распределение смертей по возрасту
- E. график, отображающий функцию выживаемости во времени с учетом цензурированных данных
- F. таблица, отражающая вероятность выживания объектов в заданный период времени
Установите соответствие метода вычисления и его определения:
Тип ответа: Сопоставление
- A. Среднее арифметическое
- B. Мода
- C. Медиана
- D. сумма всех значений, деленная на количество значений
- E. наиболее часто встречающееся значение в наборе данных
- F. значение, которое делит упорядоченный набор данных пополам
Установите соответствие понятия и его определения:
Тип ответа: Сопоставление
- A. Проверка нормальности
- B. Выборочное распределение
- C. Значение z
- D. процедура, позволяющая определить, подчиняются ли данные нормальному распределению
- E. распределение статистики, полученной из выборки
- F. стандартизированная величина, используемая в нормальном распределении
Установите соответствие термина и его определения:
Тип ответа: Сопоставление
- A. Выборка
- B. Генеральная совокупность
- C. Выбросы
- D. подмножество данных из общей совокупности
- E. все возможные данные, относящиеся к исследованию
- F. значения, значительно отличающиеся от основной массы данных
L-критерий … Пейджа — это непараметрический статистический тест, разработанный для проверки гипотезы о наличии монотонного тренда в упорядоченном наборе выборок
Тип ответа: Текcтовый ответ
T-критерий Стьюдента (t-тест) можно применять при условии, когда …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- выборки имеют одинаковый размер
- данные являются категориальными
- выборки нормально распределены
- выборки сильно разбросаны