ПОЛНОЕ ЗАДАНИЕ В ДЕМО ФАЙЛЕ,
ЧАСТЬ ДЛЯ ПОИСКА ДУБЛИРУЮ НИЖЕ
ЛАБОРАТОРНАЯ РАБОТА № 2 РЕГРЕССИОННЫЙ АНАЛИЗ ДАННЫХ В STATGRAPHICS
Цель и задача работы
Освоить использование статистического пакета STATGRAPHICS для интеллекту-ального анализа данных, научиться применять STATGRAPHICS для решения задач по-строения линейной и полиномиальной регрессии.
Теоретические положения
1. Основные сведения
Статистические пакеты (SPSS, STATISTICA, STATGRAPHICS и другие) были за-думаны для реализации классического подхода нахождения средних величин и стати-стических зависимостей, но в последние версии включены и методы интеллектуального анализа данных. Эти программные средства, как правило, очень тяжеловесны и дорого-стоящи, поэтому используются в основном в научной деятельности, а не в финансово-торговой сфере.
Универсальный статистический пакет Manugistics STATGRAPHICS Plus 5.1 пред-назначен для обработки статистической информации, различного рода эксперименталь-ных данных, формирования графиков, зависимостей и схем результатов экспериментов и многого другого.
После запуска программы появится окно “StatWizard” в котором предлагается по-мочь с вводом данных и их анализом. Чтобы не использовать его можно нажать кнопку Cancel в окне. Далее появиться главное окно программы, которое изображено на рисунке 1.
Рисунок 1 - Главное окно STATGRAPHICS
Внизу окна располагаются свернутые окна: StatFolio, StatAdvisor, StatGallery и Sta-tReporter. Эти окна можно развернуть сделав двойной щелчок мышью на соответствую-
2
щем окне. В окне StatFolio находятся комментарии к проекту. В окне StatAdvisor распо-лагается интерпретация результатов статистических процедур. Оно дает объяснение ре-зультатов статистических испытаний, предупреждает об ошибках, которые могут воз-никнуть с вводом некорректных данных, и предложить другие процедуры, которые мог-ли бы быть применены. В окне StatGallery отображаются результаты исследований в ви-де графиков. StatReporter предназначен для создания отчета по исследованиям в формате rtf. Также внизу главного окна располагаются окна с производимыми в данный момент исследованиями.
На панели инструментов расположены кнопки часто используемых команд из ме-ню. Так кнопка (соответствующее меню File->Open->Open StatFolio…) открывает проект STATGRAPHICS, а кнопка (File->Save->Save StatFolio) – сохраняет.
2. Таблицы данных. Ввод и сохранение данных
Главным элементом проекта в STATGRAPHICS является таблица с данными. Её можно открыть с помощью кнопки (File-> Open->Open Data File…) и сохранить с помощью кнопки (File->Save->Save Data File). STATGRAPHICS умеет открывать файлы Excel, xml, dbf и некоторые другие. Имеется собственный формат таблицы с дан-ными (*.sf). Кроме того, STATGRAPHICS может получать данные из запросов к базам данных ODBC (File-> Open->Query Database (ODBC)…), из буфера обмена (File-> Open->Read Clipboard…). Открытую таблицу с данными (рисунок 2) можно подкорректиро-вать (в частности, можно не используя других источников данных набрать данные вруч-ную или сформировать методом Generate Data … из контекстного меню для колонки (на рисунке 2 так сформирована колонка Col_3 с формулой для формирования RANDOM(Y))).
Рисунок 2 - Таблица данных
Данные могут изменяться в процессе исследования (особенно, если они берутся из рабочих баз данных, из файлов, создаваемых другими приложениями). Для работы с та-
3
кими данными в STATGRAPHICS предусмотрен механизм обращения к источникам данных (подменю File->StatLink). В этом подменю можно задать источник данных (пункт Change Data Source…, рисунок 3) и включить механизм обращения к этому ис-точнику (пункт Start Poling…) с заданием периода между обращениями в секундах, ми-нутах или часах.
Рисунок 3 - Выбор источника данных
После окончания исследований надо отключить механизм обращения к источникам данных (пункт Stop Poling). Можно обращаться к источнику данных в произвольный момент времени (пункт Update Now). Информацию об источнике данных, времени по-следнего обновления данных количестве колонок и строк можно получить из пункта Display Status.
3. Построение уравнений регрессии
Меню Relate посвящено построению уравнений регрессии. Так пункт Simple Re-gression… ищет два неизвестных параметра и может быть использован для построения уравнения линейной регрессии. Выбрав этот пункт меню, откроется окно, показанное на рисунке 4.
Рисунок 4 - Параметры Simple Regression
В этом окне необходимо ввести зависимую переменную Y, независимую перемен-ную X и обозначить выборку из таблицы данных Select. В каждом поле может быть не
4
просто колонка из таблицы данных, а выражение (кнопка Transform…). С помощью Se-lect можно выбрать, например, только первые 10 строк из таблицы данных (формула first(10)). Флаг Sort column names только устанавливает сортировку имен колонок, запи-санных над флагом. Если флаг убран, колонки в списке будут размещаться в порядке размещения в таблице данных. После нажатия на кнопку Ok откроется следующее окно (рисунок 5).
Рисунок 5 - Исследование Simple Regression
Открывшееся окно содержит: панель управления и рабочую зону, которая разделе-на на две части. Левая часть содержит различные текстовые отчеты о проведенном ис-следовании, а правая наглядное графическое представление.
В контекстном меню рабочей зоны имеется пункт Analysis Options…, который от-крывает настройку исследований (рисунок 6).
Рисунок 6 - Настройка Simple Regression
В этом окне можно выбрать модель для Simple Regression (Linear - линейная).
Кнопки на панели управления имеют следующее назначение:
5
- Input Dialog (устанавливает параметры, рисунок 4);
- Tabular Options (список возможных текстовых отчетов);
- Graphical Options (список возможных графических представлений);
- Save Result (сохранение результатов исследования).
В текстовом отчете по исследованию приведены: используемая модель, найденные параметры, посчитанные ошибки, объяснения и рекомендации по дальнейшему исследо-ванию. Эти результаты также занесены в окно StatAdvisor, в котором будут накапливать-ся результаты различных исследований. Двойной щелчок в области текстового отчета распахнет этот отчет во все окно текущего исследования, для линейной регрессии будет примерно следующее:
Simple Regression - Y vs. X
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: Y
Independent variable: X
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept 21,7651 1,09013 19,9656 0,0000
Slope 0,16435 0,0513797 3,19873 0,0030
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 104,938 1 104,938 10,23 0,0030
Residual 348,701 34 10,2559
-----------------------------------------------------------------------------
Total (Corr.) 453,639 35
Correlation Coefficient = 0,480961
R-squared = 23,1324 percent
R-squared (adjusted for d.f.) = 20,8716 percent
Standard Error of Est. = 3,20249
Mean absolute error = 2,57163
Durbin-Watson statistic = 2,48437 (P=0,0472)
Lag 1 residual autocorrelation = -0,247477
Полиномиальная регрессия делается абсолютно также: выбираем пункт меню Relate->Polinomial Regression…, откроется окно, похожее на рисунок 4, в нем тоже мож-но зависимую переменную Y, независимую переменную X. В качестве настройки у Po-linomial Regression выступает степень аппроксимирующего полинома.
Порядок выполнения работы
1. Ознакомьтесь с теоретической справкой к данной лабораторной работе.
6
2. Проведите построение уравнений линейной и полиномиальной регрессий в пакете STATGRAPHICS на основе данных из UC Irvine Machine Learning Repository (http://archive.ics.uci.edu/ml/),
3. Оформите отчет по лабораторной работе.
Таблица 1 - Варианты заданий
Вариант
Задача
1
Abalone
2
Auto MPG
3
Housing
4
Computer Hardware
5
Forest Fires
6
Concrete Compressive Strength
7
Residential Building
8
Yacht Hydrodynamics
9
Concrete Slump Test
10
Airfoil Self-Noise
Содержание отчета
1. Титульный лист;
2. тема и цель работы;
3. задание (входные наборы данных и их описание);
4. результат исследований и выводы.
Контрольные вопросы
1. Какие задачи решают статистические пакеты?
2. Для чего предназначен STATGRAPHICS?
3. Для чего используют StatWizard?
4. Что показывают StatFolio, StatAdvisor, StatGallery и StatReporter
5. Какие источники данных можно использовать в STATGRAPHICS?
6. Как использовать механизм обращения к источникам данных?
7. Как построить уравнение линейной регрессии?
8. Как построить уравнение экспоненциальной регрессии?
9. Как построить уравнение полиномиальной регрессии?
_
1
ПРИКЛАДНОЙ РЕГРЕССИОННЫЙ АНАЛИЗ
ПРАКТИЧЕСКАЯ РАБОТА №2
ПРИВЕДЕНИЕ МАТРИЦЫ ДАННЫХ К СТАНДАРТИЗОВАННОМУ
ВИДУ. АНАЛИТИЧЕСКОЕ ПОСТРОЕНИЕ УРАВНЕНИЯ РЕГРЕССИИ
Цель работы: вычисление статистических характеристик признаков и
получение стандартизованной матрицы данных, построение аналитически
функции регрессии, описывающей данные, для простого набора данных.
ПРИВЕДЕНИЕ МАТРИЦЫ ДАННЫХ
К СТАНДАРТИЗОВАННОМУ ВИДУ
В современном анализе данных объекты исследования являются
сложными и качественно отличаются от привычных объектов в технических
областях. Часто число измеренных признаков является очень большим,
поэтому возникает проблема в выделении важных войств объекта. Первым
этапом в обработке матрицы данных является ее приведение к
стандартизованному виду. Стандартизованная матрица данных X имеет
целью привести все количественные измерения к единому масштабу и
Пусть имеется матрица данных X(N n) N – число объектов, n – число
признаков (характеристик).
Для перехода к стандартизованному виду используется формула:
ij j
ij
j
x x
x
D
−
= ,
1
1 N
j ij
i
x x
N =
= – среднее в столбце,
( )2
2
1
1 N
j j ij j
i
D x x
N
=
= = − – дисперсия в столбце.
Для стандартизованной матрицы данных X справедливо: 0 j x = , 1 j = ,
j =1,...,n .
2
ПОСТРОЕНИЕ УРАВНЕНИЯ РЕГРЕССИИ
Пусть изучается система количественных признаков (X ,Y) . В результате
независимых опытов получено N пар случайных величин
1 1 2 2 ( , ),( , ),...,( , ) N N x y x y x y . Примем гипотезу, что этот набор данных
описывается функциональной зависимостью fˆ (x) = ax + b .
Согласно методу наименьших квадратов для определения оптимальных
параметров a и b необходимо найти оптимум критерия:
( )2
1
( , ) min( , )
N
i i
i
L a b ax b y a b
=
= + − → .
Для отыскания минимума приравняем соответствующие частные
производные нулю:
( )
1
2 0
N
i i i
i
L
ax b y x
a =
= + − =
,
( )
1
2 0
N
i i
i
L
ax b y
b =
= + − =
.
Выполнив элементарные преобразования, получим систему двух
линейных уравнений относительно a и b :
2
1 1 1
N N N
i i i i
i i i
x a x b x y
= = =
+ =
1 1
N N
i i
i i
x a Nb y
= =
+ =
Решив эту систему, найдем искомые параметры:
1 1 1
2
2
1 1
ˆ
N N N
i i i i
i i i
N N
i i
i i
N x y x y
a
N x x
= = =
= =
−
=
−
2
1 1 1 1
2
2
1 1
ˆ
N N N N
i i i i i
i i i i
N N
i i
i i
x y x x y
b
N x x
= = = =
= =
−
=
−
Величина остаточной ошибки определяется по формулам:
3
( )2
1
1
ˆ( )
N
err i i
i
L f x y
=
= − ,
( )
( )
1
2 2
3 1
1 1
2 2 2
2
1 1
1 ˆ( )
1 1 ˆ( )
N
i i
i
err
N N
i i
i i
f x y
N
L
y f x
N N
=
= =
−
=
+
.
Самостоятельно вывести уравнение регрессии для функции второго порядка
2
0 1 2 f (x) = a + a x + a x .
СОДЕРЖАНИЕ ОТЧЕТА
Отчет должен содержать цель работы, задание, его выполнение
(основную часть) и выводы. Вспомогательные вычисления и графики,
иллюстрации могут быть получены с помощью сред аналитических
вычисление (MathCad, Matlab, SciLab, Matematica) или с привлечением
библиотек языков программирования высокого уровня.
Задание к практической работе:
1. Получить матрицу «объект-признак», «объект-объект», «признак-
признак» и рисунок координатной плоскости для исходных данных,
заданных приложении в соответствии с назначенным вариантом.
2. Задание п.1. выполнить для стандартизованных данных.
3. Рассчитанные коэффициенты линейной регрессии X 2 относительно
X1 (нестандартизованные и стандартизованные и данные) и величину
остаточной ошибки.
4. Решение и рассчитанные по данным коэффициенты регрессии второго
порядка X 2 относительно X1 (нестандартизованные и
стандартизованные и данные) и величину остаточной ошибки.
4
ВАРИАНТЫ ЗАДАНИЙ
1)
2)
X
X22
X
X11
X
X22
X
X11
5
3)
4)
X
X22
X
X11
X
X22
X
X11
6
5)
6)
X
X22
X
X11
X
X22
X
X11
7
7)
8)
X
X22
X
X11
X
X22
X
X11
8
9)
10)
X
X22
X
X11
X
X22
X
X11
_
1
ПРИКЛАДНОЙ РЕГРЕССИОННЫЙ АНАЛИЗ
ПРАКТИЧЕСКАЯ РАБОТА №3
МЕТОД ГРАДИЕНТНОГО СПУСКА ДЛЯ ПОСТРОЕНИЯ УРАВНЕНИЯ
РЕГРЕССИИ. ПОНЯТИЕ О СТАХОСТИЧЕСКОМ ГРАДИЕНТЕ.
Цель работы: ознакомиться с алгоритмом метода градиентного спуска для
оптимизации критерия метода наименьших квадратов при построении
регрессии, ознакомиться с понятием стохастического градиента.
АЛГОРИТМ ГРАДИЕНТНОГО СПУСКА
Пусть изучается система количественных признаков (X ,Y) . В результате
независимых опытов получено N пар случайных величин
1 1 2 2 ( , ),( , ),...,( , ) N N x y x y x y . Примем гипотезу, что этот набор данных
описывается функциональной зависимостью fˆ (x) = ax + b .
Согласно методу наименьших квадратов для определения оптимальных
параметров a и b необходимо найти минимум критерия:
( )2
1
( , ) min( , )
N
i i
i
L a b ax b y a b
=
= + − → .
Алгоритм градиентного спуска для поиска экстремума критерия:
0: Выбрать начальные значения искомых параметров 0 0 a ,b и рассчитать
значение критерия при них: 0 0 L(a ,b ) .
Выбрать значение 0 .
1: Выполнить шаг по параметрам в сторону уменьшения градиента:
1 0
L
a a
a
= −
, ( ) 0 0
1
2
N
i i i
i
L
a x b y x
a =
= + −
,
1 0
L
b b
b
= −
, ( ) 0 0
1
2
N
i i
i
L
a x b y
b =
= + −
.
Рассчитать пробное значение критерия: 1 1 L(a ,b ) .
Если 1 1 0 0 L(a ,b ) L(a ,b ) повторить расчет при
2
=
иначе переход на шаг 2 т.д.
Правило останова: ( , ) k k L a b или 1 1 ( , ) ( , ) k k k k L a b L a b − − − .
2
Самостоятельно модифицировать предложенные формулы для
использования метода стохастического градиента.
СОДЕРЖАНИЕ ОТЧЕТА
Отчет должен содержать цель работы, задание, выводы и основную часть:
1. Рассчитанные коэффициенты линейной регрессии X 2 относительно
X1 (нестандартизованные данные) по методу градиентного спуска.
Проиллюстрировать шаги алгоритма в двумерном пространстве
параметров a и b.
2. Рассчитанные коэффициенты линейной регрессии X 2 относительно
X1 (нестандартизованные данные) по методу стохастического
градиента. Проиллюстрировать шаги алгоритма в двумерном
пространстве параметров a и b.
3. Сравнение результатов с результатами, полученными аналитическим
методом в предыдущей практической работе.
3
ВАРИАНТЫ ЗАДАНИЙ
1)
2)
X
X22
X
X11
X
X22
X
X11
4
3)
4)
X
X22
X
X11
X
X22
X
X11
5
5)
6)
X
X22
X
X11
X
X22
X
X11
6
7)
8)
X
X22
X
X11
X
X22
X
X11
7
9)
10)
X
X22
X
X11
X
X22
X
X11
_
1
ПРИКЛАДНОЙ РЕГРЕССИОННЫЙ АНАЛИЗ
ПРАКТИЧЕСКАЯ РАБОТА №4
ПОВЫШЕНИЕ УСТОЙЧИВОСТИ РЕГРЕССИОННОЙ МОДЕЛИ.
АЛГОРИТМ RANSAC
Цель работы: ознакомиться с алгоритмом RANdom SAmple Consensus.
Построить регрессионную модель для данных с учетом удаления нетипичных
объектов.
АЛГОРИТМ RANSAC
Пусть изучается система количественных признаков (X ,Y) . В результате
независимых опытов получено N пар случайных величин
1 1 2 2 ( , ),( , ),...,( , ) N N x y x y x y . Примем гипотезу, что этот набор данных
описывается функциональной зависимостью y f (x) .
Требуется построить модель регрессии, обеспечив устойчивость от
выбросов на основе алгоритма RANSAC (RANdom SAmple Consensus)*, в
частности на основе двухуровневой процедуры:
- классификация объектов на типичные (inliers) и нетипичные (outliers),
- подгонка модели для типичных объектов при игнорировании
нетипичных.
*M. A. Fischler and R. C. Bolles (June 1981). "Random Sample Consensus: A
Paradigm for Model Fitting with Applications to Image Analysis and Automated
Cartography". Comm. of the ACM 24: 381- 395.
СОДЕРЖАНИЕ ОТЧЕТА
Отчет должен содержать цель работы, задание, выводы и основную часть:
1. Варианты:
9 – набор данных № 1,
8 – набор данных № 3,
7 – набор данных № 5.
Рассчитанные коэффициенты линейной регрессии X 2 относительно
X1 (нестандартизованные данные) 1 0 1 ( , , ) o f x a a = a + a x , обеспечив
устойчивость от выбросов на основе алгоритма RANSAC.
Проиллюстрировать решение и шаги алгоритма.
2. Варианты:
6 – набор данных № 1,
2
5 – набор данных № 2.
Рассчитанные коэффициенты регрессии второго порядка X 2
относительно X1 (нестандартизованные данные)
2
1 2 0 1 2 ( , , , ) o f x a a a = a + a x + a x , обеспечив устойчивость от выбросов на
основе алгоритма RANSAC. Проиллюстрировать решение и шаги
алгоритма.
3. Варианты:
4 – набор данных № 3,
3 – набор данных № 4.
Рассчитанные коэффициенты регрессии на основе окружности
( ) ( ) 2 2
2 x1 x1 x2 x2 r − + − = , обеспечив устойчивость от выбросов на
основе алгоритма RANSAC. Проиллюстрировать решение и шаги
алгоритма.
4. Варианты:
2 – набор данных № 5,
1 – набор данных № 6.
Рассчитанные коэффициенты регрессии на основе равноудаленного от
центра множества точек в метрике max( x1 x1 , x2 x2 ) r − − =
(квадрат), обеспечив устойчивость от выбросов на основе алгоритма
RANSAC. Проиллюстрировать решение и шаги алгоритма.
5. Варианты (повышенной сложности):
10 – набор данных № 7.
Рассчитанные коэффициенты регрессии на основе равноудаленного от
центра множества точек в метрике x1 x1 x2 x2 r − + − = (ромб с
прямыми углами), обеспечив устойчивость от выбросов на основе
алгоритма RANSAC. Проиллюстрировать решение и шаги алгоритма.
3
НАБОРЫ ДАННЫХ
1)
2)
X
X22
X
X11
X
X22
X
X11
4
3)
4)
X
X22
X
X11
X
X22
X
X11
5
5)
6)
X
X22
X
X11
X
X22
X
X11
6
7)
X
X22
X
X11