Лабораторные Программирование

Раздел
Программирование
Просмотров
17
Покупок
0
Антиплагиат
Не указан
Размещена
11 Сен в 14:31
ВУЗ
Не указан
Курс
Не указан
Стоимость
2 950 ₽
Демо-файлы   
4
pdf
pra-prakticheskoe_zanyatie_02
334.5 Кбайт
pdf
pra-prakticheskoe_zanyatie_03
293.2 Кбайт
pdf
pra-prakticheskoe_zanyatie_04
313.7 Кбайт
pdf
pra-laboratornaya_rabota_02
311.2 Кбайт
Файлы работы   
1
Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.
rar
Прикладной регрессионный анализ
1.8 Мбайт 2 950 ₽
Описание

ПОЛНОЕ ЗАДАНИЕ В ДЕМО ФАЙЛЕ,

ЧАСТЬ ДЛЯ ПОИСКА ДУБЛИРУЮ НИЖЕ

Оглавление

ЛАБОРАТОРНАЯ РАБОТА № 2 РЕГРЕССИОННЫЙ АНАЛИЗ ДАННЫХ В STATGRAPHICS

Цель и задача работы

Освоить использование статистического пакета STATGRAPHICS для интеллекту-ального анализа данных, научиться применять STATGRAPHICS для решения задач по-строения линейной и полиномиальной регрессии.

Теоретические положения

1. Основные сведения

Статистические пакеты (SPSS, STATISTICA, STATGRAPHICS и другие) были за-думаны для реализации классического подхода нахождения средних величин и стати-стических зависимостей, но в последние версии включены и методы интеллектуального анализа данных. Эти программные средства, как правило, очень тяжеловесны и дорого-стоящи, поэтому используются в основном в научной деятельности, а не в финансово-торговой сфере.

Универсальный статистический пакет Manugistics STATGRAPHICS Plus 5.1 пред-назначен для обработки статистической информации, различного рода эксперименталь-ных данных, формирования графиков, зависимостей и схем результатов экспериментов и многого другого.

После запуска программы появится окно “StatWizard” в котором предлагается по-мочь с вводом данных и их анализом. Чтобы не использовать его можно нажать кнопку Cancel в окне. Далее появиться главное окно программы, которое изображено на рисунке 1.

Рисунок 1 - Главное окно STATGRAPHICS

Внизу окна располагаются свернутые окна: StatFolio, StatAdvisor, StatGallery и Sta-tReporter. Эти окна можно развернуть сделав двойной щелчок мышью на соответствую-

2

щем окне. В окне StatFolio находятся комментарии к проекту. В окне StatAdvisor распо-лагается интерпретация результатов статистических процедур. Оно дает объяснение ре-зультатов статистических испытаний, предупреждает об ошибках, которые могут воз-никнуть с вводом некорректных данных, и предложить другие процедуры, которые мог-ли бы быть применены. В окне StatGallery отображаются результаты исследований в ви-де графиков. StatReporter предназначен для создания отчета по исследованиям в формате rtf. Также внизу главного окна располагаются окна с производимыми в данный момент исследованиями.

На панели инструментов расположены кнопки часто используемых команд из ме-ню. Так кнопка (соответствующее меню File->Open->Open StatFolio…) открывает проект STATGRAPHICS, а кнопка (File->Save->Save StatFolio) – сохраняет.

2. Таблицы данных. Ввод и сохранение данных

Главным элементом проекта в STATGRAPHICS является таблица с данными. Её можно открыть с помощью кнопки (File-> Open->Open Data File…) и сохранить с помощью кнопки (File->Save->Save Data File). STATGRAPHICS умеет открывать файлы Excel, xml, dbf и некоторые другие. Имеется собственный формат таблицы с дан-ными (*.sf). Кроме того, STATGRAPHICS может получать данные из запросов к базам данных ODBC (File-> Open->Query Database (ODBC)…), из буфера обмена (File-> Open->Read Clipboard…). Открытую таблицу с данными (рисунок 2) можно подкорректиро-вать (в частности, можно не используя других источников данных набрать данные вруч-ную или сформировать методом Generate Data … из контекстного меню для колонки (на рисунке 2 так сформирована колонка Col_3 с формулой для формирования RANDOM(Y))).

Рисунок 2 - Таблица данных

Данные могут изменяться в процессе исследования (особенно, если они берутся из рабочих баз данных, из файлов, создаваемых другими приложениями). Для работы с та-

3

кими данными в STATGRAPHICS предусмотрен механизм обращения к источникам данных (подменю File->StatLink). В этом подменю можно задать источник данных (пункт Change Data Source…, рисунок 3) и включить механизм обращения к этому ис-точнику (пункт Start Poling…) с заданием периода между обращениями в секундах, ми-нутах или часах.

Рисунок 3 - Выбор источника данных

После окончания исследований надо отключить механизм обращения к источникам данных (пункт Stop Poling). Можно обращаться к источнику данных в произвольный момент времени (пункт Update Now). Информацию об источнике данных, времени по-следнего обновления данных количестве колонок и строк можно получить из пункта Display Status.

3. Построение уравнений регрессии

Меню Relate посвящено построению уравнений регрессии. Так пункт Simple Re-gression… ищет два неизвестных параметра и может быть использован для построения уравнения линейной регрессии. Выбрав этот пункт меню, откроется окно, показанное на рисунке 4.

Рисунок 4 - Параметры Simple Regression

В этом окне необходимо ввести зависимую переменную Y, независимую перемен-ную X и обозначить выборку из таблицы данных Select. В каждом поле может быть не

4

просто колонка из таблицы данных, а выражение (кнопка Transform…). С помощью Se-lect можно выбрать, например, только первые 10 строк из таблицы данных (формула first(10)). Флаг Sort column names только устанавливает сортировку имен колонок, запи-санных над флагом. Если флаг убран, колонки в списке будут размещаться в порядке размещения в таблице данных. После нажатия на кнопку Ok откроется следующее окно (рисунок 5).

Рисунок 5 - Исследование Simple Regression

Открывшееся окно содержит: панель управления и рабочую зону, которая разделе-на на две части. Левая часть содержит различные текстовые отчеты о проведенном ис-следовании, а правая наглядное графическое представление.

В контекстном меню рабочей зоны имеется пункт Analysis Options…, который от-крывает настройку исследований (рисунок 6).

Рисунок 6 - Настройка Simple Regression

В этом окне можно выбрать модель для Simple Regression (Linear - линейная).

Кнопки на панели управления имеют следующее назначение:

5

- Input Dialog (устанавливает параметры, рисунок 4);

- Tabular Options (список возможных текстовых отчетов);

- Graphical Options (список возможных графических представлений);

- Save Result (сохранение результатов исследования).

В текстовом отчете по исследованию приведены: используемая модель, найденные параметры, посчитанные ошибки, объяснения и рекомендации по дальнейшему исследо-ванию. Эти результаты также занесены в окно StatAdvisor, в котором будут накапливать-ся результаты различных исследований. Двойной щелчок в области текстового отчета распахнет этот отчет во все окно текущего исследования, для линейной регрессии будет примерно следующее:

Simple Regression - Y vs. X

Regression Analysis - Linear model: Y = a + b*X

-----------------------------------------------------------------------------

Dependent variable: Y

Independent variable: X

-----------------------------------------------------------------------------

Standard T

Parameter Estimate Error Statistic P-Value

-----------------------------------------------------------------------------

Intercept 21,7651 1,09013 19,9656 0,0000

Slope 0,16435 0,0513797 3,19873 0,0030

-----------------------------------------------------------------------------

Analysis of Variance

-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value

-----------------------------------------------------------------------------

Model 104,938 1 104,938 10,23 0,0030

Residual 348,701 34 10,2559

-----------------------------------------------------------------------------

Total (Corr.) 453,639 35

Correlation Coefficient = 0,480961

R-squared = 23,1324 percent

R-squared (adjusted for d.f.) = 20,8716 percent

Standard Error of Est. = 3,20249

Mean absolute error = 2,57163

Durbin-Watson statistic = 2,48437 (P=0,0472)

Lag 1 residual autocorrelation = -0,247477

Полиномиальная регрессия делается абсолютно также: выбираем пункт меню Relate->Polinomial Regression…, откроется окно, похожее на рисунок 4, в нем тоже мож-но зависимую переменную Y, независимую переменную X. В качестве настройки у Po-linomial Regression выступает степень аппроксимирующего полинома.

Порядок выполнения работы

1. Ознакомьтесь с теоретической справкой к данной лабораторной работе.

6

2. Проведите построение уравнений линейной и полиномиальной регрессий в пакете STATGRAPHICS на основе данных из UC Irvine Machine Learning Repository (http://archive.ics.uci.edu/ml/),

3. Оформите отчет по лабораторной работе.

Таблица 1 - Варианты заданий

Вариант

Задача

1

Abalone

2

Auto MPG

3

Housing

4

Computer Hardware

5

Forest Fires

6

Concrete Compressive Strength

7

Residential Building

8

Yacht Hydrodynamics

9

Concrete Slump Test

10

Airfoil Self-Noise

Содержание отчета

1. Титульный лист;

2. тема и цель работы;

3. задание (входные наборы данных и их описание);

4. результат исследований и выводы.

Контрольные вопросы

1. Какие задачи решают статистические пакеты?

2. Для чего предназначен STATGRAPHICS?

3. Для чего используют StatWizard?

4. Что показывают StatFolio, StatAdvisor, StatGallery и StatReporter

5. Какие источники данных можно использовать в STATGRAPHICS?

6. Как использовать механизм обращения к источникам данных?

7. Как построить уравнение линейной регрессии?

8. Как построить уравнение экспоненциальной регрессии?

9. Как построить уравнение полиномиальной регрессии?

_

1

ПРИКЛАДНОЙ РЕГРЕССИОННЫЙ АНАЛИЗ

ПРАКТИЧЕСКАЯ РАБОТА №2

ПРИВЕДЕНИЕ МАТРИЦЫ ДАННЫХ К СТАНДАРТИЗОВАННОМУ

ВИДУ. АНАЛИТИЧЕСКОЕ ПОСТРОЕНИЕ УРАВНЕНИЯ РЕГРЕССИИ

Цель работы: вычисление статистических характеристик признаков и

получение стандартизованной матрицы данных, построение аналитически

функции регрессии, описывающей данные, для простого набора данных.

ПРИВЕДЕНИЕ МАТРИЦЫ ДАННЫХ

К СТАНДАРТИЗОВАННОМУ ВИДУ

В современном анализе данных объекты исследования являются

сложными и качественно отличаются от привычных объектов в технических

областях. Часто число измеренных признаков является очень большим,

поэтому возникает проблема в выделении важных войств объекта. Первым

этапом в обработке матрицы данных является ее приведение к

стандартизованному виду. Стандартизованная матрица данных X имеет

целью привести все количественные измерения к единому масштабу и

Пусть имеется матрица данных X(N  n) N – число объектов, n – число

признаков (характеристик).

Для перехода к стандартизованному виду используется формула:

ij j

ij

j

x x

x

D

 = ,

1

1 N

j ij

i

x x

N =

=  – среднее в столбце,

( )2

2

1

1 N

j j ij j

i

D x x

N

=

= =  − – дисперсия в столбце.

Для стандартизованной матрицы данных X справедливо: 0 j x = , 1 j  = ,

j =1,...,n .

2

ПОСТРОЕНИЕ УРАВНЕНИЯ РЕГРЕССИИ

Пусть изучается система количественных признаков (X ,Y) . В результате

независимых опытов получено N пар случайных величин

1 1 2 2 ( , ),( , ),...,( , ) N N x y x y x y . Примем гипотезу, что этот набор данных

описывается функциональной зависимостью fˆ (x) = ax + b .

Согласно методу наименьших квадратов для определения оптимальных

параметров a и b необходимо найти оптимум критерия:

( )2

1

( , ) min( , )

N

i i

i

L a b ax b y a b

=

= + − → .

Для отыскания минимума приравняем соответствующие частные

производные нулю:

( )

1

2 0

N

i i i

i

L

ax b y x

a =

= + − =

  ,

( )

1

2 0

N

i i

i

L

ax b y

b =

= + − =

  .

Выполнив элементарные преобразования, получим систему двух

линейных уравнений относительно a и b :

2

1 1 1

N N N

i i i i

i i i

x a x b x y

= = =

   

  +   =

   

  

1 1

N N

i i

i i

x a Nb y

= =

 

  + =

 

 

Решив эту систему, найдем искомые параметры:

1 1 1

2

2

1 1

ˆ

N N N

i i i i

i i i

N N

i i

i i

N x y x y

a

N x x

= = =

= =

− 

=

 

− 

 

  

 

2

1 1 1 1

2

2

1 1

ˆ

N N N N

i i i i i

i i i i

N N

i i

i i

x y x x y

b

N x x

= = = =

= =

 − 

=

 

− 

 

   

 

Величина остаточной ошибки определяется по формулам:

3

( )2

1

1

ˆ( )

N

err i i

i

L f x y

=

=  − ,

( )

( )

1

2 2

3 1

1 1

2 2 2

2

1 1

1 ˆ( )

1 1 ˆ( )

N

i i

i

err

N N

i i

i i

f x y

N

L

y f x

N N

=

= =

 

 − 

=  

   

  +  

   

 

.

Самостоятельно вывести уравнение регрессии для функции второго порядка

2

0 1 2 f (x) = a + a x + a x .

СОДЕРЖАНИЕ ОТЧЕТА

Отчет должен содержать цель работы, задание, его выполнение

(основную часть) и выводы. Вспомогательные вычисления и графики,

иллюстрации могут быть получены с помощью сред аналитических

вычисление (MathCad, Matlab, SciLab, Matematica) или с привлечением

библиотек языков программирования высокого уровня.

Задание к практической работе:

1. Получить матрицу «объект-признак», «объект-объект», «признак-

признак» и рисунок координатной плоскости для исходных данных,

заданных приложении в соответствии с назначенным вариантом.

2. Задание п.1. выполнить для стандартизованных данных.

3. Рассчитанные коэффициенты линейной регрессии X 2 относительно

X1 (нестандартизованные и стандартизованные и данные) и величину

остаточной ошибки.

4. Решение и рассчитанные по данным коэффициенты регрессии второго

порядка X 2 относительно X1 (нестандартизованные и

стандартизованные и данные) и величину остаточной ошибки.

4

ВАРИАНТЫ ЗАДАНИЙ

1)

2)

X

X22

X

X11

X

X22

X

X11

5

3)

4)

X

X22

X

X11

X

X22

X

X11

6

5)

6)

X

X22

X

X11

X

X22

X

X11

7

7)

8)

X

X22

X

X11

X

X22

X

X11

8

9)

10)

X

X22

X

X11

X

X22

X

X11

_

1

ПРИКЛАДНОЙ РЕГРЕССИОННЫЙ АНАЛИЗ

ПРАКТИЧЕСКАЯ РАБОТА №3

МЕТОД ГРАДИЕНТНОГО СПУСКА ДЛЯ ПОСТРОЕНИЯ УРАВНЕНИЯ

РЕГРЕССИИ. ПОНЯТИЕ О СТАХОСТИЧЕСКОМ ГРАДИЕНТЕ.

Цель работы: ознакомиться с алгоритмом метода градиентного спуска для

оптимизации критерия метода наименьших квадратов при построении

регрессии, ознакомиться с понятием стохастического градиента.

АЛГОРИТМ ГРАДИЕНТНОГО СПУСКА

Пусть изучается система количественных признаков (X ,Y) . В результате

независимых опытов получено N пар случайных величин

1 1 2 2 ( , ),( , ),...,( , ) N N x y x y x y . Примем гипотезу, что этот набор данных

описывается функциональной зависимостью fˆ (x) = ax + b .

Согласно методу наименьших квадратов для определения оптимальных

параметров a и b необходимо найти минимум критерия:

( )2

1

( , ) min( , )

N

i i

i

L a b ax b y a b

=

= + − → .

Алгоритм градиентного спуска для поиска экстремума критерия:

0: Выбрать начальные значения искомых параметров 0 0 a ,b и рассчитать

значение критерия при них: 0 0 L(a ,b ) .

Выбрать значение   0 .

1: Выполнить шаг по параметрам в сторону уменьшения градиента:

1 0

L

a a

a

= −

, ( ) 0 0

1

2

N

i i i

i

L

a x b y x

a =

= + −

  ,

1 0

L

b b

b

= −

, ( ) 0 0

1

2

N

i i

i

L

a x b y

b =

= + −

  .

Рассчитать пробное значение критерия: 1 1 L(a ,b ) .

Если 1 1 0 0 L(a ,b )  L(a ,b ) повторить расчет при

2

 =

иначе переход на шаг 2 т.д.

Правило останова: ( , ) k k L a b  или 1 1 ( , ) ( , ) k k k k L a b L a b  − − −  .

2

Самостоятельно модифицировать предложенные формулы для

использования метода стохастического градиента.

СОДЕРЖАНИЕ ОТЧЕТА

Отчет должен содержать цель работы, задание, выводы и основную часть:

1. Рассчитанные коэффициенты линейной регрессии X 2 относительно

X1 (нестандартизованные данные) по методу градиентного спуска.

Проиллюстрировать шаги алгоритма в двумерном пространстве

параметров a и b.

2. Рассчитанные коэффициенты линейной регрессии X 2 относительно

X1 (нестандартизованные данные) по методу стохастического

градиента. Проиллюстрировать шаги алгоритма в двумерном

пространстве параметров a и b.

3. Сравнение результатов с результатами, полученными аналитическим

методом в предыдущей практической работе.

3

ВАРИАНТЫ ЗАДАНИЙ

1)

2)

X

X22

X

X11

X

X22

X

X11

4

3)

4)

X

X22

X

X11

X

X22

X

X11

5

5)

6)

X

X22

X

X11

X

X22

X

X11

6

7)

8)

X

X22

X

X11

X

X22

X

X11

7

9)

10)

X

X22

X

X11

X

X22

X

X11

_

1

ПРИКЛАДНОЙ РЕГРЕССИОННЫЙ АНАЛИЗ

ПРАКТИЧЕСКАЯ РАБОТА №4

ПОВЫШЕНИЕ УСТОЙЧИВОСТИ РЕГРЕССИОННОЙ МОДЕЛИ.

АЛГОРИТМ RANSAC

Цель работы: ознакомиться с алгоритмом RANdom SAmple Consensus.

Построить регрессионную модель для данных с учетом удаления нетипичных

объектов.

АЛГОРИТМ RANSAC

Пусть изучается система количественных признаков (X ,Y) . В результате

независимых опытов получено N пар случайных величин

1 1 2 2 ( , ),( , ),...,( , ) N N x y x y x y . Примем гипотезу, что этот набор данных

описывается функциональной зависимостью y  f (x) .

Требуется построить модель регрессии, обеспечив устойчивость от

выбросов на основе алгоритма RANSAC (RANdom SAmple Consensus)*, в

частности на основе двухуровневой процедуры:

- классификация объектов на типичные (inliers) и нетипичные (outliers),

- подгонка модели для типичных объектов при игнорировании

нетипичных.

*M. A. Fischler and R. C. Bolles (June 1981). "Random Sample Consensus: A

Paradigm for Model Fitting with Applications to Image Analysis and Automated

Cartography". Comm. of the ACM 24: 381- 395.

СОДЕРЖАНИЕ ОТЧЕТА

Отчет должен содержать цель работы, задание, выводы и основную часть:

1. Варианты:

9 – набор данных № 1,

8 – набор данных № 3,

7 – набор данных № 5.

Рассчитанные коэффициенты линейной регрессии X 2 относительно

X1 (нестандартизованные данные) 1 0 1 ( , , ) o f x a a = a + a x , обеспечив

устойчивость от выбросов на основе алгоритма RANSAC.

Проиллюстрировать решение и шаги алгоритма.

2. Варианты:

6 – набор данных № 1,

2

5 – набор данных № 2.

Рассчитанные коэффициенты регрессии второго порядка X 2

относительно X1 (нестандартизованные данные)

2

1 2 0 1 2 ( , , , ) o f x a a a = a + a x + a x , обеспечив устойчивость от выбросов на

основе алгоритма RANSAC. Проиллюстрировать решение и шаги

алгоритма.

3. Варианты:

4 – набор данных № 3,

3 – набор данных № 4.

Рассчитанные коэффициенты регрессии на основе окружности

( ) ( ) 2 2

2 x1 x1 x2 x2 r   − + − = , обеспечив устойчивость от выбросов на

основе алгоритма RANSAC. Проиллюстрировать решение и шаги

алгоритма.

4. Варианты:

2 – набор данных № 5,

1 – набор данных № 6.

Рассчитанные коэффициенты регрессии на основе равноудаленного от

центра множества точек в метрике max( x1 x1 , x2 x2 ) r   − − =

(квадрат), обеспечив устойчивость от выбросов на основе алгоритма

RANSAC. Проиллюстрировать решение и шаги алгоритма.

5. Варианты (повышенной сложности):

10 – набор данных № 7.

Рассчитанные коэффициенты регрессии на основе равноудаленного от

центра множества точек в метрике x1 x1 x2 x2 r   − + − = (ромб с

прямыми углами), обеспечив устойчивость от выбросов на основе

алгоритма RANSAC. Проиллюстрировать решение и шаги алгоритма.

3

НАБОРЫ ДАННЫХ

1)

2)

X

X22

X

X11

X

X22

X

X11

4

3)

4)

X

X22

X

X11

X

X22

X

X11

5

5)

6)

X

X22

X

X11

X

X22

X

X11

6

7)

X

X22

X

X11

Вам подходит эта работа?
Похожие работы
Другие работы автора
Другое
Эссе Эссе
15 Сен в 14:21
21
0 покупок
Английский язык
Эссе Эссе
15 Сен в 14:20
19
0 покупок
История
Эссе Эссе
15 Сен в 14:19
27
0 покупок
Логика
Эссе Эссе
15 Сен в 14:16
23
0 покупок
История
Эссе Эссе
15 Сен в 14:11
30
0 покупок
История
Эссе Эссе
15 Сен в 14:10
24
0 покупок
Другое
Эссе Эссе
15 Сен в 14:09
28
0 покупок
Логика
Эссе Эссе
15 Сен в 14:09
32
0 покупок
Прокурорский надзор
Эссе Эссе
15 Сен в 14:07
23
0 покупок
Прокурорский надзор
Эссе Эссе
15 Сен в 14:06
24
0 покупок
Психология
Реферат Реферат
15 Сен в 14:06
31
0 покупок
Юриспруденция
Реферат Реферат
15 Сен в 14:03
28
0 покупок
Темы журнала
Показать ещё
Прямой эфир