ПОЛНОЕ ЗАДАНИЕ В ДЕМО ФАЙЛЕ,
ЧАСТЬ ДЛЯ ПОИСКА ДУБЛИРУЮ НИЖЕ
АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ
ВЫСШЕГО ОБРАЗОВАНИЯ
«ВОЛГОГРАДСКИЙ ИНСТИТУТ БИЗНЕСА»
ЗАДАНИЯ ДЛЯ ЛАБОРАТОРНЫХ ЗАНЯТИЙ
Вид лабораторного занятия: лабораторная работа
Критерии выбора заданий: необходимо выполнить все задания
Требования к содержанию и оформлению письменной работы:
1. Работу следует выполнять с помощью ППП MS Excel, оформлять можно в виде DOC-
файла.
2. На титульном листе должны быть написаны фамилия, имя, отчество студента,
индивидуальный шифр, название дисциплины.
3. Перед решением каждой задачи надо выписывать полностью ее условие.
4. Решение задач следует излагать подробно и аккуратно, объясняя и мотивируя все
действия по ходу решения и делая (если это требуется) необходимые чертежи.
Тема № 2: «Парная регрессия и корреляция в эконометрических исследованиях»
Метод наименьших квадратов
Одним из простейших уравнений регрессии, которое используется в эконометрике,
является линейное уравнение:
i i i y Bx A (1)
где i – случайная величина, называемая возмущением или случайным
(остаточным) членом. Слагаемое i вводится в уравнение регрессии для отражения того
факта, что реальные значения зависимой переменной не всегда совпадают с ее условным
математическим ожиданием и могут быть различными при одном и том же значении
объясняющей переменной, что отражает влияние случайных, неучтенных
факторов. Таким образом, не следует ожидать получения точного соотношения между
какими–либо двумя экономическими показателями, за исключением тех случаев, когда
оно существует по определению.
Существует несколько причин появления случайного фактора:
1. невключение объясняющих переменных (cоотношение между переменными Y
и X почти наверняка является большим упрощением, в действительности существуют и
другие факторы, влияющие на Y , которые не учтены в уравнении регрессии);
2. агрегирование переменных (во многих случаях рассматриваемая зависимость –
это попытка объединить вместе некоторое число микроэкономических соотношений,
примером является функция суммарного потребления);
3. неправильное описание структуры модели (структура модели может быть
описана неправильно или не вполне правильно; если зависимость относится к данным о
временном ряде, то значение Y может зависеть не от фактического значения X , а от
значения, которое ожидалось в предыдущем периоде);
4. неправильная функциональная спецификация (например, истинная
зависимость может не являться линейной, а быть более сложной, но и она является лишь
приближением);
5. ошибки измерения (точные значения параметров линейного уравнения
регрессии (1) на практике получить невозможно).
Можно только оценить А, В и i , т.е. найти уравнение вида:
yi bxi a ei (2)
Здесь коэффициент b называется выборочным коэффициентом регрессии Y по
X . Коэффициент регрессии Y по X показывает, на сколько единиц в среднем
изменяется переменная Y при увеличении переменной X на одну единицу. Коэффициент
a называется свободным коэффициентом. Слагаемое i b в уравнении (2) называется
остатком, который равен разности в точке i x между экспериментальным и расчетным
значением результативного признака, т.е. ˆ i y y (где ˆi i y bx a ).
Для оценки параметров уравнения регрессии используется ряд методов, один из
которых - метод наименьших квадратов (МНК).
Пусть в результате наблюдений получена таблица значений переменной y для ряда
значений (независимой) переменной x :
Таблица 1
x 1 x 2 x 3 x
… n x
y 1 y 2 y 3 y
… n y
Предположим, что точки
( ; ), ( ; ),..., ( ; ) 1 1 1 2 2 2 n n n M x y M x y M x y
примерно располагаются на одной прямой
(см. рис. 1). Это означает, что зависимость между x и y близка к линейной:
y bx a . Подберем неизвестные коэффициенты a и b так, чтобы прямая
y bx a лежала по возможности как можно ближе к каждой из нанесенных
точек. Сущность МНК заключается в том, что искомую прямую y bx a выбирают
таким образом, чтобы сумма квадратов остатков ˆ i y y была бы наименьшей. Таким
образом, неизвестные параметры a и b находят из условия, что сумма
2
1
( ˆ ) min
n
i i
i
y y
, то есть
2
1
( ) min
n
i i
i
y bx a
имела бы наименьшее
значение. Поскольку i x и i y – постоянные числа (данные опыта), то указанная сумма
есть функция параметров a и b :
2
1
( ) ,
n
i i
i
y bx a Ф a b
(3)
Исследуем данную функцию двух переменных на точки экстремума. Чтобы найти
значения параметров a и b , воспользуемся необходимым условием экстремума функции
нескольких переменных: найдем частные производные функции Ф(a,b) по a и b , и
приравняем их к нулю:
2 ( ) 0
2 ( ) 0
b i i
a i i i
bx a y
bx a y x
(4)
Следовательно, параметры a и b , для которых осуществляется наилучшее
приближение (в указанном смысле), определяется из системы уравнений, которую можно
переписать в следующем виде:
2 2
1 1 1
1 1
1 1 1
1 1
n n n
i i i i i i i i
i i i
n n
i i i i
i i
b x a x x y b x a x x y
n n n
b x an y b x a y
n n
2 b x a x xy
b x a y
(5)
Можно доказать, что эта система имеет единственное решение и что для найденных
чисел a и b функция Ф(a,b) достигает минимума:
x
x y
x x
xy x y
b
a y b x
2 2 2
cov( , )
(6)
В данной формуле cov(x, y) – выборочный корреляционный момент или
выборочная ковариация;
2 (x) – дисперсия переменной X .
Подставляя найденные значения a и b в уравнение ˆi i y bx a , получим
линейную функцию, наилучшим образом аппроксимирующую зависимость между
переменными X и Y , полученную из опыта.
Уравнения регрессии позволяют прогнозировать возможные значения зависимых
переменных. Регрессионные модели применимы для определения оптимальной области
приложения усилий, например, границы, за рамки которой дальнейшее вложение капитала
уже не приносит пропорционального увеличения прибыли.
Коэффициент корреляции измеряет степень и определяет направление только
прямолинейных связей. Коэффициент парной корреляции xy r есть безразмерная
величина, значения которой принадлежат отрезку: [ 1;1] xy r .
Выборочный коэффициент парной корреляции xy r вычисляется по формуле:
xy
x y
xy x y
r
(7)
Соответствие между значениями xy r и характером связи может быть
представлено следующей таблицей (таблица Чеддока):
Значение коэффициента парной
корреляции, xy r
Связь
1 Функциональная
>0,9 Очень сильная
0,7 – 0,9 Тесная (сильная)
0,5 – 0,7 Заметная
0,3 – 0,5 Умеренная
<0,3 Слабая
0 Отсутствует
Чем ближе xy r к единице, тем теснее связь между Y и X (тем ближе связь к
линейной). Геометрически это означает, что чем больше по модулю коэффициент
корреляции, тем ближе экспериментальные точки прилежат к линии регрессии (рис. 1).
Проанализируем виды корреляционных полей, представленных на
графиках. Очевидно, что в первом случае связь между переменными сильная, а во втором
случае – слабая.
Рис. 1.
Если коэффициент корреляции положителен 0 xy r , то связь между переменными
является прямой, а если 0 xy r , то связь обратная (т.е. с увеличением фактора
(переменной ) результативный признак (переменная ) будет
уменьшаться) (рис. 2). Графически это будет выглядеть следующим образом:
Рис. 2.
Если 1 xy r , то между величинами Y и X наблюдается функциональная зависимость, и
все экспериментальные точки лежат на линии регрессии (рис. 3).
Рис. 3.
Если 0 xy r , то линейная корреляционная связь между переменными отсутствует,
т.е. 0 xy r (см. рис. 4).
Рис. 4.
Равенство коэффициента нулю говорит лишь об отсутствии линейной связи между
переменными, но при этом между ними может существовать какая-либо другая связь.
Оценку качества построенной модели (в первом приближении) дает коэффициент
(индекс) детерминации и средняя ошибка аппроксимации.
Общая сумма квадратов отклонений переменной y от среднего значения y
раскладывается на два слагаемых: «объясненную» (факторную) и «остаточную»
(«необъясненную») сумму квадратов:
n
i
i i
n
i
i
n
i
i y y y y y y
1
2
1
2
1
2 ˆ ˆ
(8)
Докажем справедливость данного соотношения. Для этого преобразуем выражение
общей сумы квадратов:
ˆ ˆ ˆ ˆ 2 ˆ ˆ .
1 1 1
2 2
n
i 1
2
1
2
n
i
i i i
n
i
n
i
i i i i i i
n
i
i y y y y y y y y y y y y y y
Покажем, что удвоенное произведение равно нулю.
ˆ ˆ ˆ 0
1 1 1 1 1 1
n
i
i
n
i
i
n
i
i i
n
i
i i
n
i
i i
n
i
i i i y y y y e y y e bx a y b e x a e y e
.
Здесь учли, что ˆ i i i e y y ,
1
0
n
i i
i
e x
и
1
0
n
i
i
e
(см. систему 2).
Общая сумма квадратов отклонений индивидуальных значений результативного
признака y от среднего значения y вызвана влиянием множества причин, которые
можно условно разбить на две группы: изучаемые факторы и прочие факторы. Если
фактор не оказывает влияния на результат, то линия регрессии на графике параллельна
оси абсцисс и y yˆ . Тогда вся дисперсия результативного признака обусловлена
воздействием прочих факторов и общая сумма квадратов отклонений совпадает с
остаточной. Если же прочие факторы не влияют на результат, то y связан с x
функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов
отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Таким
образом, отношение факторной суммы квадратов к общей сумме может характеризовать
качество построенной модели. Такое отношение называется коэффициентом
детерминации R2:
n
i
i
n
i
i
y y
y y
R
1
2
1
2
2
(9)
Коэффициент детерминации показывает, какая доля изменения
(дисперсии) зависимой переменной обусловлена изменением объясняющей
переменной. Например, R2 = 0,75 – это значит, что на 75% изменение зависимой величины
Y обусловлено изменением фактора X и на 25% – действием других неучтенных факторов.
Коэффициент детерминации равен квадрату коэффициента корреляции
2 2
R rxy
,
поэтому значения
2 R лежат в промежутке [0;1]. Чем ближе значение R2 к единице, тем
лучше модель описывает экспериментальные данные, тем ближе точки прилежат к линии
регрессии. Отметим, что коэффициент детерминации имеет смысл только при наличии
свободного члена в уравнении регрессии.
Помимо коэффициента детерминации о качестве модели говорит средняя ошибка
аппроксимации – среднее отклонение расчетных значений от фактических:
1
1
100%
n
i i
i i
y y
A
n y
(10)
где i y – наблюдаемое в i-том опыте значение величины Y, ˆi y – значение, рассчитанное
по уравнению регрессии для данного i x , n – число опытов. Допустимый предел значений
A , при котором качество модели считается приемлемым, – не более 8-10%.
Оценка статистической значимости уравнения регрессии и его параметров:
xy a, b, r
.
После того, как найдено уравнение регрессии, проводится оценка значимости как
уравнения в целом, так и отдельных его параметров.
1. О значимости уравнения линейной регрессии в целом можно судить на основании
значимости коэффициента корреляции между переменными. Для оценки статистической
значимости коэффициента регрессии и корреляции используется t тест.
Проверяется нулевая гипотеза 0 H об отсутствии линейной связи между
переменными X и Y, т.е. 0 H : 0 xy r . Конкурирующая гипотеза 1 H – существует
линейная связь между переменными. Проверка нулевой гипотезы состоит в сравнении
фактического или наблюдаемого набл t
и критического или табличного табл t
значений
t критерия Стьюдента. Рассчитывается набл t
по формуле:
2 1
2
R
r n
m
r
t xy
r
xy
набл
(1)
Здесь 2
1 2
n
R
mr
– стандартная ошибка коэффициента корреляции, n –
объем выборки. Полученное значение критерия набл t
сравнивается с критическим
значением табл t
, определяемым по таблице Стьюдента по заданному уровню значимости
и по числу степеней свободы k n 2.
Уровень значимости – вероятность отвергнуть правильную нулевую гипотезу,
когда она верна (ошибка первого рода). Вероятность того, что будет принята верная
нулевая гипотеза называется уровнем надежности и обозначается . Надежность и
уровень значимости связаны соотношением: 1.
Если r табл t t
, то гипотеза 0 H отвергается на уровне значимости ,
т.е. считается, что коэффициент корреляции между переменными отличен от нуля 0 xy r
и между переменными существует линейная связь. Уравнение регрессии в данном случае
тоже считается значимым.
Если r табл t t
, то мы не можем сделать вывод ни о наличии, ни об отсутствии
связи между наблюдаемыми параметрами X и Y . Необходимо повторить наблюдение на
большем количестве наблюдений (данных) и перепроверить гипотезу 0 H .
2. Для оценки статистической значимости найденных МНК параметров уравнения
регрессии a и b используется t тест.
Выдвигается нулевая гипотеза 0 H о статистической незначимости, то есть
случайной природе показателей. Фактические значения t критериев находят по
формулам:
a
a
b
b m
a
t
m
b
t ,
(2)
Здесь a b m , m
– стандартные ошибки параметров уравнения регрессии и сравнивают
с критическим значением табл t
, определяемым по таблице Стьюдента по заданному
уровню значимости и по числу степеней свободы k n 2.
Величину стандартных ошибок можно определить по формулам:
n
s
n x x
y y
m
x
ост
i
i i
b
2
2
( )
1
2
( ˆ )
(3)
2
2
2 2
2 ( )
( ˆ )
i
x
ост
i
i i i
a x
n
s
n x x
x
n
y y
m
(4)
где ост S
– стандартная ошибка. Если наблюдаемые значения t критерия a t и b t
больше табличного значения табл t
, то гипотеза 0 H отклоняется, т.е. параметры a и b не
случайно отличаются от нуля и сформировались под влиянием систематически
действующего фактора X . Уравнение регрессии в данном случае тоже считается
значимым.
Если табл набл t t
, то мы не можем сделать вывод ни о наличии, ни об отсутствии
связи между наблюдаемыми параметрами. Необходимо повторить наблюдение на
большем количестве наблюдений (данных) и перепроверить гипотезу.
3. Оценка статистической значимости уравнения в целом проводится с помощью
F критерия.
Общая сумма квадратов отклонений переменной y от среднего значения y
раскладывается на два слагаемых: «объясненную» (факторную) и «остаточную»
(«необъясненную») сумму квадратов:
n
i
i i
n
i
i
n
i
i y y y y y y
1
2
1
2
1
2 ˆ ˆ
(5)
Любая сумма квадратов отклонений связана с числом степеней свободы
независимого варьирования признака. Число степеней свободы связано с числом единиц
совокупности n и с числом определяемых по ней констант.
Для общей сумы квадратов
n
i
i y y
1
2
необходимо n 1 независимых отклонений,
поскольку в совокупности из n единиц после расчета среднего уровня свободно
варьируются лишь n 1 число отклонений. Например, ряд значений y: 1, 2, 3, 4,
5. Среднее из них равно 3, и тогда n отклонений от среднего составят -2, -1, 0, 1,
2. Поскольку
n
i
i y y
1
0
, то свободно варьируют лишь четыре отклонения, а пятое
может быть определено, если четыре предыдущих известно.
Факторная сумма квадратов отклонений для парного линейного уравнения регрессии
имеет число степеней свободы, равное 1, поскольку при заданном объеме наблюдений по
x и y факторная сумма квадратов зависит только от одной константы – коэффициента
регрессии b.
Число степеней свободы остаточной суммы квадратов составляет (n 2) . Таким
образом, для степеней свободы имеем равенство:
n 1 1 n 2
(6)
Разделив каждую суму квадратов на соответствующее ей число степеней свободы,
получим средний квадрат отклонений или дисперсию на одну степень свободы:
1
1
2
n
y y
D
n
i
i
общ
(7)
1
ˆ
1
2
n
i
i
факт
y y
D
(8)
2
ˆ
1
2
n
y y
D
n
i
i
ост
(9)
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому
виду. Сопоставляя факторную и остаточные дисперсии в расчете на одну степень
свободы, получим величину F критерия:
ост
факт
набл D
D
F
(10)
Величина F критерия связана с коэффициентом детерминации
2 R . Факторную
сумму квадратов отклонений можно представить следующим образом:
y y R n y
n
i
i
2 2
1
2 ˆ
(11)
а остаточную суму квадратов:
y y R n y
n
i
i i
2 2
1
2 ˆ 1
(12)
На основе формул (8)-(12) можно записать:
2
1 2
2
n
R
R
Fнабл
(13)
При проверки статистической значимости уравнения регрессии с помощью критерия
Фишера проверяется нулевая гипотеза 0 Н
о статистической незначимости уравнения
регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического
набл F
и табличного табл F
значений критерия Фишера. табл F
определяется из специальной
таблицы с помощью трех чисел: уровня значимости и степеней свободы 2 1 k n и
1 2 k .
Нулевая гипотеза отклоняется, если набл табл F F
и признается статистическая
значимость и надежность оцениваемых характеристик. Если набл табл F F
, то гипотеза 0 Н
не отклоняется и признается статистическая незначимость уравнения регрессии.
В экономических исследованиях широкое применение находит такой показатель как
коэффициент эластичности, вычисляемый по формуле:
y
x
Э f x
(14)
Коэффициент эластичности показывает, на сколько процентов изменится результат
Y при изменении фактора X на 1 % от своего номинального значения. Для линейной
регрессии коэффициент эластичности равен:
y
x
Э b
(15)
и зависит от x , поэтому рассчитывают средний коэффициент эластичности по
формуле:
y
x
Э f x
(16)
Средний коэффициент эластичности показывает, на сколько процентов в среднем по
совокупности изменится результат y от своей величины при изменении фактора x на 1
% от своего значения.
Оценка параметров уравнения регрессии производится на основании конечного
числа статистических данных, поэтому сами коэффициенты уравнения регрессии
являются случайными величинами, изменяющимися от выборки к выборке. Более
правильно, с этой точки зрения, характеризовать параметр не только числовым значением
(рассчитанным, например, по МНК), а доверительным интервалом, который покрывает
параметр с некоторой (заданной заранее) вероятностью.
Пусть дана линейная регрессионная модель i i i y B x A
, для параметров
которой (A и B) найдены оценки (a и b). Тогда числовые интервалы, покрывающие
неизвестные параметры (A и B) с вероятностью определяются формулами:
a a a t , k m A a t , k m
(17)
b b b t , k m B b t , k m
(18)
где – a b m и m
– стандартные ошибки параметров уравнения регрессии, a и b –
значения параметров уравнения регрессии, найденные каким-либо способом (например,
МНК), t( , k) – коэффициент Стьюдента для данного уровня надежности (или данного
уровня значимости 1 ) и k n 2– число степеней свободы, n – объем выборки,
т.е. число имеющихся пар данных.
Под прогнозированием в эконометрике понимается построение оценки зависимой
переменной для некоторого набора независимых переменных, которых нет в исходных
наблюдениях.
Различают точечное и интервальное прогнозирование. В первом случае оценка –
некоторое число, а во втором – интервал, в котором находится истинное значение
зависимой переменной с заданным уровнем значимости.
Пусть 0 x x значение воздействующего фактора. Тогда предсказанным значением
является оценка 0 y (точечный прогноз), величину которой найдем из уравнения регрессии
y bx a 0 0 ˆ
.
Ошибка предсказания равна разности между предсказанным и действительным
значениями результативного признака: 0 0 0 yˆ y
.
Ошибка предсказания оценивается по формуле: p
t k m0 0 ( , )
, здесь 0 m –
стандартная ошибка предсказания, вычисляемая по формуле:
2
2
0
0 ( )
1 ( )
1
x x
x x
n
m s
i
ост
. (19)
2
2
n
y y
s i i
ост
(20)
Соответствующий доверительный интервал (интервал прогноза) для прогнозов
индивидуальных значений 0 ˆy
будет определяться по формуле:
0 0 0 0 0 yˆ t(, k) m y yˆ t(, k) m
(21)
Анализ формулы стандартной ошибки предсказания показывает: ширина
доверительного интервала является переменной величиной. Она минимальна при 0x x
и чем больше 0 x отклоняется от выборочного среднего x , тем больше величина ошибки;
чем больше объем выборки n , тем величина ошибки меньше. Прогноз значений по
уравнению регрессии оправдан, если значение объясняющей переменной не выходит за
диапазон ее значений по выборке, поэтому экстраполяция кривой регрессии может
привести к значительной погрешности.
ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ
ЗАДАЧА 1.
1. Для анализа зависимости объема потребления Y (ден.ед.) домохозяйства в
зависимости от располагаемого дохода X (ден.ед.) отобрана выборка объема n 12 ,
результаты которой приведены в таблице:
№ 1 2 3 4 5 6 7 8 9 10 11 12
107 109 110 113 120 121 124 127 129 140 141 143
102 105 108 110 115 118 119 124 131 131 140 144
Необходимо:
найти параметры a и b линейного уравнения парной регрессии ;
найти коэффициент детерминации;
рассчитать линейный коэффициент парной корреляции и оценить тесноту связи,
используя таблицу Чеддока;
найти среднюю ошибку аппроксимации;
построить график линейного уравнения регрессии.
ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ
Данную работу можно выполнить с помощью ППП MS Excel с использованием инструмента анализа данных Сервис/Анализ данных/Регрессия.
1. Откройте MS Excel.
2. Введите данные в виде столбцов.
3. С помощью мастера диаграмм постройте корреляционное поле и сделайте предположение о характере распределения. Ниже приведенный алгоритм построения корреляционного поля для Excel.
3.1. Активизируйте Мастер диаграмм. В главном меню выберите Вставка/Диаграмма (или на панели инструментов Стандартная щелкните по кнопке Мастер диаграмм).
3.2. В появившимся окне выберите Точечная. Щелкните по кнопке Далее.
3.3. В новом диалоговом окне установите флажок размещения в столбцах (строках). Добавьте ряд. Заполните диапазон данных. Далее.
3.4. Заполните параметры диаграммы на разных закладках. Щелкните Далее.
3.5. Укажите место размещения диаграммы. Нажмите Готово.
4. В главном меню выберете последовательно пункты: Сервис – Анализ данных –
Регрессия. (Если в Сервисе нет Анализа данных, необходимо зайти в Надстройки и
установить флажок на Пакет анализа.)
5. Заполните диалоговое окно инструмента Пакета анализа Регрессия.
Входные данные
Входной интервал Y – диапазон (столбец), содержащий данные результативного
признака.
Входной интервал X – диапазон (столбец), содержащий данные факторов
независимого признака.
Метки (да или нет) – флажок, который указывает, содержит ли первая строка названия столбцов или нет. Ставим флажок на Остатках.
В результате выбора ОК получим Итоги регрессионного анализа, содержащие 4 таблицы: Регрессионная статистика, Дисперсионный анализ, Таблица без названия, Вывод остатков.
В этой задаче вам понадобятся данные трех таблиц:
Таблица 1
Регрессионная статистика
Множественный R
0,977535269
R-квадрат
0,955575202
Нормированный R-квадрат
0,951132722
Стандартная ошибка
3,019940539
Наблюдения
12
Таблица 2.
Коэффициенты
Стандартная ошибка
t- статистика
P-Значение
Нижние 95%
Верхние 95%
Y-пересечение
-8,71
8,85
-0,98
0,348651358
-28,45
11,03
Переменная X 1
1,04
0,07
14,66
4,33937E-08
0,89
1,20
Таблица 3.
Наблюдение
Предсказанное Y
Остатки
1
103,1582467
-1,158
2
105,2492571
-0,249
3
106,2947623
1,705
4
109,4312779
0,569
5
116,7498143
-1,750
6
117,7953195
0,205
7
120,9318351
-1,932
8 124,0683507 -0,068
9 126,1593611 4,84
10 137,6599183 -6,660
11 138,7054235 1,295
12 140,7964339 3,204
I. Найти параметры a и b линейного уравнения парной регрессии.
6. Из таблицы 2 из второго столбца находим параметры линейной регрессии a,b .
7. Запишите в бланк отчета уравнение регрессии.
8. Сделайте вывод.
II. Найти коэффициент детерминации;
9. Найдите коэффициент детерминации
2 R из таблицы 1. Значение занесите в бланк
отчета.
10. Сделайте вывод.
III. Рассчитать линейный коэффициент парной корреляции и оценить тесноту
связи, используя таблицу Чеддока.
11. Возвратитесь обратно в тот лист, где размещены исходные данные.
12. В главном меню выберите последовательно пункты: Сервис – Анализ данных –
корреляция. Появится диалоговое окно:
13. Заполните диалоговое окно в соответствии с рисунком. В поле Входной
интервал введите данные столбцов X и Y .
14. Нажмите ОК. Появится новый лист, содержащий таблицу:
Таблица 4.
Столбец 1 Столбец 2
Столбец 1 1
Столбец 2 0,977535 1
15. Из таблицы найдите коэффициент корреляции между величинами X и Y .
16. Сделайте вывод о характере связи.
IV. Найти среднюю ошибку аппроксимации.
Средняя ошибка аппроксимации рассчитывается по формуле (7). Для нахождения
средней ошибки аппроксимации воспользуемся таблицей 3 (Вывод остатков),
расположенной в листе «Регрессия».
17. Скопируйте из таблицы 3 столбец «остатки» i i i e = y yˆ
. Вставьте их рядом с
исходными данными.
18. Дополните таблицу данных столбцом i i e / y
(т.е. необходимо разделить остатки
на соответствующие экспериментальные значения результативного признака).
19. Рассчитайте столбец . Сначала выделите ячейку, в которой хотите разместить
ответ. Затем в главном меню выберите Вставка/функция. В окне Категория выберите
Математические, затем в окне Функция – АBS. Выделите число, для которого хотите
рассчитать абсолютное значение. Щелкните по кнопке ОК.
20. Используя процедуру Автосумма, вычислите среднее значение
i i e / y
. Умножив данное значение на 100%, получим среднюю ошибку аппроксимации:
A 0,01564100%1,564%.
Должна получиться такая таблица:
xi,
руб.
yi,
руб.
ei ei/yi
107 102 -
1,15825
-
0,01136
0,01136
109 105 -
0,24926
-
0,00237
0,00237
110 108 1,70524 0,01579 0,01579
113 110 0,56872 0,00517 0,00517
120 115 -
1,74981
-
0,01522
0,01522
121 118 0,20468 0,00173 0,00173
124 119 -
1,93184
-
0,01623
0,01623
127 124 -
0,06835
-
0,00055
0,00055
129 131 4,84064 0,03695 0,03695
140 131 -
6,65992
-
0,05084
0,05084
141 140 1,29458 0,00925 0,00925
143 144 3,20357 0,02225 0,02225
Среднее значение 0,01564
V. Построить уравнение регрессии
21. Выделите экспериментальные точки на графике. Щелкните правой кнопкой
мышки. В появившимся окне выберите Добавить линию тренда.
22. В диалоговом окне выберите тип линии тренда Линейная. В качестве
дополнительной информации на диаграмме можно отобразить уравнение регрессии и
индекс детерминации
2 R . Нажмите ОК.
23. Сделайте вывод.
ЗАДАЧА 2.
По территориям региона приводятся данные:
Номер региона 1 2 3 4 5 6 7 8 9 10 11 12
Среднедушевой
прожиточный
минимум, в день
одного
трудоспособного,
ден.ед., х
78 82 87 79 89 106 67 88 73 87 76 115
Среднедневная
заработная
плата, ден.ед., у
133 148 134 154 162 195 139 158 152 162 159 173
найти параметры a и b линейного уравнения парной регрессии i i yˆ x
;
найти коэффициент детерминации;
рассчитать линейный коэффициент парной корреляции и оценить тесноту связи,
используя таблицу Чеддока;
оценить статистическую значимость параметров уравнения регрессии, используя
t статистику Стьюдента и путем расчета доверительных интервалов каждого из
показателей с 95% надежностью;
вычислить прогнозное значение 0 y
при прогнозном значении 0 x
, составляющем 110 %
от среднего уровня;
оценить точность прогноза, рассчитав ошибку прогноза и его доверительный
интервал;
полученные результаты изобразить графически и привести экономическое
обоснование.
ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ
Решение задачи в Excel с использованием инструмента анализа данных
Сервис/Анализ данных/Регрессия.
При помощи данного пакета некоторые величины считаются автоматически, а
некоторые необходимо рассчитать самим.
1. Введите данные в виде столбцов.
2. Расположите данные по возрастанию переменой X .
3. В главном меню выберите последовательно пункты: Сервис – Анализ данных –
Регрессия (Если в Сервисе нет Анализа данных, необходимо зайти в Надстройки и
установить флажок на Пакет анализа)
4. Заполните диалоговое окно инструмента Пакета анализа Регрессия.
Входные данные
Входной интервал Y – диапазон (столбец), содержащий данные результативного
признака.
Входной интервал X – диапазон (столбец), содержащий данные факторов
независимого признака.
Метки (да или нет) – флажок, который указывает, содержит ли первая строка
названия столбцов или нет.
В результате выбора ОК получим Итоги регрессионного анализа, содержащие 3
таблицы:
1) Регрессионная статистика; 2) Дисперсионный анализ; 3)Таблица без названия.
В этой задаче вам понадобятся данные двух таблиц (1 и 3).
Выполните первый пункт данной задачи: найдите параметры a и b линейного
уравнения парной регрессии YX .
5. Из таблицы 3 из второго столбца найдите параметры линейной регрессии a и b .
6. Запишите уравнение регрессии в бланке отчета. Сделайте вывод.
Выполните второй пункт. Найдите коэффициент детерминации.
7. Коэффициент детерминации найдите из таблицы 1. Сделайте вывод.
Выполните третий пункт. Рассчитать линейный коэффициент парной
корреляции и оценить тесноту связи, используя таблицу Чеддока.
8. Вернитесь обратно в тот лист, где размещены исходные данные.
9. Выделите пустую клетку, в которой вы хотите разместить коэффициент
корреляции.
10. В главном меню выберите Вставка/функция.
11. В окне Категория выберите Статистические, затем в окне Функция –
КОРРЕЛ. Заполните диалоговое окно. Щелкните по кнопке ОК.
12. Сделайте вывод.
Выполните четвертый пункт. Оцените статистическую значимость параметров
регрессии, используя t статистику Стьюдента и путем расчета доверительных
интервалов каждого из показателей с 95% надежностью.
Воспользуемся статистикой Стьюдента. По условию уровень надежности 95%,
значит, уровень значимости равен 1 95%/100% 0,05.
13. Оцените значимость коэффициентов регрессии с помощью t – статистики
Стьюдента.
1) Выдвигаем нулевую гипотезу 0 H
об отсутствии линейной связи между
переменными X и Y . Конкурирующая гипотеза 1 H – между переменными X и Y
существует линейная связь.
2) Из столбца «t статистика» таблицы 3 находим a t
, b t
.
3) Найдите критическое значение коэффициента Стьюдента табл t
. Выделите клетку, в
которой вы хотите разместить значение табл t
. Выполните последовательно процедуры:
Вставка-функция-статистические-СТЬЮДРАСПОБР. Введите значения уровня
значимости 0,05 и числа степеней свободы k n 2 . Нажмите ОК.
4) Сравните данное значение с фактическими значениями a b t , t
. Сделайте
вывод. Запишите в бланк отчета.
Интервальная оценка коэффициентов линейной регрессии
14. Из столбцов «нижние 95%» и «верхние 95%» таблицы 3 найдите, в каком
диапазоне меняются параметры линейной регрессии a и b . Запишите результат.
Выполните пятый пункт. Вычислите прогнозное значение 0 y
при прогнозном
значении 0 x
, составляющем 110 % от среднего уровня:
15. Найдите среднее значение переменной X любым известным для вас
способом. Вычислите 0 x
.
16. Подставьте значение 0 x
в полученное уравнение регрессии. Найдите прогнозное
значение зависимой переменной. Запишите результат.
Выполните шестой пункт. Оцените точность прогноза, рассчитав ошибку
прогноза и его доверительный интервал.
17. Рассчитайте ошибку прогноза по формуле:
0 табл 0 t m
(22)
здесь табл t
– табличное (критическое) значение t статистики при заданном уровне
значимости 1 и числе степеней свободы k n 2 . 0 m
– стандартная ошибка
предсказания, вычисляемая по формуле:
2
0
0 2
1 ( )
1
( ) ост
i
x x
m s
n x x
(23)
2
2
n
y y
s i i
ост
– стандартная ошибка – находится из таблицы 1 (регрессионная
статистика).
18. Найдите доверительный интервал (интервал прогноза) для прогнозов
индивидуальных значений 0 ˆy
по формуле:
0 0 0 0 0 yˆ y yˆ
19. Полученные данные занесите в таблицу. Сделайте вывод.
Выполните седьмой пункт. Найденное уравнение регрессии изобразить
графически и привести экономическое обоснование.
20. С помощью мастера диаграмм строим график зависимости YX .
1) Активизируйте Мастер диаграмм. В главном меню выберите Вставка/Диаграмма
(или на панели инструментов Стандартная щелкните по кнопке Мастер диаграмм).
2) В появившимся окне выберите Точечная. Нажмите Далее.
3) В новом диалоговом окне установите флажок размещения в столбцах
(строках). Добавьте ряд. Заполните диапазон данных. Далее.
4) Заполните параметры диаграммы на разных закладках. Нажмите Далее.
5) Укажите место размещения диаграммы. Нажмите Готово.
6) Выделите экспериментальные точки на графике. Щелкните правой кнопкой
мышки. В появившимся окне выберите Добавить линию тренда. Нажмите ОК.
21. Сделайте вывод.
_
АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ
ВЫСШЕГО ОБРАЗОВАНИЯ
«ВОЛГОГРАДСКИЙ ИНСТИТУТ БИЗНЕСА»
ЗАДАНИЯ ДЛЯ ЛАБОРАТОРНЫХ ЗАНЯТИЙ
Вид лабораторного занятия: лабораторная работа
Критерии выбора заданий: необходимо выполнить все задания
Требования к содержанию и оформлению письменной работы:
1. Работу следует выполнять с помощью ППП MS Excel, оформлять можно в виде DOC-
файла.
2. На титульном листе должны быть написаны фамилия, имя, отчество студента,
индивидуальный шифр, название дисциплины.
3. Перед решением каждой задачи надо выписывать полностью ее условие.
4. Решение задач следует излагать подробно и аккуратно, объясняя и мотивируя все
действия по ходу решения и делая (если это требуется) необходимые чертежи.
Тема № 3: «Множественная регрессия и корреляция»
Понятие о множественной регрессии
Множественный регрессионный анализ является развитием парного регрессионного
анализа применительно к случаям, когда зависимая переменная гипотетически связана с
более чем одной независимой переменной. Большая часть анализа будет
непосредственным расширением парной регрессионной модели, но здесь возникают ряд
проблем, о которых речь будет идти ниже.
Определение. Зависимость среднего значения какой–либо случайной величины
(результативного показателя) от нескольких других величин (регрессоров, независимых
переменных, аргументов) называется множественной регрессией.
Пример. 1) Урожайность какой–либо зерновой культуры зависит от сорта этой
культуры, от количества внесенных удобрений, состава почвы, количества осадков,
сроков уборки; 2) вес человека зависит от его роста, объема грудной клетки, возраста;
3) производительность труда – от стажа работы, уровня мастерства, автоматизации
производства, электровооруженности предприятия и других факторов.
Можно сказать, что множественная регрессия – это уравнение связи с несколькими
переменными:
( , , ,.., ) 1 2 3 p y f x x x x
(1)
y - зависимая переменная – результативный признак;
p x , x ,.., x 1 2 независимые
переменные, факторы, регрессоры, объясняющие переменные.
Множественная регрессия широко используется в решении проблем спроса,
доходности акций, при изучении функции издержек производства, в макроэкономических
расчетах и в ряде других вопросов эконометрики. Цель множественной регрессии –
построить модель с большим числом факторов, определив при этом влияние каждого из
них в отдельности, а также совокупное воздействие их на моделируемый
показатель. Построение уравнения множественной регрессии начинается с вопроса о
спецификации модели. Суть проблемы спецификации включает в себя два круга вопросов:
– выбор уравнения регрессии;
– отбор факторов.
Выбор уравнения регрессии
Как в парном, так и во множественном регрессионном анализе используются
линейные и нелинейные уравнения регрессии. Наиболее широко используются линейная и
степенная функция, поскольку они имеют четкую интерпретацию параметров.
В линейной множественной регрессии p p yˆ b b x b x ... b x 0 1 1 2 2 параметры при
X называются коэффициентами «чистой регрессии». Коэффициенты «чистой регрессии»
характеризуют среднее изменение результата с изменением соответствующего фактора на
единицу при неизменном значении других факторов, закрепленных на среднем
уровне. Свободный член 0 b
не подлежит экономической интерпретации. Его роль
сводится к тому, что он вбирает в себя информацию о прочих не учитываемых в модели
факторах. Формально его значение предполагает то значение объясняемой переменной,
когда все x 0, что практически не бывает.
Пример. Зависимость расходов на продукты питания по совокупности семей
характеризуется следующим уравнением: 1 2 yˆ 0,5 0,35x 0,73x , здесь y – расходы
семьи за месяц на питание; 1 x – месячный доход на 1 члена семьи; 2 x – размер семьи,
человек. Из данного уравнения следует, что если размер семьи увеличится на одного
человека, то расходы на питание увеличится на 730 руб., когда ежемесячный доход семьи
в расчете на одного человека остается постоянным. Кроме того, если доходы увеличатся
на 1000 руб. на одного члена семьи, то расходы на питание увеличатся на 350 руб.
Функция потребления t C
имеет вид 0 1 2 1
ˆ
t t t C b b R b R
, то есть потребление в
момент времени t зависит от дохода того же периода t R
и от дохода предшествующего
периода t1 R
. Здесь 1 b – краткосрочная предельная срочность к потреблению; 1 2 b b b –
долгосрочная склонность к потреблению.
Функция потребления может рассматриваться в зависимости от прошлых привычек
потребления: 0 1 2 1
ˆ
t t t C b b R b C
. Здесь t1 C
– предыдущий уровень
потребления. Долгосрочная предельная склонность к потреблению вычисляется по
формуле: 2
1
1 b
b
b
.
В степенной функции
bp
p
b b
x yˆ b x 1 x 2 ... x
0 1 2 коэффициенты j b
являются
коэффициентами эластичности. Коэффициенты эластичности показывают на сколько
процентов в среднем изменяется результат с изменением соответствующего фактора на 1
% при неизменности действия других факторов. Этот вид уравнения регрессии получил
наибольшее распространение в производственных функциях, в исследованиях спроса и
предложения.
Проблема отбора факторов в модель
Отбор факторов, включаемых в регрессию, является одним из важнейших этапов
практического использования уравнения регрессии для описания, анализа и
прогнозирования.
При отборе факторов, включаемых во множественную регрессию необходимо
придерживаться следующих требований:
Число объясняющих переменных должно быть в 6–7 раз меньше объема
совокупности, по которой строится регрессия. Если это соотношение нарушено, то
параметры уравнения регрессии становятся статистически незначимыми.
Включаемые во множественную регрессию факторы должны объяснить
вариацию зависимой переменной. Если строится модель с набором p факторов, то для
нее рассчитывается показатель детерминации
2 R , который фиксирует долю объясненной
вариации результативного признака за счет рассматриваемых в регрессии
факторов. Влияние других, не учтенных в модели факторов, оценивается как 2 1 R .
Факторы должны быть количественно измеримы. Если необходимо включить в
модель качественный фактор, то ему нужно придать количественную определенность:
проранжировать его или оценить в баллах.
Факторы не должны быть взаимокоррелированными (интеркоррелированы), и,
тем более, находиться в точной функциональной связи. Считается, что две объясняющие
переменные i x
и j x
явно коллинеарны, то есть находятся между собой в линейной
зависимости, если коэффициент корреляции между ними
0,7
xixj r
. Предпочтение
отдается при этом не фактору, более тесно связанному с результатом, а тому фактору,
который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с
другими факторами.
Пример. Рассмотрим уравнение регрессии себестоимости единицы продукции, руб.,
( y ) от заработной платы работника, руб., ( 1 x ) и производительности труда, единиц в час,
( 2 x ): 1 2 yˆ 22600 5x 10x (2)
Коэффициент регрессии при переменной 2 x показывает, что с ростом
производительности труда на 1 ед. себестоимость единицы продукции снижается на 10
руб. при постоянном уровне оплаты труда. Однако знак – перед параметром 1 x ,
безусловно, нельзя интерпретировать как уменьшение себестоимости при увеличении
оплаты труда, когда производительность остается на том же уровне. Отрицательное
значение коэффициента при 1 x , по всей видимости, свидетельствует о сильной
корреляции между оплатой труда и производительностью.
При дополнительном включении в уравнение регрессии факторов коэффициент
детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не
происходит, и данные показатели практически не отличаются друг от друга, то
включаемый в анализ дополнительный фактор не улучшает модель и является
лишним. Насыщение модели лишними факторами не только не снижает величину
остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к
статистической незначимости параметров регрессии по критерию Стьюдента.
Отбор факторов производится в два этапа. На первом этапе факторы отбираются на
основе качественного теоретико-экономического анализа. На втором – на основе матрицы
показателей корреляции и определения t статистики для параметров регрессии.
Пример. При изучении зависимости y f x, y, z матрица парных коэффициентов
корреляции оказалась следующей:
y x z v
y 1
x 0,8 1
z 0,7 0,8 1
v 0,6 0,5 0,2 1
Анализ данной таблицы показывает, что факторы x и z дублируют друг друга. В
уравнение регрессии целесообразно включать фактор z , а не x , так как корреляция z с
результатом y хотя и слабее, зато слабее межфакторная корреляция.
Определение. Мультиколлинеарность – это коррелированность двух или нескольких
объясняющих переменных в уравнении регрессии.
Мультиколлинеарность может возникнуть вследствие того, что не выполняется
соотношение между числом объясняющих переменных и количеством наблюдений
(объемом выборки) или по причине неправильной спецификации модели.
Недостатки МНК-оценок при наличии мультиколлинеарности
При наличии мультиколлинеарности МНК–оценки формально существуют, но
имеют недостатки:
1) небольшое изменение исходных данных приводит к существенному изменению
оценок регрессии, что делает модель непригодной для анализа и прогнозирования;
2) оценки имеют большие стандартные ошибки, малую значимость, в то время как
модель в целом является значимой и индекс детерминации
2 R имеет высокое значение;
3) наличие коллинеарности затрудняет интерпретацию параметров множественной
регрессии как характеристик факторов в «чистом» виде; параметры линейной регрессии
теряют свой смысл; возможно получение неверного знака у коэффициента регрессии;
4) затрудняется определение вклада каждой из объясняющей переменных в
объяснимую уравнением регрессии дисперсию зависимой переменной.
Обнаружение и устранение мультиколлинеарности
Для обнаружения парной коллинеарности можно использовать матрицу
коэффициентов парной корреляции между факторами:
... ... 1
... ... ... ...
1 ...
1 r ...
R
1
2 1 2
1 2 1
i
x
x
x x
x x x x
x x x
x
p
p
p
j
r
r r
r
(3)
Для оценки мультиколлинеарности факторов может использоваться определитель
матрицы парных коэффициентов корреляции между факторами
Det R
: чем ближе к нулю
определитель матрицы межфакторной корреляции, тем выше мультиколлинеарность
факторов и ненадежнее результаты множественной регрессии.
Для примера рассмотрим модель с тремя объясняющими переменными:
0 1 1 2 2 3 3 yˆ b b x b x b x
Матрица коэффициентов парной корреляции между факторами имеет вид:
1
1
1
3 1 3 2
2 1 2 3
1 2 1 3
x x x x
x x x x
x x x x
x x
r r
r r
r r
R
i j
(4)
Если факторы не коррелируют между собой (идеальный случай), то
( ) 0 x x i j r x x
i j
и определитель матрицы xi x j R
1
0 0 1
0 1 0
1 0 0
det
xi x j R
, если же между факторами
существует полная линейная зависимость (абстракция, идеальный случай), то все
коэффициенты корреляции
( ) 1 x x i j r x x
i j и определитель такой матрицы равен нулю:
0
1 1 1
1 1 1
1 1 1
det
xi x j R
При рассмотрении реальных экономических процессов определитель матрицы
коэффициентов межфакторной корреляции принимает значения
det (0;1)
xix j R
и чем
ближе он к нулю, тем сильнее мультиколлинеарность факторов и ненадежнее результаты
множественной регрессии.
Прежде чем указать основные методы устранения мультиколлинеарности отметим,
что в ряде случаев мультиколлинеарность не является серьезным недостатком, чтобы
прилагать усилия для ее устранения. Ответ на это зависит в основном от цели
исследования.
Если основная задача модели – прогноз будущих значений зависимой переменной,
то при достаточно большом коэффициенте детерминации (>0,9) наличие
мультиколлинеарности зачастую не сказывается на прогнозных качествах модели. Хотя
это утверждение будет обоснованным лишь в том случае, что и в будущем между
коррелированными переменными будут сохраняться те же отношения, что и ранее.
Если же целью исследования является определение степени влияния каждой из
объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности,
приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные
зависмости между переменными. В этой ситуации мультиколлинеарность представляется
серьезной проблемой.
Отметим, что единого метода устранения мультиколлинеарности, пригодного в
любом случае, не существует. Это связано с тем, что причины и последствия
мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.
Методы устранения мультиколлинеарности:
простейшим методом устранения мультиколлинеарности является исключение из
модели одной или нескольких коррелированных переменных.
иногда для уменьшения мультиколлинеарности достаточно увеличить объем
выборки.
в ряде случаев проблема мультиколлинеарности может быть решена путем
изменения спецификации модели: либо изменяется форма модели, либо добавляются
объясняющие переменные, не учтенные в первоначальной модели, но существенно
влияющие на зависимую переменную. Например, для устранения мультиколлинеарности
можно перейти к совмещенным уравнениям регрессии, т.е. к уравнениям, которые не
только отражают влияние факторов, но и их взаимодействие. Например, для уравнения с
тремя объясняющими переменными можно построить следующую модель:
1 1 2 2 3 3 12 1 2 13 1 3 23 2 3 y a b x b x b x b x x b x x b x x
(5)
Рассматриваемая модель включает в себя взаимодействие первого порядка. Можно
включать в модель и взаимодействие более высоких порядков, однако, как правило,
взаимодействие третьего и более высокого порядка оказывается статистически
незначимым. Не всегда оказывается целесообразным включать в модель все факторы и
всех порядков. Если анализ совмещенного уравнения, к примеру, показал значимость
только взаимодействия факторов 1 x и 2 x , то уравнение будет иметь вид:
1 1 2 2 3 3 12 1 2 y a b x b x b x b x x
(6)
Вследствие взаимодействия факторов парные коэффициенты корреляции не могут в
полной мере решать вопрос о целесообразности включения в модель того или иного
фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко
используется в процедуре отсева факторов. Отсев факторов можно проводить и по
критерию Стьюдента для коэффициентов регрессии: из уравнения факторы с величиной
t критерия меньше табличного.
Множественная корреляция
Мерой общего качества уравнения множественной регрессии является коэффициент
(индекс) детерминации:
n
i
i
n
i
i i
yx x
y y
y y
R
n
1
2
1
2
2
...
ˆ
1
1
, (7)
Коэффициент детерминации определяет долю разброса зависимой переменной,
объясняемую полученным (эмпирическим) уравнением регрессии. Или формулу
(8) можно записать в следующем виде:
2
2
2
... 1
1
y
ост
yx xn
R
, (8)
где
n
i
y i y y
n 1
2 2 1
– общая дисперсия результативного признака,
n
i
ост i i y y
n 1
2 2 ˆ
1
– остаточная дисперсия для уравнения множественной регрессии.
Независимо от формы связи показатель множественной корреляции может быть
найден как индекс множественной корреляции, представляющий собой корень
квадратный от коэффициента детерминации:
2
2
... 1
1
y
ост
yx xn
R
, (9)
Индекс множественной корреляции изменяется от 0 до 1. Чем ближе его значение к
1, тем сильнее связь результативного признака со всем набором исследуемых
факторов. Величина индекса множественной корреляции больше или равна
максимального парного индекса корреляции. При правильном включении факторов в
регрессионный анализ величина индекса множественной корреляции будет существенно
отличаться от индекса корреляции парной зависимости. Если же дополнительно
включенные в уравнение множественной регрессии факторы третьестепенны, то индекс
множественной корреляции может практически совпадать с индексом парной корреляции
(различия в третьем, четвертом знаке). Отсюда ясно, что, сравнивая индексы
множественной и парной корреляции, можно сделать вывод о целесообразности
включения в уравнение регрессии того или иного фактора.
Формулу индекса множественной корреляции для линейной регрессии называют
также линейным коэффициентом множественной корреляции или совокупный
коэффициент корреляции. При линейной зависимости индекс множественной корреляции
можно определить через матрицу парных коэффициентов корреляции:
11
... 1
1 r
r
R
yx xn
, (10)
где r – определитель матрицы парных коэффициентов корреляции, 11 r –
определитель матрицы межфакторной корреляции. Для уравнения
y a b x b x b x e m m ... 1 1 2 2 определитель матрицы коэффициентов парной корреляции
примет вид:
... 1
... ... ... ... ...
1 ...
1 ...
1 ...
1 2
2 2 1 2
1 1 2 1
1 2
yx x x x x
yx x x x x
yx x x x x
yx yx yx
m m m
m
m
m
r r r
r r r
r r r
r r r
r
(11)
Определитель более низкого порядка 11 r остается, когда вычеркиваются из матрицы
коэффициентов первый столбец и первая строка, что и соответствует матрице
коэффициентов парной корреляции между факторами:
... 1
... ... ... ...
1 ...
1 ...
1 2
2 1 2
1 2 1
11
x x x x
x x x x
x x x x
m m
m
m
r r
r r
r r
r
(12)
Видно, что величина множественного коэффициента корреляции зависит не только
от корреляции результата с каждым из факторов, но и от межфакторной корреляции. При
трех переменных для двухфакторного уравнения регрессии данная формула совокупного
коэффициента корреляции приводится к следующему виду:
1
1
1
1
1
1
1 2
1 2
2 1 2
1 1 2
1 2
1 2
x x
x x
yx x x
yx x x
yx yx
yx x
r
r
r r
r r
r r
R
, (13)
Индекс множественной корреляции равен совокупному коэффициенту корреляции
не только при линейной зависимости рассматриваемых признаков. Тождественность этих
показателей, как и в парной регрессии, имеет место и для криволинейной зависимости,
нелинейной по переменным. Если уравнение регрессии нелинейно по оцениваемым
параметрам, то эти показатели между собой не тождественны.
Скорректированный индекс множественной регрессии
При расчете индекса множественной корреляции используется остаточная
дисперсия, которая имеет систематическую ошибку в сторону преуменьшения, тем более
значительную, чем больше параметров определяется в уравнении регрессии при заданном
объеме наблюдений n . Если число параметров при i x равно m и приближается к
объему наблюдений, то остаточная дисперсия будет близка к нулю и индекс
множественной корреляции приблизится к единице даже при слабой связи факторов с
результатом. Для того чтобы не допустить возможного преувеличения тесноты связи,
применяется скорректированный индекс множественной корреляции.
Скорректированный индекс множественной корреляции содержит поправку на число
степеней свободы, а именно остаточная сумма квадратов
n
i
i i y y
1
2 ˆ
делится на число
степеней свободы остаточной вариации (n m1) , а общая сумма квадратов
отклонений
n
i
i y y
1
2
– на число степеней свободы в целом по совокупности
n 1 . Формула скорректированного индекса множественной детерминации имеет вид:
n
i
i
n
i
i i
y y n
y y n m
R
1
2
1
2
2
: 1
ˆ : 1
1
(14)
Поскольку
2
1
2
1
2 y yˆ / y y 1 R
n
i
i
n
i
i i
, то величина скорректированного индекса
детерминации можно представить в виде:
1
1
1 1 2 2
n m
n
R R
(15)
Для линейной зависимости признаков скорректированный коэффициент
множественной регрессии определяется по той же формуле, что и индекс множественной
корреляции, т.е. как корень квадратный из
2 R . Отличие состоит лишь в том, что в
линейной зависимости под m подразумевается число факторов, включенных в
регрессионную модель, а в криволинейной зависимости m – это число параметров при x
и их преобразованиях (
2 x , ln x и т.д.), которое может больше числа факторов как
экономических переменных. При заданном объеме наблюдений при прочих равных
условий с увеличением числа независимых переменных (параметров) скорректированный
коэффициент множественной детерминации убывает. Его величина может стать и
отрицательной при слабых связях результата с факторами. В этом случае он должен
считаться равным нулю. При небольшом числе наблюдений нескорректированная
величина коэффициента множественной детерминации имеет тенденцию переоценивать
долю вариации результативного признака, связанную с влиянием факторов, включенных в
регрессионную модель.
Чем больше объем совокупности, по которой исчислена регрессия, тем меньше
различаются показатели
2 R и
2 R . В статистических пакетах прикладных программ в
процедуре множественной регрессии обычно приводится скорректированный
коэффициент (индекс) множественной корреляции (детерминации). Величина
коэффициента множественной детерминации используется для оценки качества
регрессионной модели. Низкое значение коэффициента (индекса) множественной
корреляции означает, что в регрессионную модель не включены существенные факторы –
с одной стороны, а с другой стороны – рассматриваемая форма связи не отражает
реальные соотношения между переменными, включенными в модель. В этом случае
требуются дальнейшие исследования по улучшению качества модели и увеличению ее
практической значимости.
Однако увеличение
2 R при добавлении новой переменной не всегда означает, что ее
коэффициент значимо отличается от нуля. Поэтому увеличение скорректированного
индекса множественной корреляции не означает улучшение спецификации регрессионной
модели, как можно было бы предположить.
Оценка надежности результатов множественной регрессии
Для оценки значимости уравнения регрессии в целом используется F тест.
F тест – оценивание качества уравнения регрессии – состоит в проверке нулевой
гипотезы 0 H
о статистической незначимости уравнения регрессии и показателя тесноты
связи.
Для этого выполняется сравнение фактического или наблюдаемого набл F
и
критического или табличного табл F
значений F критерия Фишера.
набл F
определяется из соотношения значений факторной и остаточной дисперсий,
рассчитанных на одну степень свободы:
m
n m
R
R
D
D
F
ост
факт
набл
1
1 2
2
. (16)
Здесь
m
y y
D
n
i
i
факт
1
2 ˆ
– факторная сумма квадратов, приходящаяся на одну
степень свободы,
1
ˆ
1
2
n m
y y
D
n
i
i i
ост
– остаточная сумма квадратов, приходящаяся на оду
степень свободы,
2 R – коэффициент (индекс) множественной детерминации, m – число
параметров при переменных x (в линейной регрессии совпадает с числом включенных в
модель факторов), n – число наблюдений.
Значение табл F
определяем из таблицы значений F критерия Фишера при уровне
значимости и степенях свободы , 1 1 2 k m k n m . Здесь n - объем выборочных
данных, m - число объясняющих переменных в уравнении регрессии. Нулевая гипотеза
0 H принимается на уровне значимости , если табл набл F F
.
Для оценки статистической значимости найденных МНК параметров уравнения
регрессии j b используется t тест. Выдвигается нулевая гипотеза 0 H о статистической
незначимости, то есть случайной природе показателей. Фактические
(наблюдаемые) значения t критериев находят по формулам:
j
j
b
j
b m
b
t
(17)
где
bi m – средняя квадратическая ошибка коэффициента регрессии i b , она может
быть определена по следующей формуле:
1
1
1
1
2
...
2
...
1
1
R n m
R
m
i m
m
i
x x x x
y yx x
b
(18)
Наблюдаемые значения t критериев сравнивают с критическим значением табл t
,
определяемым по таблице Стьюдента по заданному уровню значимости и по числу
степеней свободы k nm1. Нулевая гипотеза 0 H отклоняется на уровне
значимости , если b табл t t
ш
.
ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ
ЗАДАЧА 1
В таблице представлены данные предприятий: y – фондоотдача, 1 x – среднечасовая
производительность печей, 2 x – удельный вес активной части основных
производственных фондов (числа условные).
номер
наблюдения, i
y x1 x2
1 26 37 39
2 33 33 40
3 24 15 35
4 29 36 48
5 42 26 53
6 24 24 42
7 52 15 54
8 56 33 54
9 26 44 50
10 45 34 53
11 27 63 46
12 54 8 50
13 34 44 43
14 48 43 55
15 45 31 51
1. Рассчитайте параметры линейного уравнения множественной регрессии
0 1 1 2 2 yˆ b b x b x
.
2. Найдите индекс множественной корреляции, индекс множественной
детерминации и скорректированный коэффициент детерминации.
3. Постройте матрицу парных коэффициентов корреляции. Исследуйте модель на
наличие мультиколлинеарности между объясняющими переменными.
4. Проверьте нулевую гипотезу о значимости уравнения с помощью F критерия
на уровне 0,05.
5. Оцените статистическую значимость параметров регрессионной модели с
помощью t критерия на уровне 0,05.
6. Сделайте вывод. Какой экономический смысл имеют коэффициенты регрессии.
ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ
Решение задачи с помощью ППП MS Excel
Предполагается, что объясняемая переменная Y зависит от двух факторов 1 X и 2 X ,
поэтому уравнение регрессии будем искать в виде:
0 1 1 2 2 yˆ b b x b x
,
1. В главном меню выбрать последовательно пункты: Сервис – Анализ данных –
Регрессия
2. Заполнить диалоговое окно инструмента Пакета анализа Регрессия
Входные данные:
Входной интервал Y – диапазон (столбец или строка), содержащий данные
результативного признака. – Необходимо выделить столбец с признаком y .
Входной интервал X – диапазон, содержащий данные факторов независимых
признаков (одновременно выделяются столбцы, содержащие значения факторных
признаков 1 x и 2 x )
Метки (да или нет) – флажок, который указывает, содержит ли первая строка
названия столбцов или нет.
Введите название листа, в котором будут выведены результаты расчета, заполнив
поле Новый рабочий лист.
Нажмите ОК. На отдельном листе появятся итоги регрессионного анализа,
содержащие 3 таблицы:
Регрессионная статистика
Дисперсионный анализ:
Таблица без названия
3. Параметры (коэффициенты) уравнения регрессии находятся в таблице без
названия. Запишите линейное уравнение регрессии в бланк отчета.
4. Из таблицы «Регрессионная статистика» выпишите в бланк отчета значения
индекс множественной корреляции, индекс множественной детерминации и
скорректированный коэффициент детерминации.
5. Найдите матрицу парных коэффициентов корреляции с помощью EXCEL. В
главном меню выбрать последовательно пункты: Сервис – Анализ данных –
Корреляция. Заполнить диалоговое окно ввода данных и параметров вывода: Входной
интервал – следует указать все столбцы, содержащие значения результативного и
факторных признаков. Выходной интервал – достаточно указать левую верхнюю ячейку
будущей матрицы. Нажмите ОК.
6. Выпишите значения коэффициентов парной корреляции и сделайте выводы о
характере связи между результативным признаком Y с каждым из действующих
факторов 1 2 X , X и характере межфакторной связи.
7. Оцените статистическую значимость уравнения в целом. Для оценки качества
уравнения регрессии в целом необходимо проверить значимость индекса детерминации
2 R : проверяется нулевая гипотеза
: 0 2
0 H R
, используется F критерий.
7.1 Наблюдаемое значение критерия набл F
можно взять из таблицы Дисперсионный
анализ.
7.2. Найдите табличное значение критерия Фишера. Выделите клетку, в которой
должно появиться значение F критерия. В главном меню выберите
Вставка/функция. В окне Категория выберите Статистические, затем в окне Функция –
FРАСПОБР. Заполните диалоговое окно. Щелкните по кнопке ОК. Появится табличное
значение критерия Фишера.
7.3. Сравните критическое значение F критерия с наблюдаемым
значением. Сделайте вывод.
8. Для статистической оценки значимости коэффициентов регрессии
( 0 1 2 b , b , b
) используем t статистику Стьюдента. Проверяется нулевая гипотеза
: 0, 0, 0 0 0 1 2 H b b b
. Наблюдаемые значения критерия Стьюдента 0 1 2
, , b b b t t t
можно найти в Таблице.
8.1. Найдите критическое значение коэффициента Стьюдента табл t
. Выделите клетку,
в которой вы хотите разместить значение табл t
. Выполните последовательно процедуры:
Вставка-функция-статистические-СТЬЮДРАСПОБР. Введите значения уровня
значимости 0,05 и числа степеней свободы k n 3. Нажмите ОК.
8.2. Сравните табл t
с наблюдаемыми значениями критерия Стьюдента. Сделайте
вывод о статистической значимости параметров уравнения регрессии.
_
АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ
ВЫСШЕГО ОБРАЗОВАНИЯ
«ВОЛГОГРАДСКИЙ ИНСТИТУТ БИЗНЕСА»
ЗАДАНИЯ ДЛЯ ЛАБОРАТОРНЫХ ЗАНЯТИЙ
Вид лабораторного занятия: лабораторная работа
Критерии выбора заданий: необходимо выполнить все задания
Требования к содержанию и оформлению письменной работы:
1. Работу следует выполнять с помощью ППП MS Excel, оформлять можно в виде DOC-
файла.
2. На титульном листе должны быть написаны фамилия, имя, отчество студента,
индивидуальный шифр, название дисциплины.
3. Перед решением каждой задачи надо выписывать полностью ее условие.
4. Решение задач следует излагать подробно и аккуратно, объясняя и мотивируя все
действия по ходу решения и делая (если это требуется) необходимые чертежи.
Тема № 4: «Временные ряды»
Временные ряды
Изучить экономические и социальные явления в их непрерывном развитии: выявить
закономерности, вскрыть те или иные особенности развития явлений можно, в частности,
при помощи построения и анализа временных рядов.
Определение 1. Временной ряд (ВР), динамический ряд или ряд динамики, – это
совокупность значений какого-либо показателя за несколько последовательных моментов
времени.
В каждом временном ряду имеются два основных элемента: 1) показатель времени t ;
2) величины, характеризующие размер (уровень) развития изучаемого явления y .
Определение 2. Отдельные наблюдения называются уровнями ряда, которые будем
обозначать
y (t 1, 2,3,..., n) t
, где n – число уровней. Например, начальный уровень
ряда 1 y – величина первого показателя ряда; конечный уровень ряда n y
– это величина
последнего члена ряда.
Считают, что значения уровней временных рядов экономических показателей
складываются из следующих составляющих (компонент): тренда, сезонной, циклической
и случайной:
длительные, постоянно действующие факторы оказывают на изучаемое явление
определяющее влияние и формируют основную тенденцию ряда, называемую трендом
T(t) ;
кратковременные, периодические факторы формируют сезонные колебания ряда S(t) ,
период сезонных колебаний не превышает одного года; если период более одного года, то
говорят о наличии циклической составляющей ВР V(t);
случайная компонента (t) отражает влияние не поддающихся учету и регистрации
случайных факторов.
Определение 3. модель, в которой временной ряд представлен как сумма
перечисленных компонент, т.е. y(t) T(t) S(t) V(t) (t) , называется аддитивной.
Определение 4. Модель, в которой временной ряд представлен как произведение
перечисленных компонент, т.е. y(t) T(t) S(t) V(t) (t) , называется
мультипликативной.
Определение 5. Модель, представленная уравнением y(t) T(t) S(t) V(t) (t) ,
называется смешанной.
Выбор одной из двух моделей осуществляется на основе анализа структуры
сезонных колебаний: если амплитуда сезонных колебаний приближенно постоянная,
используют аддитивную модель. Если амплитуда возрастает или уменьшается, то
используют мультипликативную модель.
Основная задача эконометрического исследования временных рядов (ВР) состоит в
выявлении каждой из перечисленных компонент, чтобы использовать полученную
информацию для прогнозирования будущих значений ряда или при построении моделей
взаимосвязи двух или более временных рядов. Важнейшей классической задачей при
исследовании экономических временных рядов является выявление и статистическая
оценка основной T(t) тенденции развития изучаемого процесса и отклонений от нее.
Основные этапы анализа временных рядов:
графическое представление фактических данных и описание поведения временных
рядов;
выделение и удаление закономерных (неслучайных) составляющих временного ряда;
сглаживание и фильтрация: удаление низко- и высокочастотных составляющих ВР;
исследование случайной ) (t составляющей ВР, построение и проверка адекватности
математической модели для ее описания;
прогнозирование развития изучаемого процесса на основе имеющегося временного
ряда (ВР);
исследование взаимосвязи между различными временными рядами.
Среди наиболее распространенных методов анализа ВР выделяют корреляционный и спектральный анализ, модели авторегрессии и скользящей средней.
При наличии во ВР тенденции и циклических колебаний значения каждого последующего уровня зависят от предыдущих.
Определение 6. Корреляционную зависимость между последовательными уровнями ВР называют автокорреляцией уровней. Количественно ее можно измерить с помощью линейного коэффициента корреляции между уровнями исходного ВР и уровнями этого ряда, сдвинутыми на несколько шагов во времени.
Коэффициент автокорреляции строится по аналогии с линейным коэффициентом корреляции и таким образом характеризует тесноту только линейной связи текущего и предыдущего уровней ряда. Для некоторых временных рядов, имеющих сильную нелинейную тенденцию (например, параболу второго порядка или экспоненту), коэффициент автокорреляции уровней исходного ряда может приближаться к нулю. По знаку коэффициента автокорреляции нельзя делать вывод о возрастающей или убывающей тенденции в уровнях ряда.
Определение 7. Число периодов, по которым рассчитываются коэффициенты автокорреляции, называют лагом.
Причины наличия лагов:
1) Психологические причины, которые обычно выражаются через инерцию в поведении людей. Например, люди тратят свои доходы постепенно, а не мгновенно. Привычка к определенному образу жизни приводит к тому, что люди приобретают те же блага в течение некоторого времени даже после паления их реального дохода.
2) Технологические причины. Например, изобретение персональных компьютеров не привело к мгновенному вытеснению ими больших ЭВМ в силу необходимости замены соответствующего программного обеспечения, которое потребовало продолжительного времени.
3) Институциональные причины. Например, контракты между фирмами, трудовые договора требуют постоянства в течение всего времени контракта.
4) Механизмы формирования экономических показателей. Например, инфляция во многом является инерционным процессом; денежный мультипликатор (создание денег в банковской системе) также проявляет себя на определенном интервале.
С увеличением лага число пар значений, по которым рассчитывается коэффициент
автокорреляции, уменьшается. Для обеспечения статистической достоверности
коэффициента автокорреляции используется правило: максимальный лаг должен быть не
больше 4
n
. Если наиболее высоким оказался коэффициент автокорреляции первого
порядка, исследуемый ряд содержит только тенденцию.
Если наиболее высоким оказался коэффициент автокорреляции порядка ,
исследуемый ряд содержит циклические колебания с периодичностью в моментов
времени.
Если ни один из коэффициентов автокорреляции не является значимым, то можно
сделать одно из двух предположений относительно структуры этого ряда:
- ряд не содержит тенденции и циклических колебаний;
- ряд содержит сильную нелинейную тенденцию, для проявления которой нужно
провести дополнительный анализ.
Определение 8. Последовательность коэффициентов автокорреляции уровней
первого, второго и т.д. порядков называют автокорреляционной функцией временного
ряда.
Определение 9. График зависимости ее значений от величины лага (порядка
коэффициента автокорреляции) называется коррелограммой.
Коэффициенты автокорреляции уровней и автокорреляционную функцию
целесообразно использовать для выявления во временном лаге наличия или отсутствия
трендовой компоненты T(t) и циклической компоненты S(t) .
Моделирование тенденции временного ряда
Одним из наиболее распространенных способов моделирования тенденции ВР
является построение аналитической функции, характеризующей зависимость уровней
ряда от времени или тренда. Этот способ называется аналитическим выравниванием ВР.
Зависимость от времени может принимать разные формы, поэтому для ее
формализации можно использовать различные виды функций. Для построения трендов
чаще всего применяются следующие функции:
– линейный тренд
y a bt t ˆ
;
– гипербола t
b
y a t ˆ
;
– экспонента
a bt
t y e ˆ
– показательная функция
t
t yˆ a b
;
– тренд в форме степенной функции
b
t yˆ a t
;
– полином второго порядка
2
1 2 yˆ a b t b t t
.
Параметры, каждого из перечисленных выше трендов можно определить МНК,
используя в качестве независимой переменной время t 1,2,3,...,n , а в качестве зависимой
переменной – фактические уровни ВР t y
. Для нелинейных трендов предварительно
проводят стандартную процедуру их линеаризации. Существует различные способы
определения типа тенденции:
– качественный анализ изучаемого процесса, который предполагает изучение
проблем возможного наличия в исследуемом ВР поворотных точек и изменения темпов
прироста, или ускорение темпов прироста, начиная с определенного момента времени под
влиянием факторов, и т.д.;
– построение и визуальный анализ графика зависимостей уровней ряда от времени;
– расчет некоторых показателей динамики.
В этих же целях можно использовать и коэффициенты автокорреляции уровней ряда:
– если ВР имеет линейную тенденцию, то его соседние уровни t y
и t1 y
тесно
коррелируют. В этом случае коэффициент автокорреляции первого порядка уровней
исходного ряда должен быть высоким.
– выбор наилучшего уравнения в случае нелинейной тенденции осуществляется
путем перебора основных форм тренда, рассчитывая по каждому уравнению
скорректированный коэффициент детерминации
2 R . Выбирается уравнение тренда с
максимальным значением
2 R .
a. Для выбора уравнения тренда возможно использование метода конечных
разностей: так если постоянными по величине являются первые разности ( i i i1 y y
), а
нулевыми вторые разности ( 1 i i i ), то тенденция выражается линейным
уравнением
y a bt t ˆ
; а если примерно одну и ту же величину имеют разности второго
порядка, то тенденция выражается параболой второго порядка;
b. Существует и ряд других признаков, которые могут помочь при выборе
уравнения тренда: если примерно постоянными оказываются темпы роста, то тенденция
моделируется показательной функцией; если первые разности имеют тенденцию
уменьшаться с постоянным темпом, то следует остановиться на модифицируемой
экспоненте
t
t yˆ k a b
; если первые разности обратных значений средних уровней
изменяются на один и тот же процент, то следует остановиться на логистической кривой
(кривой Перла-Рида)
t
t
k a b
y
ˆ
1
или
t at be
k
y
1
ˆ
;
c. Наиболее простой метод выбора кривой роста – визуальный. Подбирают кривую
роста, форма которой соответствует реальному процессу. Если на графике ВР
недостаточно просматривается тенденция развития, то целесообразно провести
сглаживание ряда и затем подобрать кривую, соответствующую новому ряду. При этом
целесообразно использовать современные пакеты компьютерных программ.
d. Прогнозирование ВР целесообразно начинать с построения графика
исследуемого показателя. Однако в нем не всегда прослеживается присутствие тенденции
(тренда). Поэтому в этих случаях необходимо выяснить, существует тенденция во ВР или
она отсутствует. Вопрос о наличии или отсутствии тенденции можно решить с помощью
критерия «восходящих и нисходящих» серий, алгоритм которого будет предложен чуть
ниже;
e. Если уравнение тренда выбрано неверно, то при больших значениях t результаты
анализа и прогнозирования динамики ВР с использованием выбранного уравнения тренда
будут недостоверными вследствие ошибки спецификации.
Например, анализ динамики потребления желчегонных препаратов показывает, что
наилучшей формой тренда является парабола второго порядка, в то время как на самом
деле имеет место линейная тенденция. И при 5 * t t парабола второго порядка
характеризует возрастающую тенденцию в уровнях t y
ВР, а линейная функция –
убывающую.
Критерий «восходящих и нисходящих» серий
1) Выдвигается нулевая гипотеза об отсутствии линии тренда. Конкурирующая
гипотеза – наличие линии тренда.
2) Для исследуемого ВР определяется последовательность знаков, исходя из
условий:
(+), если
0 1 t t y y
,
(–), если
0 1 t t y y
.
При этом, если последующее наблюдение равно предыдущему, то учитывается
только одно наблюдение.
3) Подсчитывается число серий v(n) . Под серией понимается последовательность
подряд расположенных плюсов или минусов, причем один плюс или один минус
считается серией.
4) Определяется протяженность самой длинной серии
( ) max l n
.
5) Значение l(n) находят из следующей таблицы:
Длина ряда, n n 26 26 n 153 153 n 170
Значение l(n) 5 6 7
6) Если нарушается хотя бы одно из следующих неравенств, то гипотеза об отсутствии
тренда отвергается с доверительной вероятностью 0,95
( ) ( )
90
16 29
1,96
3
2 1
( )
lmax n l n
n n
v n
Автокорреляция остатков. Проверка наличия автокорреляции статистических
данных с помощью критерия Дарбина – Уотсона.
1. Суть автокорреляции
При построении регрессионных моделей очень важно соблюдение 4–й предпосылки
МНК – отсутствие автокорреляции остатков, то есть значения остатков i e
распределены
независимо друг от друга. Автокорреляция остатков означает наличие корреляции между
остатками текущих и предыдущих (или последующих) наблюдений.
Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе
при анализе временных рядов. При использовании пространственных данных наличие
автокорреляции встречается довольно редко. В силу этого в дальнейшем вместо символа i
порядкового номера наблюдения будем использовать символ t , отражающий момент
наблюдения. Объем выборки при этом будем символом T вместо n . В экономических
задачах значительно чаше встречается так называемая положительная корреляция нежели
отрицательная.
Чаще всего положительная автокорреляция вызывается направленным постоянным
воздействием некоторых не учтенных в модели факторов. Суть автокорреляции поясним
следующим примером. Пусть исследуется спрос на прохладительные напитки от дохода
по ежемесячным данным. Трендовая зависимость, отражающая увеличение спроса с
ростом дохода, может быть представлена линейным уравнением
y b b x 0 1 ˆ
,
изображенным на рис. 1.
Рис. 1.
Однако фактические точки наблюдений обычно будут превышать трендовую линию
в летние периоды и будут ниже в зимние. Аналогичная картина может наблюдаться и в
макроэкономическом анализе с учетом циклов деловой активности.
Отрицательная корреляция фактически означает, что за положительным
отклонением имеет место отрицательное и наоборот. Возможная схема рассеивания точек
в этом случае представлена на рис. 2. Такая ситуация может иметь место, например, если
ту же зависимость между спросом на прохладительные напитки и доходами
рассматривать по сезонным данным (зима – лето).
Рис. 2.
Причины возникновения автокорреляции
1) Ошибки спецификации. Если не учесть в модели какой-либо важной объясняющей
переменной либо неправильный выбрать форму зависимости, то это может привести к
системным отклонениям точек наблюдений от линии регрессии, что может привести к
автокорреляции. Проиллюстрируем это на следующем примере. Анализируется
зависимость предельных издержек от объема выпуска. Если для ее описания вместо
реальной квадратичной модели
2
0 1 2 yˆ b b x b x
выбрать линейную модель
y b b x 0 1 ˆ
,
то совершается ошибка спецификации. Ее можно рассматривать как неправильный выбор
формы модели или как отбрасывание значимой переменной при линеаризации указанной
модели. Последствия данной ошибки выразятся в системном отклонении точек
наблюдения от прямой регрессии (см. рис. 10.3) и существенным преобладании
последовательных отклонений одинакового знака над соседними отклонениями
противоположных знаков. Таким образом, наблюдается типичная картина, характерная
для положительной автокорреляции.
2) Инерция. Многие экономические показатели (например, инфляция, безработица и
т.п.) обладают определенной цикличностью, связанной с волнообразностью деловой
активности. Действительно, экономический подъем приводит к росту занятости,
сокращению инфляции и т.д. Этот рост продолжается до тех пор изменение конъюнктуры
рынка и ряда экономических показателей не приведет к замедлению роста, затем
остановке и движению вспять рассматриваемых показателей. В любом случае эта
трансформация происходит не мгновенно, а обладает инертностью.
3) Эффект паутины. Во многих сферах экономики экономические показатели
реагируют на изменение экономических условий с запаздыванием. Например,
предложение сельскохозяйственной продукции реагирует на изменение цены с
запаздыванием (равным периоду созревания урожая). Большая цена сельскохозяйственной
продукции в прошлом году вызовет (скорее всего) ее перепроизводство в текущем году, а
следовательно, цена на нее снизится и т.д. В этой ситуации нельзя предполагать
случайность отклонения друг от друга.
4) Сглаживание данных. Зачастую данные по некоторому продолжительному
периоду получают усреднением данных по составляющим его подынтервалам. Это может
привести к определенному сглаживанию колебаний, которые имелись внутри
рассматриваемого периода, что, в свою очередь, может послужить причиной
автокорреляции.
Последствия автокорреляции
Наличие автокорреляции в остатках приводит к тому, что оценки параметров
перестают быть эффективными, оценки дисперсии становятся смещенными и
заниженными, что влечет за собой увеличение t статистик и признание статистической
значимости уравнения регрессии, тогда как в действительности оно таковым не является
и, следовательно, модель нельзя использовать для прогноза.
Графический метод обнаружение автокорреляции
Существует несколько вариантов графического определения автокорреляции. Одни
из них, показывающий зависимость отклонений t e
от момента t их получения, приведен
на рис. 3. Это так называемые последовательно-временные графики. Естественно
предположить, что на рис. 3а-г имеются определенные связи между отклонениями,
т.е. автокорреляция имеет место. Отсутствие зависимости на рис. 3д, скорее всего,
свидетельствует об отсутствии автокорреляции.
Тест Дарбина-Уотсона
Рассмотри уравнение регрессии вида:
t
k
j
i j jt x b a y 1 (1)
где k число независимых переменных модели.
Наиболее известным критерием обнаружения автокорреляции в случае модели
(1) является критерий Дарбина-Уотсона. Для анализа коррелированности отклонений
вместо коэффициента корреляции etet 1 r
используют тесно с ним связанную статистику
Дарбина-Уотсона DW, рассчитываемую по формуле:
T
t
t
T
t
t t
e
e e
DW
1
2
2
2
1 ( )
.
Рис. 3.
Общая схема критерия Дарбина–Уотсона для выявления автокорреляции остатков.
1. Выдвинуть гипотезы: нулевую гипотезу 0 H
об отсутствии автокорреляция и
гипотезы 1 H и 1 H
соответственно о наличии положительной и отрицательной
автокорреляции в остатках.
2. Построить уравнение регрессии и определить значения остатков t e
для каждого
наблюдения t, t 1,2,...,T .
3. По формуле
T
t
t
T
t
t t
e
e e
DW
1
2
2
2
1 ( )
вычислить значение статистики DW .
4. По таблице критических точек Дарбина-Уотсона определить значения критерия
Дарбина-Уотсона l d
(нижнее) и u d
(верхнее) для заданного числа наблюдений n , числа
независимых переменных модели k и уровня значимости . По этим значениям числовой
промежуток 0,4 разбивают на пять отрезков: l 0 DW d
, l u d DW d
,
u u d DW 4 d
, u l 4 d DW 4 d
и l l 4 d DW 4
.
5. Сделать вывод о наличии (или отсутствии автокорреляции) по правилу:
если l 0 DW d
, то существует положительная автокорреляция; гипотеза
0 H
отклоняется и с вероятностью p 1 принимается гипотеза 1 H ;
если l u d DW d
, то попадаем в так называемую зону неопределенности и не имеем
возможности ни опровергнуть, ни принять ни одну из гипотез.
если u u d DW 4 d
, то нет оснований отклонить нулевую гипотезу: автокорреляция
отсутствует;
если u l 4 d DW 4 d
, то попадаем в так называемую зону неопределенности и не
имеем возможности ни опровергнуть, ни принять ни одну из гипотез.
если
4 d DW 4 l , то существует отрицательная автокорреляция: гипотеза
0 H
отклоняется и с вероятностью p 1 принимается гипотеза 1 H
.
Ограничения на применение критерия Дарбина–Уотсона:
1) неприменим к моделям с лаговыми переменными;
2) выявляет автокорреляции только первого порядка;
3) дает достоверные результаты только для больших выборок;
4) применяется только для тех моделей, которые содержат свободный член.
На практике если фактическое значение критерия Дарбина-Уотсона попадает в зону
неопределенности, то предполагают существование автокорреляции остатков и отклоняют
нулевую гипотезу. В ряде случаев устранить автокорреляцию можно путем определения
ответственного за нее фактора или факторов и соответствующего расширения уравнения
регрессии. Можно также изменить формулу зависимости между факторами.
ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ
ЗАДАЧА 1
Для статистических данных, представленных в таблице, проверьте наличие
автокорреляции на уровне значимости 0,05, используя критерий Дарбина –
Уотсона. Сделайте вывод о пригодности полученного уравнения регрессии для
построения прогнозов.
Месяц
Товарооборот, % к
предыдущему месяцу, Х
Доходы населения, % к
предыдущему месяцу, У
Январь 91,5 79,5
Февраль 92,8 100,3
Март 104,3 102,9
Апрель 101,5 106,6
Май 97,9 92,5
Июнь 98,7 110,1
Июль 100,8 96,6
Август 103,7 97,1
Сентябрь 104,6 98,5
Октябрь 100,3 105,7
Ноябрь 101,5 97,4
Декабрь 116,0 129,9
Январь 82,3 63,9
Февраль 91,6 104,3
Март 103,4 101,7
ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ
1. В главном меню выберите последовательно пункты: Сервис – Анализ данных –
Регрессия
2. Заполните диалоговое окно инструмента Пакета анализа Регрессия
Входные данные:
Входной интервал Y – диапазон (столбец или строка), содержащий данные
результативного признака. – Необходимо выделить столбец с признаком y .
Входной интервал X – диапазон, содержащий данные факторов независимых
признаков (одновременно выделяются столбцы, содержащие значения факторных
признаков 1 x и 2 x )
Метки (да или нет) – флажок, который указывает, содержит ли первая строка
названия столбцов или нет.
Введите название листа, в котором будут выведены результаты расчета, заполнив
поле Новый рабочий лист.
Поставьте флажок Остатки
3. Нажмите ОК. На отдельном листе появятся итоги регрессионного анализа,
содержащие 4 таблицы:
Регрессионная статистика
Дисперсионный анализ
Таблица без названия
Вывод остатка
4. Из Таблицы без названия выпишите значения коэффициентов уравнения регрессии
и запишите само уравнение.
5. Из таблицы Вывод остатка скопируйте два столбца «Предсказанное t yˆ
» и
«Остатки t e
» и добавьте их в исходную таблицу данных.
6. Дополните таблицу данных столбцами « t1 e
», «Квадрат разности остатков
2
1 ( ) t t e e
» и «Квадрат остатка
2
t e
».
7. Используя процедуру Автосумма, вычислите нужные суммы
T
t
t
T
t
t t e e e
1
2
2
2
1 ( ) ,
.
В результате выполнения пп.1 - 3 получаем таблицу:
№ t x
t y
Предсказанное t yˆ
Остатки t e
t1 e
2
1 ( ) t t e e
2
t e
1 - -
2
…
Сумма:
8. По формуле
T
t
t
T
t
t t
e
e e
DW
1
2
2
2
1 ( )
вычислите значение статистики DW .
9. По таблице критических точек Дарбина-Уотсона определите значения критерия
Дарбина-Уотсона l d
(нижнее) и u d
(верхнее) для заданного числа наблюдений n , числа
независимых переменных модели k 1 и уровня значимости 0,05 .
10. По этим значениям числовой промежуток 0,4 разбейте на пять отрезков:
l 0 DW d
,
l u d DW d
,
u u d DW 4 d
,
u l 4 d DW 4 d
,
4 d DW 4 l .
11. Определите, какому отрезку принадлежит найденное значение DW и сделайте
вывод.
_
АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ
ВЫСШЕГО ОБРАЗОВАНИЯ
«ВОЛГОГРАДСКИЙ ИНСТИТУТ БИЗНЕСА»
ЗАДАНИЯ ДЛЯ ЛАБОРАТОРНЫХ ЗАНЯТИЙ
Вид лабораторного занятия: лабораторная работа
Критерии выбора заданий: необходимо выполнить все задания
Требования к содержанию и оформлению письменной работы:
1. Работу следует выполнять с помощью ППП MS Excel, оформлять можно в виде DOC-
файла.
2. На титульном листе должны быть написаны фамилия, имя, отчество студента,
индивидуальный шифр, название дисциплины.
3. Перед решением каждой задачи надо выписывать полностью ее условие.
4. Решение задач следует излагать подробно и аккуратно, объясняя и мотивируя все
действия по ходу решения и делая (если это требуется) необходимые чертежи.
Тема № 5: «Обобщенная линейная модель. Гетероскедастичность и автокорреляция
остатков»
Гетероскедастичность остатков. Исследование статистических данных на наличие
гетероскедастичности с помощью теста Голдфелда-Куандта.
1. Анализ поведения остаточных величин регрессии
Свойства оценок коэффициентов регрессии зависят от свойств случайного члена в
регрессионной модели. Рассмотрим некоторые проблемы, возникающие при нарушении
условий Гаусса-Маркова, т.е. при невыполнении предположений относительно
регрессионного остатка. МНК строит оценки регрессии на основе минимизации суммы
квадратов остатков:
2
1
( ˆ ) min
n
i i
i
y y
. Поэтому очень важно уметь исследовать
поведение остаточных величин регрессии i e . Исследование остатков i e предполагает
проверку наличия следующих пяти предпосылок МНК:
случайный характер остатков;
нулевая средняя величина остатков, не зависящая от i x ;
гомоскедастичность, которая означает, что дисперсия для каждого отклонения i
одинакова для всех значений i x ;
отсутствие автокорреляции остатков; значения остатков i e распределены независимо
друг от друга;
остатки подчиняются нормальному распределению.
Если распределение случайных остатков i e не соответствует некоторым
предпосылкам МНК, то следует корректировать модель.
2. Проверка первой и второй предпосылок регрессионного анализа
В первую очередь проверяется первая предпосылка МНК – проверяется случайный
характер остатков. С этой целью строится график зависимости остатков i e от
теоретических значений результативного признака ˆi y . Если на графике нет
направленности в расположении точек i e , то остатки представляют собой случайные
величины и МНК оправдан, теоретические значения ˆi y хорошо аппроксимируют
фактические значения ˆi y . На графике рис. 1. получена горизонтальная
полоса. Следовательно, i e – случайные величины.
Если i e зависят от ˆi y , возможны следующие случаи:
1) остатки неслучайны (рис. 2, 3.а);
2) остатки носят систематический характер (рис. 3б). На данном рисунке
отрицательные значения i e соответствуют низким значениям ˆi y , а положительные –
высоким значениям;
3) остатки не имеют постоянной дисперсии (рис. 3в).
Рис. 1.
Рис. 2.
Рис. 3.
В данных случаях необходимо либо применять другую функцию, либо ввести
дополнительную информацию и заново строить уравнение регрессии до тех пор, пока
остатки не станут случайными величинами.
Вторая предпосылка (нулевая средняя величина остатков) означает, что:
1)
i ( i ˆi ) 0 е y y
для линейных моделей и моделей, нелинейных относительно
включаемых переменных.
i (ln i ln ˆi ) 0 е y y
для моделей, нелинейных по оцениваемым параметрам и
приводимых к линейному виду логарифмированием.
2) i e не зависит от величины x . На рис. 4. графики остатков расположены в виде
горизонтальной полосы, следовательно, i e не зависит от величины x .
Рис. 4.
Если график показывает зависимость i e от величины x , то модель неадекватна.
Причины:
нарушена 3–я предпосылка МНК;
неправильная спецификация модели и в нее требуется ввести дополнительные члены
j x , например,
2
j x , или преобразовать значения y .
Скопление точек в определенных участках значений фактора x говорит о наличии
систематической погрешности модели. Корреляция i e с j x позволяет проводить
корректировку модели, в частности, использовать кусочно-линейные модели.
Совершенно необходимым для получения по МНК состоятельных оценок
параметров регрессии является соблюдение 3–й и 4–й предпосылок.
3. Суть гетероскедастичности
Равенство дисперсий подразумевает, что, несмотря на то, что при каждом
конкретном наблюдении случайное отклонение может быть большим либо малым,
положительным либо отрицательным, не должно быть некой априорной причины,
вызывающей большую ошибку (отклонение) при одних наблюдениях и меньшую – при
других.
Однако на практике гетероскедастичность не так уж и редка. Зачастую есть
основания считать, что вероятностные распределения случайных отклонений при
различных наблюдениях будут различными. Это не означает, что случайные отклонения
обязательно будут большими при определенных условиях и малыми – при других, но это
означает, что априорная вероятность этого велика.
На рис. 5 приведены два примера линейной регрессии – зависимости потребления i y от
дохода i x : i i i y b b x e 0 1 .
Рис. 5.
В обоих случаях с ростом дохода растет среднее значение потребления. Но если на
рис. 5а дисперсия потребления остается одной и той же для различных уровней дохода, то
на рис. 5б при аналогичной зависимости среднего потребления от дохода дисперсия
потребления не остается постоянной, а увеличивается с ростом дохода.
Фактически это означает, что во втором случае субъекты с большим доходом в
среднем потребляют больше, чем субъекты с меньшим доходом, и, кроме того, разброс в
их потреблении более существенен для большего уровня дохода. Фактически люди с
большими доходами имеют больший простор для распределения своего
дохода. Реалистичность данной ситуации не вызывает сомнений. Разброс значений
потребления вызывает разброс точек наблюдения относительно линии регрессии, что и
определяет дисперсию случайных отклонений.
Проблема гетероскедастичности в большей степени характерна для
пространственных данных и довольно редко встречается при рассмотрении временных
рядов. Это можно объяснить следующим образом. В случае пространственных данных
учитываются экономические субъекты (потребители, фирмы, страны и т.п.), имеющие
различные доходы, размеры, потребности и т.д. Но в этом случае возможны проблемы,
связанные с эффектом масштаба. Во временных рядах обычно рассматриваются одни и те
же показатели в различные моменты времени. Однако при уменьшении
(увеличении) таких показателей с течением времени может возникнуть проблема
гетероскедастичности.
4. Последствия гетероскедастичности
Если условие гомоскедастичности не выполняется, то имеет место
гетероскедастичность.
1. Гетероскедастичность в отдельных случаях может привести к смещённости
оценок коэффициентов уравнения регрессии j b .
2. Гетероскедастичность будет сказываться на эффективности коэффициентов
уравнения регрессии j b . Нельзя использовать формулу стандартной ошибки
коэффициентов регрессии
bi m , так как она предполагает единую дисперсию остатков для
любых значений фактора.
Практически нарушение гомоскедастичности означает, что
2 2 i k
i . При этом
величина i k может меняться при переходе от одного значения фактора i x к другому,
т.е. при наличии гетероскедастичности сумма квадратов отклонений имеет вид:
2
.
1
( ) гетер i i
i
S y a bx
k
.
Задача состоит в том, чтобы определить величину i k , т.е. внести поправку в
исходные переменные. С этой целью рекомендуется использовать обобщенный МНК,
который эквивалентен обычному МНК, примененному к преобразованным данным.
5. Обнаружение гетероскедастичности графическим методом
Наличие гетероскедастичности можно наглядно установить с помощью
графического метода. Выводы о наличии гетероскедастичности будут более надежными,
если использовать графики зависимости
2e (x) или e(x) в случае парной регрессии и
график зависимости
2 e ( yˆ) в случае множественной линейной регрессии, так как ˆi y
является линейной комбинацией факторов j x .
Рис. 6.
На рис. 6.а все отклонения
2
i e находятся внутри полуполосы постоянной ширины,
параллельной оси абсцисс. Это говорит о независимости дисперсий
2
i e от значений
переменной X и их постоянстве, т.е. этот случай соответствует гомоскедастичности. На
рис. 6б-г наблюдаются некие систематические изменения в соотношениях между
значениями i x переменной X и квадратами отклонений
2
i e , что отражает проявление
гетероскедастичности.
Отметим, что графический анализ отклонений является удобным и достаточно
надежным в случае парной регрессии. При множественной регрессии графический анализ
возможен для каждой отдельной объясняющей переменной. Чаще же вместо
объясняющих переменных по оси абсцисс откладывают значения ˆi y .
6. Параметрический тест Голдфелда – Куандта
При малом объеме выборки для оценки гетероскедастичности можно использовать
метод Голдфелда – Куандта. Метод разработан в 1965 году на линейной модели, для
которой дисперсия остатков возрастает пропорционально квадрату фактора.
Проверяется нулевая гипотеза 0 H об отсутствии гетероскедастичности
остатков. Конкурирующая гипотеза 1 H – наличие гетероскедастичности остатков.
Необходимо:
упорядочить n наблюдений по мере возрастания переменной x ;
исключить из рассмотрения c центральных наблюдений. При этом
( )
2
n c
p
, где p – число оцениваемых параметров;
построить по каждой из двух разделенных групп из (n c) наблюдений с
малыми и большими значениями фактора уравнений регрессии;
определить остаточные суммы квадратов для первой 1 S и второй 2 S групп (или
по «урезанным выборкам»);
найти наблюдаемое значение критерия ( )
( )
S меньшее
S большее
Fнабл
;
сравнить наблюдаемое значение критерия с табличным
2
2
; 1 2
n c p
F k k
;
сделать вывод: нулевая гипотеза 0 H принимается на уровне значимости ,
если набл табл F F
.
Для случая одного фактора рекомендовано при количестве данных n 20
принимать c 4, при n 30 принимать c 8, а при n 60 принимать c 16 .
Тест Голдфелда – Куандта применяется в том случае, если ошибки регрессии можно
считать нормально распределенными случайными величинами. Критерий Голдфелда –
Куандта используется и при проверке остатков множественной регрессии на
гетероскедастичность. При обнаружении гетероскедастичности остатков ставится цель ее
устранения, чему служит применение обобщенного метода наименьших квадратов
(ОМНК). ОМНК применяется к преобразованным данным и позволяет получить оценки,
которые обладают не только свойством несмещённости, но и имеют наименьшие
выборочные дисперсии.
ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ
ЗАДАЧА 1
Страна Индекс
человеческого
развития,
У
Расходы домашних
хозяйств, % к
ВВП, Х
Австрия 0,904 56,1
Австралия 0,922 61,8
Англия 0,918 64,1
Белоруссия 0,763 59,1
Бельгия 0,923 63,3
Германия 0,906 57,0
Дания 0,905 50,7
Индия 0,545 57,1
Испания 0,894 62,0
Италия 0,900 61,8
Канада 0,932 58,6
Казахстан 0.740 71,7
Китай 0,701 48,0
Латвия 0,744 63,9
Нидерланды 0,921 59,1
Норвегия 0,927 47,5
Польша 0,802 65,3
Россия 0,747 53,2
США 0,927 67,9
Украина 0,721 61,7
Финляндия 0,913 52,9
Франция 0,918 59,9
Чехия 0,833 51,5
Швейцария 0,914 61,2
Швеция 0,923 53,1
Для статистических данных, представленных в таблице, проверьте наличие
гетероскедастичности, используя тест Голдфелда-Куандта на уровне значимости 0,05.
ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ
1. Введите исходные данные.
2. Расположите n наблюдений по мере возрастания переменной x . Для этого на
панели инструментов Стандартная щелкните по кнопке Сортировка по возрастанию.
3. Исключите из рассмотрения примерно c n / 3 центральных наблюдений. При
этом должно выполняться условие
( )
2
n c
p
.
4. Определите остаточные суммы квадратов, то есть суммы квадратов остатков
регрессии по «урезанным выборкам»:
m
i
i i S y y
1
2
1 ˆ
и
n
i m c
i i S y y
1
2
2 ˆ
Вычислите остаточные суммы квадратов средствами Excel. Сначала найдите
остаточные суммы квадратов первой выборки.
4.1. Выделите область пустых клеток (5×2), в которой вы хотите разместить таблицу
с регрессионными параметрами.
4.2. В главном меню выберите Вставка/функция.
4.3. В окне Категория выберите Статистические, затем в окне Функция –
ЛИНЕЙН. Заполните диалоговое окно.
Входные данные
Известные значения Y – диапазон (столбец), содержащий данные результативного
признака выборки 1.
Известные значения X – диапазон (столбец), содержащий данные факторов
независимого признака выборки 1.
Константа – 1.
Статистика – 1.
4.5. Нажмите ОК. В левой верхней ячейке выделенной области появится первый
элемент итоговой таблицы.
4.6. Для раскрытия таблицы данных нажмите F2, затем - вместе клавиши «Сtrl-Shift-
Enter».
Регрессионная статистика будет выводиться в порядке, указанном в следующей
схеме:
Значение коэффициента b Значение коэффициента a
Стандартная ошибка b m
Стандартная ошибка a m
Индекс детерминации
2 R Среднеквадратическое отклонение y
F-статистика Число степеней свободы
Регрессионная сумма квадратов
n
i
i S y y
1
2 ˆ
Остаточная сумма квадратов
n
i
ост i i S y y
1
2 ˆ
Аналогичные процедуры проведите и для второй выборки.
5. Вычислите наблюдаемое значение критерия достоверности ( )
( )
S меньшее
S большее
Fнабл
.
6. Найдите табличное значение критерия Фишера по уровню значимости 0,05 и
степеням свободы 2
2
1 2
n c p
k k
.
6.1. Выделите клетку, в которой должно появиться значение F критерия.
6.2. В главном меню выберите Вставка/функция.
6.3. В окне Категория выберите Статистические.
6.4. Затем в окне Функция выберите FРАСПОБР.
6.5. Заполните диалоговое окно.
6.6. Щелкните по кнопке ОК. Появится табличное значение критерия Фишера.
7. Сравните табличное значение критерия Фишера с наблюдаемым
значением. Сделайте вывод.