Определитель матрицы парных коэффициентов корреляции между факторами равен 0,2, что достаточно близко к 0, следовательно, между оставшимися факторами наблюдается мультиколлинеарность.
Продолжим удаление факторов, являющихся самыми неинформативными, регулярно сопоставляя значения множественного коэффициента корреляции и детерминации (который оценивает качество построенной модели в целом) и проверяя значимость уравнения регрессии.
В следующих таблицах представлены результаты регрессионного анализа после исключения факторов х1, х5, х8, х10.
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,999530603
R-квадрат
0,999061427
Нормированный R-квадрат
0,995307133
Стандартная ошибка
29,05134237
Наблюдения
6
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
4
898372,4
224593,0982
266,111717
0,045939839
Остаток
1
843,9805
843,9804935
Итого
5
899216,4
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Y-пересечение
30538,08691
1623,46624
18,81042319
0,03381216
x1
-26,94728304
1,07745261
-25,01017937
0,02544087
x5
0,007316604
0,00087595
8,352752758
0,07585572
x8
-242,9957642
101,983594
-2,382694665
0,25297163
x10
-81,66075105
21,2523898
-3,842426757
0,16208611
По данным вычислениям уравнение регрессии будет иметь вид:
ŷ =30538,09-26,95*x1+0,007*x5-242.996*x8-81,66*x10.
б) Оценка практической значимости и надежности полученного уравнения.
Для оценки значимости параметров уравнения используется t- критерий Стьюдента. С помощью t-критерия Стьюдента для каждого из оставшихся факторов можно выяснить, формируется ли он под воздействием случайных величин (является ли фактор информативным).
Его можно определить как:
,
где - частный F- критерий Фишера, который определяется по формуле:
,
где - множественный коэффициент детерминации всего комплекса р факторов с результатом;
- тот же показатель детерминации, но без введения в модель фактора xi.
n- число наблюдений;
m- число параметров в модели (без свободного члена).
При этом определяются две гипотезы:
Н0 - коэффициент статистически незначим;
Н1 - коэффициент статистически значим.
Затем сравнивается факторное значение t- критерия, т.е. вычисленное, и табличное, определенное по специальной таблице t-критерия. Если факторное значение окажется больше табличного, то гипотеза Н0 отклоняется и коэффициент признается статистически значимым.
В полученном уравнении tтабл: n-m-1=7-4-1=2, tтабл =4,3
Следовательно коэффициенты при факторах х1, х5 являются статистически значимыми, для них значение t-критерия больше 4,3, следовательно, можно сделать вывод о существенности данных параметров, которые формируются под воздействием неслучайных причин, а коэффициенты при х8, х10, соответственно, незначимы.
P-значение характеризует вероятность случайного характера формирования параметра. Из рассчитанных значений видно, что наибольшей вероятностью случайной природы факторов обладают b8 , поэтому этот фактор можно исключить из уравнения регрессии. Также удаляем фактор b10 (так как он не является значимым).
Проведём анализ данных для оставшихся двух факторов:
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,99242
R-квадрат
0,984897
Нормированный R-квадрат
0,974828
Стандартная ошибка
67,28282
Наблюдения
6
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
2
885635,4
442817,7
97,8175049
0,001856086
Остаток
3
13580,93
4526,978
Итого
5
899216,4
Коэффициенты
Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15