Многомерный регрессионный анализ

  -единичная матрица размерности (nxn).

 

 

Оценки неизвестных параметров  находятся методом наименьших квадратов, минимизируя скалярную сумму квадратов   по компонентам вектора β.

Далее подставив выражение

    в ,

 

получаем скалярную сумму квадратов 

 

 

Условием обращения полученной суммы в минимум является система нормальных уравнений:

 

,  (j=0,1,2,…,k) .

 

В результате дифференцирования получается:


.

 

При замене вектора неизвестных параметров β на оценки, полученные методом наименьших квадратов, получаем следующее выражение:


.

 

Далее умножив обе части уравнения слева на матрицу , получим


 

Так как  , тогда .

Полученные оценки вектора b являются не смещенными и эффективными.

Ковариационная матрица вектора b имеет вид:


,  где  - остаточная дисперсия.

 

Элементы главной диагонали этой матрицы представляют собой дисперсии вектора оценок b. Остальные элементы являются значениями коэффициентов ковариации:


,   где      , .

 

Таким образом, оценка  - это линейная функция от зависимой переменной. Она имеет нормальное распределение с математическим ожиданием  и дисперсией .

Несмещенная оценка остаточной дисперсии  определяется по формуле:


, где n – объем выборочной совокупности;

                                                               k – число объясняющих переменных.


Для проверки значимости уравнения регрессии используют F-критерий дисперсионного анализа, основанного на разложении общей суммы квадратов отклонений на составляющие части:

 

 , где   - сумма квадратов отклонений (от нуля),   обусловленная регрессией;

                                       - сумма квадратов отклонений                                                                                  фактических значений зависимой переменной  от расчетных , т.е. сумма квадратов отклонений относительно плоскости регрессии, обусловленное воздействием случайных и неучтенных в модели факторов.

Для проверки гипотезы  используется величина  , которая имеет F-распределение Фишера-Снедекора с числом степеней свободы   и   . Если  , то уравнение регрессии значимо, т.е. в уравнении есть хотя бы один коэффициент регрессии, отличный от нуля.

В случае значимости уравнения регрессии проверяется значимость отдельных коэффициентов регрессии. Для проверки нулевой гипотезы    используется величина


 , которая имеет F-распределение Фишера-Снедекора с числом степеней свободы       и   ;  - соответствующий элемент главной диагонали ковариационной матрицы.

Коэффициент регрессии  считается  значимым, если   . Для значимых коэффициентов регрессии  можно построить доверительные интервалы, используя формулу

 , где  находится по таблице распределения Стьюдента для уровня значимости  и числа степеней свободы  .























В многошаговом регрессионном анализе наиболее известны три подхода:

1.              Метод случайного поиска с адаптацией.  Осуществляется путем построения нескольких уравнений регрессии на основе формально разработанного принципа включения факторов и последующего выбора лучшего уравнения с точки зрения определенного критерия.

2.              Метод включения переменных, основанный на построении уравнения регрессии по одному значимому фактору и последовательном добавлении всех остальных статистически значимых переменных путем расчета частных коэффициентов корреляции и F-критерия при проверке значимости вводимого в модель фактора.

3.              Метод отсева факторов по t-критерию. Данный метод заключается в построении уравнений регрессии по максимально возможному количеству объясняющих переменных и последующем исключении статистически не существенных факторов.



Метод отсева факторов по t-критерию


Наиболее оправданным является использование многошагового регрессионного анализа, основанного на оценке значимости коэффициентов регрессии с помощью t-критерия Стьюдента. Данный метод и был использован при анализе продолжительности жизни населения стран Африки в данной курсовой работе,  потому что его применение четко формализовано, и в то же время на различных стадиях построения модели можно производить качественный экономический анализ.  Рассмотрим его более подробно.

Итак, на первом этапе строится уравнение регрессии по переменным, предположительно влияющим на исследуемую зависимую переменную. Затем с помощью определенных критериев исключаются те переменные, которые оказывают статистически несущественное влияние. На этом подходе основан метод отсева факторов по t-критерию в многошаговом регрессионном анализе.

Применение t-критерия при отборе существенных факторов основано на следующей предпосылке регрессионного анализа: если выполняется условие, что Ei распределены нормально, то величина  распределена по закону Стьюдента с n = n-k-1 степенями свободы. По этому критерию можно проверить гипотезу о существенном отличии от нуля коэффициента регрессии bj  при некотором заданном уровне значимости и n-k-1 степенях, то коэффициент регрессии bj  признается значимым.

Простейшая схема проверки сводится к построению доверительного интервала для каждого коэффициента регрессии и проверке гипотезы о том, находится ли нуль внутри построенного интервала. Если это так, то данный коэффициент регрессии признается незначимым или же его значимость подвергается сомнению и выявляется на следующих этапах анализа.

Схема отбора значимых факторов в уравнение регрессии с помощью t-критерия выглядит следующим образом. Если все коэффициенты регрессии значимы, то уравнение регрессии признается окончательным и принимается в качестве модели исследуемого признака для последующего анализа. Если же среди коэффициентов регрессии имеются незначимые, то соответствующие объясняющие переменные следует исключить из уравнения.

Однако предварительно следует проранжировать коэффициенты регрессии по величине tH и в первую очередь отсеять тот фактор, для которого коэффициент регрессии незначим и tH  имеет наименьшее значение. Затем уравнение регрессии пересчитывается снова (уже без исключенного фактора), и производится оценка коэффициентов регрессии по t-критерию. Такую процедуру повторяют до тех пор, пока все коэффициенты регрессии в уравнении не окажутся значимыми.

При этом на каждом шаге, кроме формальной статистической проверки значимости коэффициентов регрессии, проводится экономический анализ несущественных факторов и устанавливается порядок их исключения. В некоторых случаях значение tH находится вблизи tкр, и, с точки зрения содержательности модели, этот фактор можно оставить для последующей проверки его значимости в сочетании с другим набором факторов. Возможность такого экономического анализа при формальной статистической процедуре отсеивания незначимых факторов по t-критерию является большим преимуществом этого метода многошагового регрессионного анализа.

Вместе с тем следует отметить, что несущественность коэффициента регрессии по t-критерию не всегда является надежным основанием для исключения переменной из дальнейшего анализа. Поэтому в ряде случаев для проведения многошагового регрессионного анализа с помощью t-критерия предполагается использовать некоторые дополнительные эмпирические процедуры. Например, исключать переменную из уравнения регрессии лишь в том случае, когда средняя квадратическая ошибка коэффициента регрессии превышает абсолютный размер вычисленного коэффициента, то есть когда tH  по абсолютной величине меньше единицы. При этом предполагается, что нет достаточных логических оснований для того, чтобы оставлять такую переменную в модели.













































Практическая часть.


Вариационные характеристики.



Для изучения корреляционного и регрессионного анализа в более подробном разрезе  была взята совокупность стран Африки.

Задачей проводимого исследования является выявление и изучение зависимости данных экономических явлений.

 При проведении данного исследования была взята  совокупность, состоящая из  25 стран Африки:

Алжир, Ангола, Генин, Ботсвана, Бурунди, Буркина Фасо, Габон, Гамбия, Гана,  Гвинея, Гвинея-Бисау,  Джибути,  Египет,  Заир,  Замбия, Зимбабве,  Кабо-Верде,  Кения, Коморские острова, Конго, Кот-д’Ивуар,  Лесото, Либерия, Ливия.

Характеризующими являются следующие признаки: средняя продолжительность жизни (лет), численность населения (тыс. человек), доля городского населения (%), число медицинских работников на 10 тысяч населения (чел.), доля неграмотных (%), среднегодовой индекс роста производства продовольствия (%).

Но для упрощения  проведения расчетов и всего исследования, а также выявления связи  стоит  разделить вышеописанные  признаки на  факторный и результативные и заменить их условными переменными (у, х1, х2, х3, х4, х5):

 результативный признак (у) представляет собой среднюю продолжительность жизни (лет); 

факторные признаки (х):

х1: численность населения (тыс. человек);

х2: доля городского населения (%);

х3: число медицинских работников на 10 тысяч населения (чел.);

х4: доля неграмотных (%);

х5: среднегодовой индекс роста производства продовольствия (%).


  Начальные данные представлены в таблице:    

  

 ┌────┬────────┬───────────┬────────┬────────┬────────┬─────────┐

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9



Реклама
В соцсетях
рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать