Многомерный регрессионный анализ

 │  N │      y │        x1 │     x2 │     x3 │     x4 │      x5 │

 ├────┼────────┼───────────┼────────┼────────┼────────┼─────────┤

 │  1 │  63.00 │  23102.00 │  60.85 │  32.70 │  55.30 │   87.00 │

 │  2 │  44.50 │   9226.00 │  21.00 │  12.70 │  97.00 │   58.00 │

 │  3 │  46.00 │   4304.00 │  30.80 │   7.50 │  75.20 │  108.00 │

 │  4 │  56.50 │   1169.00 │  29.50 │  35.80 │  59.30 │   71.00 │

 │  5 │  48.50 │   5001.00 │   2.29 │   3.80 │  77.40 │  101.00 │

 │  6 │  47.20 │   8305.00 │   8.48 │   8.10 │  91.20 │   92.00 │

 │  7 │  51.00 │   1058.00 │  35.80 │  22.30 │  87.60 │   98.00 │

 │  8 │  37.00 │    670.00 │  18.50 │  15.10 │  85.20 │   62.00 │

 │  9 │  54.00 │  13704.00 │  35.86 │  37.60 │  69.80 │   73.00 │

 │ 10 │  42.20 │   6380.00 │  19.07 │   4.20 │  80.00 │   91.00 │

 │ 11 │  45.00 │    925.00 │  23.80 │  38.60 │  71.60 │   83.00 │

 │ 12 │  64.50 │    372.00 │  73.95 │  72.20 │  80.00 │   75.00 │

 │ 13 │  60.60 │  50740.00 │  45.37 │  47.90 │  56.50 │   89.00 │

 │ 14 │  52.00 │  32461.00 │  39.50 │  12.60 │  42.10 │   86.00 │

 │ 15 │  53.30 │   7563.00 │  40.40 │  18.50 │  56.00 │   91.00 │

 │ 16 │  57.80 │   8640.00 │  19.60 │  16.60 │  29.20 │   94.00 │

 │ 17 │  53.00 │  10822.00 │  34.60 │  14.40 │  59.50 │  102.00 │

 │ 18 │  61.50 │    348.00 │   5.80 │  18.80 │  63.10 │   83.00 │

 │ 19 │  53.30 │  22936.00 │  14.17 │  11.20 │  50.40 │   93.00 │

 │ 20 │  52.00 │    472.00 │  11.53 │  15.30 │  41.60 │   91.00 │

 │ 21 │  48.50 │   1837.00 │  37.27 │  31.70 │  84.40 │   83.00 │

 │ 22 │  52.30 │  11142.00 │  37.62 │  13.50 │  58.80 │  102.00 │

 │ 23 │  50.60 │   1619.00 │   4.52 │   0.50 │  48.00 │   78.00 │

 │ 24 │  51.00 │   2349.00 │  32.94 │  11.30 │  74.60 │   91.00 │

 │ 25 │  60.80 │   4083.00 │  52.40 │  64.80 │  49.90 │  151.00 │

 └────┴────────┴───────────┴────────┴────────┴────────┴─────────┘


Реализация алгоритма многомерного регрессионного анализа начинается с расчета важнейших статистических характеристик исходной информации и матрицы выборочных парных коэффициентов корреляции.



Рассмотрим более подробно вариационные характеристики переменной у:


      . число наблюдений                         25

      . среднее значение                         52.2440

      . верхняя оценка среднего                  54.5134

      . нижняя оценка среднего                   49.9746

      . среднеквадратическое отклонение           6.6138

      . дисперсия                                43.7425

      . дисперсия (несмещ. оценка)               45.5651

      . среднекв. откл. (несмещ. оценка)          6.7502

      . среднее линейное отклонение               5.0938

      . моменты начальные

      .      2-го поpядка                      2773.1780

      .      3-го поpядка                     1.4943e+05

      .      4-го поpядка                     8.1668e+06

      . моменты центpальные

      .      3-го поpядка                    -2.1613e+01

      .      4-го поpядка                     5.1166e+03

      . коэффициент асимметрии 

      .      значение                            -0.0747

      .      несмещенная оценка                  -0.0796

      .      среднекв. отклонение                 0.4637

      . коэффициент эксцесса   

      .      значение                            -0.0000

      .      несмещенная оценка                   0.2846

      .      среднекв. отклонение                 0.9017

      . коэффициенты вариации 

      .      по pазмаху                           0.5264

      .      сpеднему линейному откл.             0.0975

      .      сpеднеквадp. откл.                   0.1266

      . медиана                                  52.0000

      . мода                                     48.5000

      . минимальное значение                     37.0000

      . максимальное значение                    64.5000

      . размах                                   27.5000







 Проанализируем их.

Средняя продолжительность жизни в странах Африки – 52,244 года. Она вычисляется по формуле средней арифметической невзвешенной:

_

у =       Σуi/n

где n – объем исследуемой совокупности.

Дисперсия в нашем случае равна 43,7425. Она представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины и вычисляется по формуле:

                    _

σ2 = Σ (у I – у )2 / n


Среднее квадратическое  отклонение представляет собой корень второй степени из дисперсии, и в нашем случае σ = 6,6138, то есть значение продолжительности жизни в среднем отклоняется на 6,6138 лет.

А среднее линейное отклонение вычисляется по формуле:

_             _

d = Σ |уi -y| / n,   

которое в нашем случае равно 5,0938 и представляет собой среднюю величину из отклонений вариантов признака от их средней.

Коэффициент вариации среднеквадратического отклонения в исследуемой нами совокупности равен Vσ =  0,1266 или 12,66%, который вычисляется по формуле:

               _

Vσ =  σ / у * 100%.

Коэффициент вариации характеризует не только сравнительную оценку вариации, но и дает характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%, то есть наша совокупность является однородной.

Мода – значение признака, наиболее часто встречающегося в совокупности. Она рассчитывается по формуле:

Мо = уМо  + iМо * (fМо – fМо-1)/(fМо – fМо-1)*(fМо – fМо+1)

То есть по Африке наиболее часто встречающееся значение продолжительности жизни равно 48,5 лет.


Медиана – значение признака, приходящегося на середину ранжированной (упорядоченной) совокупности.

Ме = уМе  + iМе * (0,5 Σf – SМе-1)/fМе.

Таким образом, в нашем  случае в половине стран  Африки  население имеет среднюю продолжительность жизни менее 52 лет,  а  в другой половине  –  более  52 лет.


Начальным моментом порядка k случайной величины х называют математическое ожидание величины хк:

νк  = М (хк),

в частности  ν1 = М (х), ν2  = М (х2).

В нашем случае

начальные моменты равны:

      .      2-го поpядка                      2773.1780

      .      3-го поpядка                     1.4943e+05

      .      4-го поpядка                     8.1668e+06

Центральным моментом порядка k случайной величины х называют математическое ожидание величины (х – (М (х))к, в частности

μ1 = М[х – М (х)] = 0;  μ2 = М[ ( х – М (х))2] = D (х).

В нашем случае центральные моменты равны:

      .      3-го поpядка                    -2.1613e+01

      .      4-го поpядка                     5.1166e+03


Теперь рассмотрим нашу совокупность на предмет симметрии.

Симметричным называется распределение, в котором частоты любых двух вариантов, равностоящих в обе стороны от центра распределения, равны между собой. В статистике для характеристики асимметрии используют показатели асимметрии и эксцесса.

Так как видно, что наша совокупность асимметричная, найдем степень асимметрии. Сперва используем коэффициент асимметрии:

         _

Аs = (у – Мо)/ σ = 0,4637,

что свидетельствует о наличии незначительной правосторонней асимметрии (Аs>0).

Теперь рассчитаем показатель эксцесса:

ЕК = μ4/ σ4 – 3, где  μ4 – центральный момент четвертого порядка.

ЕК  = 0,9017, следовательно, распределение стран Африки по продолжительности жизни является островершинным (ЕК>0).

Кроме того, взглянув на нашу совокупность, можно увидеть, что максимальная продолжительность жизни жителей стран Африки равна уmax=64,5 лет, а минимальная у min=37 лет.

Размах данной совокупности равен уmax  - у min  = 27,5 лет.



Многошаговый регрессионный анализ.

Построим корреляционную модель из исследуемых шести переменных:y,, ,,,.

Присвоим для облегчения обозначений всем переменным порядковые номера: у-1, х1-2, х2-3, x3-4,x4-5,x5-6.


Предварительно, с целью анализа взаимосвязи показателей построена таблица парных коэффициентов корреляции R.

                 

                                    

                                            

┌─────┬───────┬───────┬───────┬───────┬───────┬───────┐

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9



Реклама
В соцсетях
рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать