Область применения - все юридическое пространство. Множественный корреляционный и регрессионный анализ является одним из наиболее эффективных и полезных методов проведения научных исследований, поскольку позволяет (цель): 1) оценить силу связи между изучаемыми переменными (корреляционный анализ); 2) получить форму связи в виде уравнения (регрессионный анализ); 3) его результаты легко интерпретируются (легко определить юридический смысл уравнения). По существу множественный корреляционный и регрессионный анализ является развитием и углублением метода парной корреляции и регрессии.
В ходе применения данного метода устанавливается зависимость «следствия»[71], зависимой переменной (Y)[72] от ряда «причин», независимых переменных (Х)[73]: Y=f(X1,X2…Xn, ε), где f – правило, по которому правая часть уравнения (объясняющие переменные) формирует левую (объясняемую переменную), ε[74] – случайный член. Важно понять, что f в данном случае не предполагает функциональной – однозначной связи, а имеет в виду связь корреляционную, которая может принимать значения от минус единицы до плюс единицы. Следовательно, функциональную связь с некоторой натяжкой можно назвать частным случаем корреляционной, когда коэффициент корреляции r=1 или r=-1. При r=0 связь между переменными отсутствует.
Y=f(X1,X2…Xn,ε) – неопределенная форма связи, используемая в демонстрационных целях. В результате исследования необходимо получить определенное линейное или нелинейное уравнение, например, у=а+b1x1+b2x2…bnxn, где а – свободный член, b – линейные коэффициенты регрессии[75]; у=а+ или у=а· и тому подобные, где присутствуют нелинейные члены.
Важно понимать, что корреляционный и регрессионный анализ дает нам лишь приблизительные оценки силы и формы связи, которые следует проверять на надежность специальными статистическими тестами и устанавливать границы доверительных интервалов, в пределах которых варьируют оцениваемые значения. Например, коэффициент регрессии (b) – это, по сути, выборочное среднее, которое может отличаться от реального показателя в генеральной совокупности. На надежность проверяются все коэффициенты и уравнение в целом.
Следует обратить внимание читателя на весьма тонкий нюанс, который часто игнорируют исследователи. Так, низкие, близкие к нулю значения коэффициента корреляции (r) и его квадрата (r2) – коэффициент детерминации обычно служат основанием для отвержения зависимости между переменными, что может быть ошибкой, если вклад, какого либо фактора в формирование управляемой переменной по определению незначителен. Например, интенсивность курения матери в период беременности влияет на уменьшение веса плода, но курение не является решающим фактором, определяющим вес ребенка - основными здесь служат наследственные факторы. Поэтому будет ошибочным отвергнуть фактор курения в уравнении, определяющем вес плода, несмотря на близкий к нулю коэффициент детерминации.
Особую ценность в уравнении регрессии представляет коэффициент регрессии. Так, в линейном уравнении вида: у=а+bx b – коэффициент регрессии[76], показывающий, на сколько в абсолютном выражении изменится объясняемая переменная игрек при изменении управляющей переменной икс на единицу измерения. То же самое касается любого другого количества управляющих переменных в правой части уравнения. Каждый коэффициент регрессии при каждом икс имеет тот же самый смысл. Ценность коэффициента регрессии заключается еще и в том, что он используется для расчета важнейшего относительного показателя – коэффициента эластичности, показывающего, на сколько процентов изменится зависимая переменная игрек при изменении независимой переменной икс на один процентный пункт.
Решение задач многомерного корреляционного и регрессионного анализа начинается со спецификации модели, то есть подбора переменных и составления таблицы размером n x m, где n – число строк, а m – число столбцов. Таблица может формироваться двумя способами: 1) по временным рядам; 2) кросс-секционным способом для фиксированного временного интервала.
При спецификации модели множественного корреляционного и регрессионного анализа чрезвычайно важно число наблюдений, приходящихся на каждую независимую переменную. Практика показывает, что на каждый икс должно быть не менее 6 наблюдений, что связано с уменьшением числа степеней свободы[77] при увеличении числа независимых переменных. То есть, если в правой части уравнения выделяется две переменных, то в таблице должно быть, по меньшей мере, 12 строк, соответствующих эмпирическим значениям этих переменных. Допустим у вас только 10 наблюдений по годам, тогда, чтобы провести множественный регрессионный анализ, следует увеличить число наблюдений, например, осуществив переход к поквартальным или помесячным данным.
Во множественном регрессионном и корреляционном анализе при отборе переменных нужно учитывать два возможных негативных явления – мультиколлинеарность объясняющих переменных (высокая коррелированность между объясняющими переменными) и гетероскедастичность (отсутствие нормального распределения остатков, что ведет к нарушению второго условия Гаусса-Маркова необходимого для реализации регрессионного анализа, основанного на методе наименьших квадратов).
Присутствие в модели мультиколлинеарных факторов нежелательно по следующим причинам: 1) затрудняется интерпретация коэффициентов регрессии, поскольку в них появляются «примеси» и «чистую» роль каждого интеркоррелированного фактора невозможно определить; 2) снижается надежность параметров (коэффициентов регрессии и свободных членов), возрастают их стандартные ошибки, сами параметры заметно меняются с изменением объема наблюдений не только по числу, но и по знаку.
Для избавления от мультиколлинеарности следует исключить одну из сильно коррелированных независимых переменных. Кроме того, можно использовать метод канонических корреляций (канонический анализ), но при этом мы лишаем себя преимуществ обычного регрессионного анализа.
Далее переходят к непосредственному решению задачи множественного корреляционного и регрессионного анализа. Такие задачи можно решать двумя способами: 1) с использованием специальных компьютерных программ; 2) в ручную. Второй способ в настоящее время представляет интерес только для понимания алгоритма расчетов, но не для практического решения конкретных задач, поскольку ведет к бессмысленной трате времени и ошибкам в расчетах.
Решение задач множественного регрессионного и корреляционного анализа предусмотрено в различных компьютерных программах, начиная от EXCEL. Однако в EXCEL отсутствуют некоторые исследовательские детали, например, не приводятся стандартизованные коэффициенты BETA, позволяющие рассчитать величину влияния каждой факторной переменной (xi) на объясняемую переменную (yi).
Beta=(В·Sx)/Sy, где B – коэффициент регрессии при соответствующей независимой переменной, Sx – стандартное отклонение по соответствующей независимой переменной (X1, X2…Xn) – по её столбцу, Sy – стандартное отклонение по столбцу зависимой переменной. Программа выдает бету автоматически, но обычно не выдает коэффициент степени влияния каждой независимой переменной на Y, а сравнивать влияние по разному масштабированных величин, используя коэффициент регрессии B недопустимо. Бета коэффициент – это стандартизованные коэффициенты регрессии, которые можно сравнивать между собой, используя формулу: Кi=, где Кi – степень влияния i-ой экзогенной (независимой) переменной на эндогенную (зависимую) переменную, R2 – коэффициент детерминации.
3. Неравенство в распределении доходов населения, как фактор, влияющий на динамику преступности[78].
Пусть нас интересуют частоты умышленных убийств в Российской Федерации, и мы хотим выяснить, какие факторы (независимые переменные) определяют их. Выражаясь не совсем точно, но понятно, скажем так – умышленные убийства – это следствие, а каковы же их причины? Можно предположить, что причин здесь достаточно много или, говоря точнее, бесконечное множество. Здесь мы опираемся на известный философский принцип всеобщей связи. Однако такой философский подход совершенно непродуктивен, и нам нужно воспользоваться искусством моделирования, свести число объясняющих переменных до вполне обозримого количества. В данном случае мы введем всего одну объясняющую переменную (х) – коэффициент Джини.
Умышленные убийства более или менее надежно регистрируются официальной российской статистикой, а расчет коэффициента Джини достаточно прост и лучше других показателей измеряет уровень неравенства в обществе (например, размах вариации доходов покажет лишь соотношение крайних значений и совершенно ничего не скажет об остальном распределении; фондовый коэффициент покажет лишь соотношение между верхней и нижней десяти процентными группами). В итоге, действительно, была установлена очень тесная связь (близкая к функциональной) между динамикой коэффициента Джини (независимая переменная) и динамикой умышленных убийств в Российской Федерации в 90-е годы ХХ столетия.
Умышленные убийства в РФ = -5971,66 + 92615 × коэффициент Джини (уравнение регрессии), R = 0,976 (коэффициент корреляции); R2 = 0,95 (коэффициент детерминации); F(1, 8) = 158,5. Вероятность ошибки по коэффициенту регрессии (92615) равна нулю. Свободный член в уравнении криминологического смысла не имеет (со знаком минус). F-статистика (статистика Фишера) говорит о высокой надежности полученного уравнения. Коэффициент корреляции округленно составляет 98%.
Таблица №1.
Исходные данные
Годы |
Коэффициент Джини по Российской Федерации |
Умышленные убийства в Российской Федерации, ед. |
1990 |
0,218 |
15600 |
1991 |
0,26 |
16200 |
1992 |
0,318 |
23000 |
1993 |
0,398 |
29200 |
1994 |
0,409 |
32300 |
1995 |
0,381 |
31700 |
1996 |
0,375 |
29400 |
1997 |
0,381 |
29300 |
1998 |
0,398 |
29600 |
1999 |
0,394 |
31100 |
Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54