МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ ИДЕИ МЕТОДА

Исходным положением линейного МРА является возможность представления значений «зависимой» переменной У через значения «независимых» переменных х_ь х₂, ..., х_Р в виде линейного уравнения:

У= Ь + Ь_хх_х + Ь₂х₂ + ... +Ь_рхр + е,

где Ъ — свободный член (1п1егсер1), Ь,, ..., Ь_Р — Ь — коэффициенты регрессии

(ШзШпйагсНгей Сое/раеМз), е — ошибка оценки (КезШиаI). Коэффициенты регрессии вычисляются методом наименьших квадратов при решении системы из линейных уравнений, с минимизацией ошибки е.

После вычисления регрессионных коэффициентов по значениям независимых переменных для каждого из объектов могут быть вычислены оценки зависимой переменной У(РгесИс(ес1 Уа1иез)\

У= Ь + Ь_хх_х + Ь₂х₂ + ...+Ь_Рх_Р. (15.2)

Сопоставление значений зависимой переменной У₁ с их оценками У₍ по выборке испытуемых, для которых значения У₁ известны, называется анализом остатков или ошибок (гезШиа1 апа/узи). Он позволяет оценить возможные погрешности предсказания. Значения оценок У₍ могут быть вычислены и для испытуемых, истинные значения зависимой переменной для которых неизвестны.

Далее можно вычислить коэффициент корреляции Пирсона между известными значениями «зависимой» переменной и ее оценками. Это один из способов получения коэффициента множественной корреляции (КМК) между «зависимой» и «независимыми» переменными. Коэффициент множественной корреляции — это мера линейной связи одной переменной с множеством других переменных; принимает положительные значения от 0 (отсутствие связи) до 1 (строгая прямая связь). КМК наряду с разностями между исходными и оцененными значениями «зависимой» переменной (ошибки е) — основные показатели качества модели множественной регрессии.

Если «зависимая» и «независимые» переменные представлены в ^значениях, то уравнение регрессии принимает вид:

Г_г=р₁х, + р₂х₂+... +$рХр+е, (15.3)

где Р/,— стандартные коэффициенты регрессии, или р-коэффициенты (8Шпйагй1гей Сое$1аеМ5).

Стандартные коэффициенты регрессии связаны с исходными корреляциями следующим уравнением (в матричной форме):

В=К~^{^[17]}А, (15.4)

где В — вектор-столбец стандартных коэффициентов регрессии, К~^{ — матрица, обратная корреляционной матрице «независимых» переменных, А — вектор-столбец корреляций «независимых» переменных с «зависимой» переменной. На практике регрессионный анализ начинается именно с вычисления стандартных коэффициентов регрессии.

Напомним, что в случае двумерной регрессии — при наличии всего одной независимой переменной, уравнение 15.3 имеет вид:

V- = г •х

^ I Ху I '

то есть стандартный коэффициент регрессии равен коэффициенту корреляции зависимой и независимой переменных. При наличии двух и более независимых переменных:

1Рх1 < К\

и р-коэффициент зависит не только от корреляции данной независимой и зависимой переменных, но и от того, коррелирует ли эта независимая переменная с другими независимыми переменными. Знак р-коэффициента соответствует знаку коэффициента корреляции данной «независимой» и «зависимой» переменной. Абсолютная величина Р-коэффициента является максимальной — равна коэффициенту корреляции с зависимой переменной, если данная независимая переменная не коррелирует ни с одной из других независимых переменных. Чем сильнее данная независимая переменная связана с другими независимыми переменными, тем меньше р-коэффициент.

Произведение коэффициента р, на коэффициент корреляции г_!У этой переменной с «зависимой» переменной — это вклад данной переменной в дисперсию «зависимой» переменной. Ясно, что вклад переменной выше, если ее корреляция с зависимой переменной выше, а с другими независимыми переменными — ниже. Поэтому ценность независимой переменной для множественной регрессии определяется не только ее корреляцией с зависимой переменной (как в двумерной регрессии), но и ее «уникальностью» — слабой связью с другими независимыми переменными.

Если «зависимая» переменная представлена в г-значениях (дисперсия равна 1), то эта единичная дисперсия «зависимой» переменной Б_у может быть выражена формулой:

Часть дисперсии «зависимой» переменной, обусловленная влиянием «независимых» переменных, — это коэффициент множественной детерминации (КМД), который равен коэффициенту множественной корреляции в квадрате или К¹:

1СМД =/г² = = 1- А-

Соответственно, второй способ вычленить КМК:

Интерпретация КМД очевидна: это та часть дисперсии «зависимой» переменной, которая определяется «независимыми» переменными. Следовательно, (1 - КМД) — это дисперсия ошибки оценки. Например, если КМК = 0,8, то КМД = (КМК)² = 0,64. Это означает, что 64% дисперсии «зависимой» переменной определяется исходными переменными, а 36% ее дисперсии относится к ошибке оценки.

Таким образом, основной показатель МРА — коэффициент множественной корреляции (К), который, подобно парному коэффициенту корреляции Пирсона, является мерой линейной взаимосвязи одной переменной с совокупностью других переменных. КМК «зависимой» переменной с набором «независимых» переменных, как и КМД, принимает только положительные значения, изменяясь в пределах от 0 до 1. Статистическая значимость КМК определяется по критерию /^-Фишера для соответствующих степеней свободы.

Таким образом, основными целями МРА являются:

1. Определение того, в какой мере «зависимая» переменная связана с совокупностью «независимых» переменных, какова статистическая значимость этой взаимосвязи. Показатель — коэффициент множественной корреляции (КМК) и его статистическая значимость по критерию ^-Фишера.

2. Определение существенности вклада каждой «независимой» переменной в оценку «зависимой» переменной, отсев несущественных для предсказания «независимых» переменных. Показатели — регрессионные коэффициенты их статистическая значимость по критерию /-Стыодента.

3. Анализ точности предсказания и вероятных ошибок оценки «зависимой» переменной. Показатель — квадрат КМК, интерпретируемый как доля дисперсии «зависимой» переменной, объясняемая совокупностью «независимых» переменных. Вероятные ошибки предсказания анализируются по расхождению (разности) действительных значений «зависимой» переменной и оцененных при помощи модели МРА.

4. Оценка (предсказание) неизвестных значений «зависимой» переменной по известным значениям «независимых» переменных. Осуществляется по вычисленным параметрам множественной регрессии.

Не нашли, что искали? Воспользуйтесь поиском по сайту: