Сделай Сам Свою Работу на 5

Сравнение корреляций для зависимых выборок





В данном случае предполагается сравнение корреляции Хи У с корреляци­ей Л'и 2 при условии, что все три признака измерены на одной и той же вы­борке. Проверяемая Н0 содержит утверждение о равенстве соответствующих корреляций.

ПРИМЕР 10.3_____________________________________________________________________

Сравнивалась прогностическая эффективность двух шкал вступительного теста в отношении предсказания среднего балла отметок студентов 2 курса. На выборке в 95 студентов корреляция результатов тестирования и среднего балла отметок со­ставила: для первой шкалы: г, = 0,60; для второй шкалы: г2 = 0,46; корреляция ре­зультатов двух тестов: гп = 0,70. Можно ли утверждать, что прогностическая цен­ность первой шкалы достоверно выше, чем второй?

Для статистической проверки подобных гипотез применяется 2Г-критерий, эмпирическое значение которого вычисляется по формуле:

г (10 5)

^(1 -4)2 +(1 -гД)2 -{пхугх,){\-г1-г1 -г>)

ПРИМЕР 10.3 (продолжение)_______________________________________________________

Проверим гипотезу о различии коэффициентов корреляции (а = 0,05).

Ш а г 1. Вычислим эмпирическое значение ^-критерия по формуле 10.5: 2, = 2,119.

Ш а г 2. Определим р-уровень значимости. По таблице стандартных нормальных вероятностей (приложение 1) определяем площадь справа от табличного I, ближай­шего меньшего Справа от г = 2,11: Р— 0,0174. Уровень значимости определяется по формуле р < 2Р. Следовательно, р < 0,035.



Ш а г 3. Принимаем статистическое решение и формулируем содержательный вы­вод. Статистическое решение: отклоняем Н0 (о равенстве корреляций в генераль­ной совокупности). Содержательный вывод: корреляция второй шкалы теста стати­стически достоверно ниже корреляции первой шкалы со средним баллом отметок студентов 2-го курса (р < 0,05) — прогностическая ценность первой шкалы выше, чем второй шкалы.

Отметим, что для решения такой задачи можно было бы рассматривать вы­борки как независимые и применять соответствующий метод сравнения кор­реляций — по формулам 10.3 и 10.4. Но чувствительность (мощность) такой проверки была бы гораздо ниже. В частности, применяя к данным примера 10.3 предыдущий метод, мы получим р = 0,18, что приводит к принятию Н0.

КОРРЕЛЯЦИЯ РАНГОВЫХ ПЕРЕМЕННЫХ



Если к количественным данным неприменим коэффициент корреляции г- Пирсона, то для проверки гипотезы о связи двух переменных после предвари­тельного ранжирования могут быть применены корреляции г-Спирмена или т-Кендалла.

г-Спирмена. Этот коэффициент корреляции вычисляется либо путем при­менения формулы г-Пирсона к предварительно ранжированным двум пе­ременным, либо, при отсутствии повторяющихся рангов, по упрощенной формуле:

Х

Г, =1-------- Ц--------

Поскольку этот коэффициент — аналог /--Пирсона, то и применение /--Спирмена для проверки гипотез аналогично применению /--Пирсона, изло­женному ранее[13].

Преимущество г-Спирмена по сравнению с /--Пирсона — в большей чув­ствительности к связи в случае:

□ существенного отклонения распределения хотя бы одной переменной от нормального вида (асимметрия, выбросы);

□ криволинейной (монотонной) связи.

Недостаток г-Спирмена по сравнению с г-Пирсона — в меньшей чувстви­тельности к связи в случае несущественного отклонения распределения обе­их переменных от нормального вида.

Частная корреляция и сравнение корреляций применимы и к /--Спирмена.

т-Кендалла. Применяется к предварительно ранжированным данным как альтернатива /--Спирмена. т-Кендалла, как отмечалось в главе 6, имеет более выгодную, вероятностную интерпретацию. Общая формула для вычисления г-Кендалла, вне зависимости от наличия или отсутствия повторяющихся ран­гов (связей):

Р-0

4[М(М -1) / 2]- Кх ^[N(N-1)/2]- Ку

где Р — число совпадений, С? — число инверсий, Кхи Ку — поправки на связи в рангах (см. главу 6: Проблема связанных (одинаковых) рангов). Если связей в рангах нет, то знаменатель формулы равен Р+ 0 = N(N~ 1 )/2.



Поскольку природа г-Кендалла иная, чем у /--Спирмена и /--Пирсона, то р-уровень определяется по-другому: применяется ^-критерий и единичное нормальное распределение. Эмпирическое значение вычисляется по формуле:

1^-аН (1„.6)

При вычислениях «вручную» /ьуровень определяется по следующему ал­горитму:

а) вычисляется эмпирическое значение 1Э;

б) по таблице «Стандартные нормальные вероятности» (приложение 1) определяется теоретическое значение г, ближайшее меньшее к эмпири­ческому значению гэ;

в) определяется площадь Р под кривой справа от гт;

г) вычисляется р-уровень по формуле р < 2Р.

Проверяемая статистическая гипотеза, порядок принятия статистическо­го решения и формулировка содержательного вывода те же, что и для случая /•-Пирсона или /--Спирмена.

При вычислениях на компьютере статистическая программа (8Р58,81а(лз1:1са) сопровождает вычисленный коэффициент корреляции более точным значени­ем р-уровня.

ПРИМЕР 10.4____________________________________________________________________

Предположим, для каждого из 12 учащихся одного класса известно время решения тестовой арифметической задачи в секундах (X) и средний балл отметок по мате­матике за последнюю четверть (У). При подсчете т-Кендалла были получены сле­дующие результаты: Р= 18; <2= 48; т = —0,455. Проверим гипотезу о связи времени решения тестовой задачи и среднего балла отметок по математике.

Ш а г 1. Вычисляем эмпирическое значение критерия:

|18-48|-1 г 1 1 — = 1,989 .

' 712(12-1)(2'12 + 5)/18

Ш а г 2. По таблице «Стандартные нормальные вероятности» (приложение 1) на­ходим ближайшее меньшее, чем гэ, теоретическое значение г,. и площадь справа от этого гт: 2т = 1,98; площадь справа Р= 0,024.

Ш а г 3. Вычисляем р-уровень по формуле р < 2Р; р < 0,048.

Ш а г 4. Принимаем статистическое решение. Нулевая гипотеза об отсутствии свя­зи в генеральной совокупности отклоняется на уровне а = 0,05.

Ш а г 5. Формулируем содержательный вывод. Обнаружена отрицательная связь между временем решения тестовой арифметической задачи и средним баллом отме­ток по математике за последнюю четверть (т = —0,455; N= 12; р < 0,048). Величина корреляции показывает, что при сравнении испытуемых друг с другом более высокий средний балл будет сочетаться с меньшим временем решения за­дач чаще, чем в 70% случаях, так как вероятность инверсий Р(д) = (1 — т)/2 = = (1+0,455)/2 = 0,728.

(Отметим, что при вычислении т-Кендалла по этим данным на компьютере были получены следующие результаты: т = —0,455; р = 0,040.)

Сравнение г-Спирмена их-Кендалла. Интерпретация /--Спирмена аналогична интерпретации /--Пирсона. Квадрат и того, и другого коэффициента корреля­ции (коэффициент детерминации) показывает долю дисперсии одной пере­менной, которая может быть объяснена влиянием другой переменной. т-Кен­далла имеет другую интерпретацию: это разность вероятностей совпадений и инверсий в рангах. Кроме того, по величине т-Кендалла можно судить о веро­ятности совпадений Р(р) = (1 + т)/2 или инверсий Р(д) = (1 — т)/2.

Для одних и тех же данных величина г-Спирмена всегда больше, чем х-Кендал­ла, исключая крайние значения 0 и 1. Это отражает тот факт, что т-Кендалла зависит от силы связи линейно, а /--Спирмена — не линейно. В то же время для одних и тех же данныхр-уровень х-Кендалла и г-Спирмена примерно одина­ков, а иногда т-Кендалла имеет преимущество в уровне значимости.

Замечания к применению. Если связь (статистически достоверная) не обна­ружена, но есть основания полагать, что связь на самом деле есть, то следует
сначала перейти от г-Спирмена к т-Кендалла (или наоборот), а затем прове­рить другие возможные причины недостоверности связи.

1. Нелинейность связи: просмотреть график двумерного рассеивания. Если связь не монотонная, то делить выборку на части, в которых связь мо­нотонная, или делить выборку на контрастные группы и далее сравни­вать их по уровню выраженности признака.

2. Неоднородность выборки: просмотреть график двумерного рассеивания. Попытаться разделить выборку на части, в которых связь может иметь разные направления.

  vi у2 уЗ у4 у5
VI 0,52 -0,11 -0,29 -0,38
у2 0,52 0,28 0,32 -0,34
уЗ -0,11 0,28 0,48 0,42
у4 -0,29 0,32 0,48 0,38
у5 -0,38 -0,34 0,42 0,38
vi у2 уЗ у4 у5
           
Нетрудно заметить, что корреляционная матрица является квадратной, симметрич­ной относительно главной диагонали (так как Гц = /},), с единицами на главной диа­гонали (так как гИ = г^ =1).

Если связь статистически достоверна, то прежде, чем делать содержатель­ный вывод, следует исключить возможность наличия «ложной» корреляции, как следствия влияния третьей переменной (см. Замечания к применению метрических коэффициентов корреляции).

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.