СРАВНЕНИЕ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК

Самым популярным и наиболее чувствительным (мощным) аналогом критерия Г-Стьюдента для независимых выборок является критерий 1/-Манна- Уитни (Мапп-ШгИпеу II). Непараметрическим его аналогом является критерий серий (см. главу 8), который еще проще в вычислительном отношении, но обладает заметно меньшей чувствительностью, чем критерий II.

Эмпирическое значение критерия {/-Манна-Уитни показывает, насколько совпадают (пересекаются) два ряда значений измеренного признака. Чем меньше совпадение, тем больше различаются эти два ряда. Основная идея критерия IIоснована на представлении всех значений двух выборок в виде одной общей последовательности упорядоченных (ранжированных) значений. Основной (нулевой) статистической гипотезе будет соответствовать ситуация, когда значения о цной выборки будут равномерно распределены среди значений другой выборки, то есть когда два ряда значений пересекаются в наибольшей возможной степени. Напротив, отклонению этой гипотезы будет соответствовать ситуация, когда значения одной из выборок будут преобладать на одном из концов объединенного ряда — пересечение двух рядов тогда будет минимальным.

ПРИМЕР 12.1__________________________________________________________

Обозначим значения переменной для одной выборки X, а для другой выборки — У и упорядочим значения обеих выборок по возрастанию.

Значения

Выборка

Значения одной выборки распределены явно не равномерно среди значений другой выборки: значения выборки /преобладают на правом конце объединенного ряда. Однако критерий серий не позволяет обнаружить статистически значимые различия: всего серий в данном случае 8 и при /и = я = 8 эта величина не выходит за пределы критических значений для а = 0,05 (приложение 5).

Формально, критерий II — это общее число тех случаев, в которых значения одной группы превосходят значения другой группы, при попарном сравнении значений первой и второй групп. Соответственно, вычисляются два значения критерия: 11_х и П_у.

Для вычислений «вручную» используются следующие формулы:

п(п +1)

11_х =тп-К_г +-

₊ (12.1)

1/_х+ Ц_у = тп,

где п — объем выборки Х\т — объем выборки У, К_х и К_у — суммы рангов для X и /в объединенном ряду. В качестве эмпирического значения критерия берется наименьшее из 1/_х и 11_у. Чем больше различия, тем меньше эмпирическое значение (I.

Поскольку критерий V отражает степень совпадения (перекрещивания) двух рядов значений, то значение р-уровня тем меньше, чем меньше значение II. При расчетах «вручную» используют таблицы критических значений критерия {/-Манна-Уитни (приложение 9).

ПРИМЕР 12.1 (продолжение)_________________________________________

Проверим гипотезу о различии выборок ЛТ (численностью т = 8) и У (численностью п= 8) на уровне а = 0,05:

Значения

Выборка

Ранги

Ранги X

Ранги У

Ш а г 1. Значения двух выборок объединяются в один ряд, упорядоченный в порядке возрастания или убывания. Обозначается принадлежность каждого значения к той и другой выборке (строки 1 и 2).

111 а г 2. Значения выборок ранжируются, и выписываются отдельно ранги для одной и другой выборки (строки 3-5).

Ш а г 3. Вычисляются суммы рангов по Х(К_х) и по У(К_у): К_х = 46; К_у = 90. 111 а г 4. Вычисляются \]_хи 1!_упо формуле 12.1:

Ц =8-8-46+ ^{8(8 + 1)} = 54, и =8-8-90+^{8(8 + 1)} = 10, Ц_х+Ц=64 = тп.

л 2 2

Ш а г 5. Определяется р-уровень значимости: наименьшее из ^/сравнивается с табличным (приложение 9) для соответствующих объемов выборки т = 8 и п = 8. Значение р < 0,05 (0,01), если вычисленное (/_эмп < Ц._а6л. В нашем случае наименьшим является И_у = 10, которое и принимается за эмпирическое значение критерия. Оно меньше критического для р = 0,05 {11 = 13), но больше критического для р = 0,01 {II = 7). Следовательно, р < 0,05.

111 а г 6. Принимается статистическое решение и формулируется содержательный вывод. На уровне а = 0,05 принимается статистическая гипотеза о различии Хи У по уровню выраженности признака. Уровень Кстатистически достоверно выше уровня Х(р < 0,05).

Замечание. Связи в рангах для вычислений «вручную» не предусмотрены. Хотя они и незначительно влияют на результат, но если доля одинаковых рангов по одной из переменных велика, то предлагаемый алгоритм неприменим, пользуйтесь компьютерной программой (8Р88, 81аиз11са).

Обработка на компьютере: критерий ^-Манна-Уитни

Для обработки использованы данные примера 12.1. В таблице исходных данных (Ба1а ЕсШог) для каждого из 16 объектов определены значения двух переменных: Vа^1 - значения количественного признака, Vа^2 - бинарная группирующая переменная, обозначающая принадлежность каждого объекта к одной из двух групп.

А) ВыбираемАпа1уге > 1Чопрагате1пс Те»!» > 2-1пйереп(1еп1 8атр1е$... (Две независимые выборки).

Б) В открывшемся окне диалога выделяем и переносим при помощи кнопки > из левого окна интересующие переменные (в данном случае Vа^1) в правое верхнее окно (Тез! УапаЫе(8)); группирующую переменную (в данном случае Vа^2), которая делит выборку на подгруппы (Сгоирш§ УапаЫе). Нажимаем кнопку Бейпе Сгоирз... и задаем номера градаций группирующей переменной, которые мы хотим сравнить (1 и 2). Нажимаем СопИпие. Нажимаем ОК.

В) Получаем результаты в виде двух таблиц:

Капкз

	УАК2	N	Меап Капк	Бит о:Ё Капкз
УАК1 1.00 2 .00 ТоЬа!	8 8 16	5.75 11.25	46.00 90.00

ТевЪ ЗЪаЫвЫсв(Ъ)

	УАК1
Мапп-МЫЬпеу Ц	10.000
МИсохоп N	46.000
	-2.310
Азутр. 81д. (2-ЬаИей)	.021
ЕхасС Зхд. [2* (1-СаИей 81д.)]	.021(а)

а N01: соггесьей Еог ь1ез. Ь Сгоирхпд Уаг1аЫе: УАК2

В первой таблице содержатся ранговые статистики: средние ранги для групп (Меап Капк) и суммы рангов (8ит оГ Капке). Во второй таблице содержатся результаты проверки гипотезы: эмпирическое значение {/-критерия (Мапп- \\Ъкпеу II) и ^-уровень значимости (Авутр. 8ц». (2-(аНе(1)).

СРАВНЕНИЕ ДВУХ ЗАВИСИМЫХ ВЫБОРОК

Самым чувствительным (мощным) аналогом критерия ^-Стьюдента для зависимых выборок является критерий Т-Вилкоксона (Ш/сохоп щпеА-гапк 1е$1). Непараметрическим его аналогом является критерий знаков, который еще проще в вычислительном отношении, но обладает меньшей чувствительностью, чем критерий Г-Вилкоксона. Критерий Тоснован на упорядочивании величин разностей (сдвигов) значений признака в каждой паре его измерений (критерий знаков основан на учете только знака этой разности). Соответственно, критерий Т, будучи менее чувствительным аналогом /-Стьюдента, более чувствителен по сравнению с другими непараметрическими критериями для повторных измерений (зависимых выборок).

Г-Вилкоксона основан на ранжировании абсолютных разностей пар значений зависимых выборок. Далее подсчитывается сумма рангов для положительных разностей и сумма рангов для отрицательных разностей. Идея критерия Г заключается в подсчете вероятности получения минимальной из этих разностей при условии, что распределение положительных или отрицательных разностей равновероятно и равно 1/2.

Для расчетов «вручную» не требуется особых формул: достаточно подсчитать суммы рангов для положительных и отрицательных разностей. Затем меньшая из сумм принимается в качестве эмпирического значения критерия, значение которого сравнивается с табличным значением (приложение 10), рассчитанным для условия равной вероятности положительных и отрицательных разностей для данного объема выборки. Конечно, чем больше различия, тем меньше эмпирическое значение Т, тем менее вероятно получение такого значения при условии равной вероятности встречаемости положительных и отрицательных разностей, следовательно, тем меньше значение р-уровня.

ПРИМЕР 12.2

Проверим гипотезу о различии значений показателя, измеренного дважды на одной и той же выборке («Условие 1» и «Условие 2»), на уровне а = 0,05:

№ объекта:
Условие 1:
Условие 2:
Разность с!\	-8	-2	-9	-5	-7	-8	-1	-И	-11
Ранги \| й, \|:	8,5					8,5		11,5	11,5
Ранги (+):
Ранги с! (—):	8,5					8,5		11,5	11,5

Ш а г 1. Подсчитать разности значений для каждого объекта выборки (строка 4). Ш а г 2. Ранжировать абсолютные значения разностей (строка 5).

Ш а г 3. Выписать ранги положительных и отрицательных значений разностей (строки 6 и 7).

Ш а г 4. Подсчитать суммы рангов отдельно для положительных и отрицательных разностей: Т, = 13; Т₂ = 65. За эмпирическое значение критерия Т_эмп принимается меньшая сумма: Г_эмп = 13.

111 а г 5. Определяется /^-уровень значимости: Т_эмп сравнивается с табличным (приложение 10) для соответствующего объема выборки. Значение р < 0,05 (0,01), если вычисленное Г_эмп < Г_та6л В нашем случае эмпирическое значение равно критическому значению для р = 0,05. Следовательно, р = 0,05.

Ш а г 6. Принимается статистическое решение и формулируется содержательный вывод. На уровне а = 0,05 принимается статистическая гипотеза о различии двух условий по уровню выраженности изучаемого признака. Уровень выраженности признака для условия 2 статистически значимо выше, чем для условия 1 (/> = 0,05).

Замечание. Связи в рангах абсолютных значений разностей для вычислений «вручную» не предусмотрены. Хотя их влияние и не очень суще
ственно, но если доля одинаковых рангов велика и превышает, скажем, 50%, то предлагаемый алгоритм неприменим, пользуйтесь компьютерной программой (5Р55, ВишзИса) или С-критерием знаков.

Критерий знаков С (1ез1) — менее чувствительная к сдвигам альтернатива критерия Г-Вилкоксона. Для того чтобы им воспользоваться, достаточно подсчитать количество отрицательных и положительных сдвигов.

ПРИМЕР______________________________________________________________

Проверим гипотезу о различии в отношении данных примера 12.2 с использованием критерия знаков (на уровне а = 0,05).

III а г 1. Подсчитать количество положительных и отрицательных разностей значений (по строке 4). Сдвиг в значениях, соответствующий наибольшему числу из этих разностей, принимается за типичный сдвиг. Количество типичных сдвигов обозначается Ы, а количество нетипичных сдвигов принимается в качестве эмпирического значения критерия О_эмп В нашем случае количество типичных сдвигов N=9, а количество нетипичных сдвигов <7_ЭМП = 3.

Ш а г 2. Определяетсяр-уровень значимости: С_эмп (количество нетипичных сдвигов) сравнивается с табличным критическим (приложение 11) для соответствующего N (количества типичных сдвигов). Чем меньше Сэ_МП, тем меньше значение р-уровня. Значение р < 0,05 (0,01), если вычисленное (7_ЭМП < (7_та6л В нашем случае для N=9 табличное значение ддяр = 0,05 равно 1, и О_шп его превышает. Следовательно,р > 0,05.

Ш а г 3. Принимается статистическое решение и формулируется содержательный вывод. На уровне а = 0,05 принимается нулевая статистическая гипотеза об отсутствии различий. Между условиями 1 и 2 не обнаружены статистически достоверные различия в уровне выраженности изучаемого признака (р > 0,05).

Не нашли, что искали? Воспользуйтесь поиском по сайту: