Сравнение двух независимых выборок
Занятие № 4
ПРИМЕНЕНИЕ НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ ДЛЯ АНАЛИЗА ДАННЫХ
Непараметрическими называются критерии, не включающие в формулу расчета параметры распределения, и не предполагающие знания функции распределения. Эти критерии оперируют частотами или рангами.
Проверка гипотез о законах распределения
Одной из задач математической статистики является нахождение закона распределения случайной величины по выборочным данным.
Критерием согласия называют критерий проверки гипотезы о предполагаемом законе распределения.
Критерий согласия хи-квадрат К.Пирсона для проверки гипотезы о виде закона распределения
Критерий хи-квадрат основан на сравнении наблюдаемых и теоретических (вычисленных в предположении известного закона распределения) частот.
Критерий предполагает, что результаты наблюдений сгруппированы в статистический ряд (дискретный или интервальный, содержащий k разрядов).
Схема проверки гипотезы
1. Выдвигается гипотеза H0 о законе распределения случайной величины Х с функцией распределения F(x) - модель закона распределения.
2. По результатам наблюдений находят оценки неизвестных параметров этой модели. Определяются наблюдаемые частоты (i=1,…,k) попадания элементов выборки в полученные интервалы.
3. Определяются теоретические (ожидаемые) частоты попадания выборочных значений в промежутки, для чего:
· используя теоретическую функцию распределения F(x), определяют вероятности того, что случайная величина Х примет значения xi;
· находят значения теоретических частот путём умножения полученных вероятностей на объём выборки n: .
4. Находится выборочное значение критерия согласия К.Пирсона по формуле:
,
где: (i=1,…,k) - наблюдаемые частоты; - теоретические частоты (найдены по модели); n - объём выборки.
5. Для выбранного уровня значимости a при числе степеней свободы , где r – число параметров теоретического распределения вероятностей, оцениваемых по данным выборки, находят критическое значение . Если экспериментальное значение больше критического, т.е. > , то гипотеза H0 отвергается; если < , гипотеза H0 не противоречит экспериментальным данным.
Ограничения критерия хи-квадрат К.Пирсона
1) Объём выборки должен быть достаточно большим: n ³ 30.
2) Теоретическая частота для каждой ячейки не должна быть меньше 5.
Пример 1. В цехе с 10 станками ежедневно регистрировалось число вышедших из строя станков. Всего было проведено 200 наблюдений, результаты приведены в таблице:
Число выбывших станков
|
|
|
|
|
|
|
|
|
|
|
| Число случаев
|
|
|
|
|
|
|
|
|
|
|
| Проверить гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона. Принять α = 0,05.
Последовательность выполнения
Закон распределения Пуассона имеет вид:
,
где: n - число испытаний; k - число появления события А в n испытаниях; l=np, p - вероятность появления события А в одном испытании.
Ввести в диапазон А2:А12 число станков, а в диапазон В2:В12 - число случаев.
В ячейке В13 рассчитать число случаев. Для этого в ячейку ввести формулу: =СУММ(В2:В12). Получим результат: 200.
В ячейке В14 рассчитать общее число отказов по формуле: =СУММПРОИЗВ(А2:А12; В2:В12). Получим результат: 360.
В ячейке В15 рассчитать значение параметра по формуле: =B14/B13.
Для расчёта теоретических частот введём следующие формулы:
В ячейку С2: =ПУАССОН(A2;$B$15;ИСТИНА)*$B$13
В ячейку С3:
=(ПУАССОН(A3;$B$15;ИСТИНА)-ПУАССОН(A2;$B$15;ИСТИНА))*$B$13
Протянуть формулу из ячейки С3 до ячейки С12. В диапазоне С2:С12 получим значения теоретических частот.
Так как частоты в ячейках C8:C12 меньше 5, то их следует объединить с ячейкой С7.
В диапазонах D2:D7 и E2:E7 получить окончательное распределение частот.
В диапазоне F2:F7 вычислить квадраты наблюдаемых частот по формуле: =D2:D7^2.
В диапазоне G2:G7 вычислить квадраты наблюдаемых частот по формуле: =F2:F7/E2.
В ячейке G9 найти сумму по формуле =СУММ(G2:G7).
Наблюдаемое значение критерия вычислить в ячейке G10 по формуле: = G9-В13. Получим результат: 12,94.
Для расчёта критического значения критерия хи-квадрат воспользуемся функцией ХИ2ОБР(вероятность; степени_свободы). В качестве вероятности зададим уровень значимости 0,05, а число степеней свободы будет равно 4 (6-1-1).
В ячейку G11 ввести формулу:
= ХИ2ОБР(0,05;4). Получим результат: 9,488.
Так как > (12,94>9,488), то гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона, следует отклонить.
Пример 2. Был измерен вес (в кг) у 55 обезьян-павианов. По выборке был построен интервальный статистический ряд. Проверить гипотезу о нормальном распределении генеральной совокупности, приняв уровень значимости α = 0,1.
Номер
интервала, k
| Границы интервала
| Наблюдаемая
частота, mi
|
| 10 - 12
|
|
| 12 - 14
|
|
| 14 - 16
|
|
| 16 - 18
|
|
| 18 - 20
|
|
| 20 - 22
|
|
| 22 - 24
|
|
Последовательность выполнения
Ввести исходные данные в диапазон A2:C8. В диапазоне D2:D8 рассчитать середины интервалов по формуле =(B2+C2)/2, которую затем протянуть до D8.
В ячейки E2:E8 ввести наблюдаемые частоты.
В ячейку E9 ввести объём выборки n = 55.
В ячейке В10рассчитать среднее выборки по формуле
=СУММПРОИЗВ(D2:D8;E2:E8)/$E$9.
В ячейке В11рассчитать выборочную дисперсию по формуле:
=СУММПРОИЗВ(D2:D8;D2:D8;E2:E8)/$E$9-B10^2.
В ячейке В12рассчитать выборочное стандартное отклонение: =КОРЕНЬ(В11).
Для расчёта теоретических частот в ячейку F2 формулу:
=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-НОРМРАСП(B2;$B$10;$B$12;ИСТИНА))*$E$9,
которую затем протянем до ячейки F8.
Так как для первого интервала левая граница принимается равной - ∞, то исправим формулу в ячейке F2:
=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-0)*$E$9.
Так как для последнего интервала правая граница принимается равной + ∞, то исправим формулу в ячейке F8:
=(1-НОРМРАСП(B8;$B$10;$B$12;ИСТИНА))*$E$9.
Объединим частоты для первого и второго интервалов, а также для шестого и седьмого интервалов.
В ячейке I11рассчитаем значение критерия хи-квадрат: 1,11.
Найдём критическое значение критерия для α = 0,1 и числа степеней свободы 5-2-1=2 с использованием функции:
= ХИ2ОБР(0,1;2). Получим результат: 4,61.
Так как < (1,11<4,61), то гипотезу о том, что вес обезьян подчиняется нормальному закону, следует принять.
Ранговые критерии
Рангом наблюдения называют номер, который получит это наблюдение в упорядоченной совокупности всех данных после упорядочения их согласно определённому правилу (например, от меньшего значения к большему).
Ранжирование - процесс присвоения элементам выборки
Сравнение двух независимых выборок
U - критерий Манна-Уитни
Критерий предназначен для проверки гипотезы о статистической однородности двух независимых выборок, т.е. для оценки различий между двумя выборками по уровню какого-либо признака, количественно измеренного. Он позволяет выявлять различия между малыми выборками, когда n1, n2³ 3 или n1 = 2, n2 ³ 5 (n1 и n2 – объёмы выборок). В каждой выборке должно быть не более 60 наблюдений: n1, n2 £ 60.
Критерий Манна-Уитни основан на попарном сравнении результатов из первой и второй выборок.
Проверяются следующие гипотезы:
H0: уровень признака в группе 2 не ниже уровня признака в группе 1.
H1: уровень признака в группе 2 ниже уровня признака в группе 1.
Схема применения критерия Манна-Уитни
1. Объединить вместе значения для обеих групп по степени нарастания признака.
2. Проранжировать значения, приписывая меньшему значению меньший ранг. Всего рангов (n1 + n2).
3. Подсчитать сумму рангов значений первой выборки и сумму рангов значений второй выборки. Определить большую из двух ранговых сумм.
4. Определить значение Uнабл. по формуле:
где: n1, n2 - объёмы выборок 1 и 2; - большая из двух ранговых сумм; nx - объём выборки с большей суммой рангов.
5. Определить критические значения Uкр. для заданных n1, n2 и уровня значимости a по таблице. Если Uнабл.> Uкр., то H0 принимается. Если Uнабл.£ Uкр., то H0 отвергается. Чем меньше значения U, тем достоверность различий выше.
Пример 3. Две группы выпускников двух высших учебных заведений (1 и 2) (в первой группе 9 человек, во второй -10), получили оценки своих административных способностей в баллах.
1 вуз: 26; 23; 19; 21; 14; 18; 29; 17; 12.
2 вуз: 16; 10; 8; 3; 24; 20; 7; 15; 9; 22.
С помощью критерия Манна-Уитни при уровне значимости a £ 0,05 проверить нулевую гипотезу о том, группа выпускников первого вуза не превосходит группу выпускников второго вуза по уровню административных.
Последовательность выполнения
Сформулируем гипотезы:
H0: Группа выпускников первого вуза не превосходит группу выпускников второго вуза по уровню административных способностей (т.е. различия незначимы).
H1: группа выпускников первого вуза превосходит группу выпускников второго вуза по уровню административных способностей. (В данном случае H1 является направленной).
Введём исходные данные в ячейки A2:A10 (показатели выпускников 1 вуза) и в ячейки B2:B11 (показатели выпускников 2 вуза).
В ячейках C2:C20составим объединенную выборку и выпоним ранжирование. Для этого в ячейку D2 введём формулу =РАНГ(C2,$C$2: $C$20;1) и протянем её до ячейки D20.
В ячейки F7 и F8 введём объемы выборок, а в ячейку F9 - объём объединённой выборки.
В ячейках F10и F11рассчитаем суммы рангов элементов каждой из выборок по формулам:
=СУММ(D2:D10) и =СУММ(D11:D20).
Получим результаты: 112 и 78.
Выполним проверку правильности ранжирования, вычислив общую сумму рангов, и сравним её с суммой рангов, найденной по формуле:
.
В ячейку F13введём формулу =F10+F11. Получим результат: 190. В ячейку F14введём формулу =F9*(F9+1)/2. Получим результат: 190. Следовательно, ранги приписаны правильно.
Находим большую из двух ранговых сумм = 112 (соответствует первой выборке n1 = 9), т. е. nx = 9. Запишем эти значения в ячейки F15и F16.
Находим наблюдаемое значение критерия. В ячейкуF17введём формулу =F7*F8+F15*(F15+1)/2-F16. Получим результат: 23.
Находим критическое значение критерия. По таблице определяем критическое значение в случае направленной альтернативы, причем меньшее n принимаем за n1 (n1 =9), а большее за n2 (n2 =10). =24 для a £ 0,5.
Вывод: так как £ , то H0 отвергается и принимается гипотеза H1.
Сравнение двух зависимых выборок
Т-критерий Вилкоксона
Критерий применяется для сопоставления показателей, измеренных в двух разных условиях на одной и той же выборке. Он позволяет установить не только направленность изменений, но и их выраженность. Критерий применим в тех случаях, когда признаки измерены, по крайней мере, в порядковой шкале, и сдвиги между вторым и первым замерами тоже могут быть упорядочены. Минимальный объем выборки равен 5.
Схема применения Т-критерия Вилкоксона
1. Составить список пар в любом порядке.
2. Вычислить разность между индивидуальными значениями во втором и первом замерах (после и до). Определить, что будет считаться «типичным» сдвигом и сформулировать соответствующие гипотезы.
3. Перевести разности в абсолютные величины.
4. Проранжировать абсолютные величины разностей, начисляя меньшему значению меньший ранг.
5. Отметить ранги, соответствующие сдвигам в «нетипичном» направлении.
6. Подсчитать сумму этих рангов по формуле: ,
где - ранговые значения сдвигов с более редким знаком. Это будет наблюдаемым значением критерия Tнабл..
7. Определить по таблице критические значения Tкр. для данного объём выборки n и уровня значимости a. Если Tнабл. £ Tкр., нулевая гипотеза отвергается, сдвиг в «типичную» сторону по интенсивности достоверно преобладает.
Пример 4. В группе студентов был проведен тренинг по развитию творческого мышления. Перед тренингом и после него были проведены тесты (стимулирующее воздействие должно повышать творческий потенциал, т.е. увеличивать количество баллов). Получены следующие результаты в баллах:
До тренинга: 19; 20; 18; 15; 29; 21; 21; 18; 21; 23; 14;
После тренинга: 17; 26; 20; 18; 30; 25; 28; 19; 20; 27; 19;
Требуется проверить гипотезу о том что тренинг способствует развитию творческого мышления при уровне значимости a £ 0,05?
Последовательность выполнения
Введём исходные данные в ячейки A2:A13 (показатели до тренинга) и в ячейки B2:B13 (показатели после тренинга), как в предыдущем примере.
В диапазоне С2:С13 получим разность показателей до-после. Для этого в ячейку С2введём формулу: =B2-A2 и размножим её до ячейки С13. Две из полученных разностей отрицательные, и 10 – положительные. Типичное направление – положительное.
Сформулируем гипотезы:
H0: интенсивность сдвигов в типичном направлении не превосходит интенсивности сдвигов в нетипичном направлении.
H1: интенсивность сдвигов в типичном направлении превышает интенсивность сдвигов в нетипичном направлении.
В диапазоне D2:D12 вычислим абсолютные значения полученных разностей и проранжируем их. Результаты запишем в диапазон E2:Е12.
Отметим те сдвиги, которые являются нетипичными, в данном случае – отрицательными. Сумма рангов этих редких сдвигов и составляет наблюдаемое значение Т-критерия:
Tнабл. = 2 + 4,5 = 6,5.
По таблице для n = 12 и a £ 0,05 в случае односторонней альтернативы находим Tкр. = 17.
Вывод: так как Tкр.³ Tнабл., то нулевая гипотеза отвергается.
Задачи к работе № 4
Задача 1. Имеются данные о числе деталей, поступающих на конвейер в течение 600 двухминутных перерывов.
Число деталей
|
|
|
|
|
|
|
| Число интервалов
|
|
|
|
|
|
|
| Проверить гипотезу о том, что число деталей имеет распределение Пуассона. Принять α = 0,05.
Задача 2. Размер частицы никелевого катализатора замерен с точностью до 1 мкм. На выборке объёма n = 200 проверить, подчиняется ли распределение размеров частиц нормальному закону. В таблице приведены отклонения размеров частиц от номинального. Результаты сгруппированы в 10 интервалов длиной h = 5 мкм. Принять уровень значимости α = 0,05.
Номер
интервала, k
| Границы интервала
| Наблюдаемая
частота, mi
|
| -20 ¸ -15
|
|
| -15 ¸ -10
|
|
| -10 ¸ -5
|
|
| -5 ¸ 0
|
|
| 0 ¸ 5
|
|
| 5 ¸ 10
|
|
| 10 ¸ 15
|
|
| 15 ¸ 20
|
|
| 20 ¸ 25
|
|
| 25 ¸ 30
|
| Задача 3. В исследовании, проведённом методом меченых атомов, по результатам изучения 8 препаратов контрольной серии получены следующие показания счётчика импульсов
Можно ли считать, что полученные значения опытной и контрольной серий различны? Принять a=0,1.
Задача 4. Сравнивалось действие двух экстрактов вируса табачной мозаики. Для этого каждая из двух половин листа натиралась соответствующим препаратом. Число поражённых мест
Можно ли считать, что действие этих экстрактов различно? Принять a=0,1.
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|