Сделай Сам Свою Работу на 5

Сравнение двух независимых выборок





Занятие № 4

ПРИМЕНЕНИЕ НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ ДЛЯ АНАЛИЗА ДАННЫХ

Непараметрическими называются критерии, не включающие в формулу расчета параметры распределения, и не предполагающие знания функции распределения. Эти критерии оперируют частотами или рангами.

 

Проверка гипотез о законах распределения

Одной из задач математической статистики является нахождение закона распределения случайной величины по выборочным данным.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе распределения.

 

Критерий согласия хи-квадрат К.Пирсона для проверки гипотезы о виде закона распределения

Критерий хи-квадрат основан на сравнении наблюдаемых и теоретических (вычисленных в предположении известного закона распределения) частот.

Критерий предполагает, что результаты наблюдений сгруппированы в статистический ряд (дискретный или интервальный, содержащий k разрядов).

Схема проверки гипотезы

1. Выдвигается гипотеза H0 о законе распределения случайной величины Х с функцией распределения F(x) - модель закона распределения.



2. По результатам наблюдений находят оценки неизвестных параметров этой модели. Определяются наблюдаемые частоты (i=1,…,k) попадания элементов выборки в полученные интервалы.

3. Определяются теоретические (ожидаемые) частоты попадания выборочных значений в промежутки, для чего:

· используя теоретическую функцию распределения F(x), определяют вероятности того, что случайная величина Х примет значения xi;

· находят значения теоретических частот путём умножения полученных вероятностей на объём выборки n: .

4. Находится выборочное значение критерия согласия К.Пирсона по формуле:

,

где: (i=1,…,k) - наблюдаемые частоты; - теоретические частоты (найдены по модели); n - объём выборки.

5. Для выбранного уровня значимости a при числе степеней свободы , где r – число параметров теоретического распределения вероятностей, оцениваемых по данным выборки, находят критическое значение . Если экспериментальное значение больше критического, т.е. > , то гипотеза H0 отвергается; если < , гипотеза H0 не противоречит экспериментальным данным.



Ограничения критерия хи-квадрат К.Пирсона

1) Объём выборки должен быть достаточно большим: n ³ 30.

2) Теоретическая частота для каждой ячейки не должна быть меньше 5.

 

Пример 1. В цехе с 10 станками ежедневно регистрировалось число вышедших из строя станков. Всего было проведено 200 наблюдений, результаты приведены в таблице:

Число выбывших станков
Число случаев

Проверить гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона. Принять α = 0,05.

Последовательность выполнения

Закон распределения Пуассона имеет вид:

,

где: n - число испытаний; k - число появления события А в n испытаниях; l=np, p - вероятность появления события А в одном испытании.

Ввести в диапазон А2:А12 число станков, а в диапазон В2:В12 - число случаев.

В ячейке В13 рассчитать число случаев. Для этого в ячейку ввести формулу: =СУММ(В2:В12). Получим результат: 200.

В ячейке В14 рассчитать общее число отказов по формуле: =СУММПРОИЗВ(А2:А12; В2:В12). Получим результат: 360.

В ячейке В15 рассчитать значение параметра по формуле: =B14/B13.

Для расчёта теоретических частот введём следующие формулы:

В ячейку С2: =ПУАССОН(A2;$B$15;ИСТИНА)*$B$13

В ячейку С3:

=(ПУАССОН(A3;$B$15;ИСТИНА)-ПУАССОН(A2;$B$15;ИСТИНА))*$B$13

Протянуть формулу из ячейки С3 до ячейки С12. В диапазоне С2:С12 получим значения теоретических частот.

 

 

Так как частоты в ячейках C8:C12 меньше 5, то их следует объединить с ячейкой С7.



В диапазонах D2:D7 и E2:E7 получить окончательное распределение частот.

В диапазоне F2:F7 вычислить квадраты наблюдаемых частот по формуле: =D2:D7^2.

В диапазоне G2:G7 вычислить квадраты наблюдаемых частот по формуле: =F2:F7/E2.

В ячейке G9 найти сумму по формуле =СУММ(G2:G7).

Наблюдаемое значение критерия вычислить в ячейке G10 по формуле: = G9-В13. Получим результат: 12,94.

Для расчёта критического значения критерия хи-квадрат воспользуемся функцией ХИ2ОБР(вероятность; степени_свободы). В качестве вероятности зададим уровень значимости 0,05, а число степеней свободы будет равно 4 (6-1-1).

В ячейку G11 ввести формулу:

= ХИ2ОБР(0,05;4). Получим результат: 9,488.

Так как > (12,94>9,488), то гипотезу о том, что число выбывших из строя станков имеет распределение Пуассона, следует отклонить.

 

Пример 2. Был измерен вес (в кг) у 55 обезьян-павианов. По выборке был построен интервальный статистический ряд. Проверить гипотезу о нормальном распределении генеральной совокупности, приняв уровень значимости α = 0,1.

Номер интервала, k Границы интервала Наблюдаемая частота, mi
10 - 12
12 - 14
14 - 16
16 - 18
18 - 20
20 - 22
22 - 24

 

Последовательность выполнения

Ввести исходные данные в диапазон A2:C8. В диапазоне D2:D8 рассчитать середины интервалов по формуле =(B2+C2)/2, которую затем протянуть до D8.

В ячейки E2:E8 ввести наблюдаемые частоты.

В ячейку E9 ввести объём выборки n = 55.

В ячейке В10рассчитать среднее выборки по формуле

=СУММПРОИЗВ(D2:D8;E2:E8)/$E$9.

В ячейке В11рассчитать выборочную дисперсию по формуле:

=СУММПРОИЗВ(D2:D8;D2:D8;E2:E8)/$E$9-B10^2.

В ячейке В12рассчитать выборочное стандартное отклонение: =КОРЕНЬ(В11).

Для расчёта теоретических частот в ячейку F2 формулу:

=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-НОРМРАСП(B2;$B$10;$B$12;ИСТИНА))*$E$9,

которую затем протянем до ячейки F8.

Так как для первого интервала левая граница принимается равной - ∞, то исправим формулу в ячейке F2:

=(НОРМРАСП(C2;$B$10;$B$12;ИСТИНА)-0)*$E$9.

Так как для последнего интервала правая граница принимается равной + ∞, то исправим формулу в ячейке F8:

=(1-НОРМРАСП(B8;$B$10;$B$12;ИСТИНА))*$E$9.

 

Объединим частоты для первого и второго интервалов, а также для шестого и седьмого интервалов.

В ячейке I11рассчитаем значение критерия хи-квадрат: 1,11.

Найдём критическое значение критерия для α = 0,1 и числа степеней свободы 5-2-1=2 с использованием функции:

= ХИ2ОБР(0,1;2). Получим результат: 4,61.

Так как < (1,11<4,61), то гипотезу о том, что вес обезьян подчиняется нормальному закону, следует принять.

 

Ранговые критерии

Рангом наблюдения называют номер, который получит это наблюдение в упорядоченной совокупности всех данных после упорядочения их согласно определённому правилу (например, от меньшего значения к большему).

Ранжирование - процесс присвоения элементам выборки

 

Сравнение двух независимых выборок

U - критерий Манна-Уитни

Критерий предназначен для проверки гипотезы о статистической однородности двух независимых выборок, т.е. для оценки различий между двумя выборками по уровню какого-либо признака, количественно измеренного. Он позволяет выявлять различия между малыми выборками, когда n1, n2³ 3 или n1 = 2, n2 ³ 5 (n1 и n2 – объёмы выборок). В каждой выборке должно быть не более 60 наблюдений: n1, n2 £ 60.

Критерий Манна-Уитни основан на попарном сравнении результатов из первой и второй выборок.

Проверяются следующие гипотезы:

H0: уровень признака в группе 2 не ниже уровня признака в группе 1.

H1: уровень признака в группе 2 ниже уровня признака в группе 1.

Схема применения критерия Манна-Уитни

1. Объединить вместе значения для обеих групп по степени нарастания признака.

2. Проранжировать значения, приписывая меньшему значению меньший ранг. Всего рангов (n1 + n2).

3. Подсчитать сумму рангов значений первой выборки и сумму рангов значений второй выборки. Определить большую из двух ранговых сумм.

4. Определить значение Uнабл. по формуле:

где: n1, n2 - объёмы выборок 1 и 2; - большая из двух ранговых сумм; nx - объём выборки с большей суммой рангов.

5. Определить критические значения Uкр. для заданных n1, n2 и уровня значимости a по таблице. Если Uнабл.> Uкр., то H0 принимается. Если Uнабл.£ Uкр., то H0 отвергается. Чем меньше значения U, тем достоверность различий выше.

Пример 3. Две группы выпускников двух высших учебных заведений (1 и 2) (в первой группе 9 человек, во второй -10), получили оценки своих административных способностей в баллах.

1 вуз: 26; 23; 19; 21; 14; 18; 29; 17; 12.

2 вуз: 16; 10; 8; 3; 24; 20; 7; 15; 9; 22.

С помощью критерия Манна-Уитни при уровне значимости a £ 0,05 проверить нулевую гипотезу о том, группа выпускников первого вуза не превосходит группу выпускников второго вуза по уровню административных.

Последовательность выполнения

Сформулируем гипотезы:

H0: Группа выпускников первого вуза не превосходит группу выпускников второго вуза по уровню административных способностей (т.е. различия незначимы).

H1: группа выпускников первого вуза превосходит группу выпускников второго вуза по уровню административных способностей. (В данном случае H1 является направленной).

Введём исходные данные в ячейки A2:A10 (показатели выпускников 1 вуза) и в ячейки B2:B11 (показатели выпускников 2 вуза).

В ячейках C2:C20составим объединенную выборку и выпоним ранжирование. Для этого в ячейку D2 введём формулу =РАНГ(C2,$C$2: $C$20;1) и протянем её до ячейки D20.

В ячейки F7 и F8 введём объемы выборок, а в ячейку F9 - объём объединённой выборки.

В ячейках F10и F11рассчитаем суммы рангов элементов каждой из выборок по формулам:

=СУММ(D2:D10) и =СУММ(D11:D20).

Получим результаты: 112 и 78.

Выполним проверку правильности ранжирования, вычислив общую сумму рангов, и сравним её с суммой рангов, найденной по формуле:

.

В ячейку F13введём формулу =F10+F11. Получим результат: 190. В ячейку F14введём формулу =F9*(F9+1)/2. Получим результат: 190. Следовательно, ранги приписаны правильно.

Находим большую из двух ранговых сумм = 112 (соответствует первой выборке n1 = 9), т. е. nx = 9. Запишем эти значения в ячейки F15и F16.

 

Находим наблюдаемое значение критерия. В ячейкуF17введём формулу =F7*F8+F15*(F15+1)/2-F16. Получим результат: 23.

Находим критическое значение критерия. По таблице определяем критическое значение в случае направленной альтернативы, причем меньшее n принимаем за n1 (n1 =9), а большее за n2 (n2 =10). =24 для a £ 0,5.

Вывод: так как £ , то H0 отвергается и принимается гипотеза H1.

Сравнение двух зависимых выборок

Т-критерий Вилкоксона

Критерий применяется для сопоставления показателей, измеренных в двух разных условиях на одной и той же выборке. Он позволяет установить не только направленность изменений, но и их выраженность. Критерий применим в тех случаях, когда признаки измерены, по крайней мере, в порядковой шкале, и сдвиги между вторым и первым замерами тоже могут быть упорядочены. Минимальный объем выборки равен 5.

Схема применения Т-критерия Вилкоксона

1. Составить список пар в любом порядке.

2. Вычислить разность между индивидуальными значениями во втором и первом замерах (после и до). Определить, что будет считаться «типичным» сдвигом и сформулировать соответствующие гипотезы.

3. Перевести разности в абсолютные величины.

4. Проранжировать абсолютные величины разностей, начисляя меньшему значению меньший ранг.

5. Отметить ранги, соответствующие сдвигам в «нетипичном» направлении.

6. Подсчитать сумму этих рангов по формуле: ,

где - ранговые значения сдвигов с более редким знаком. Это будет наблюдаемым значением критерия Tнабл..

7. Определить по таблице критические значения Tкр. для данного объём выборки n и уровня значимости a. Если Tнабл. £ Tкр., нулевая гипотеза отвергается, сдвиг в «типичную» сторону по интенсивности достоверно преобладает.

Пример 4. В группе студентов был проведен тренинг по развитию творческого мышления. Перед тренингом и после него были проведены тесты (стимулирующее воздействие должно повышать творческий потенциал, т.е. увеличивать количество баллов). Получены следующие результаты в баллах:

До тренинга: 19; 20; 18; 15; 29; 21; 21; 18; 21; 23; 14;

После тренинга: 17; 26; 20; 18; 30; 25; 28; 19; 20; 27; 19;

Требуется проверить гипотезу о том что тренинг способствует развитию творческого мышления при уровне значимости a £ 0,05?

Последовательность выполнения

Введём исходные данные в ячейки A2:A13 (показатели до тренинга) и в ячейки B2:B13 (показатели после тренинга), как в предыдущем примере.

В диапазоне С2:С13 получим разность показателей до-после. Для этого в ячейку С2введём формулу: =B2-A2 и размножим её до ячейки С13. Две из полученных разностей отрицательные, и 10 – положительные. Типичное направление – положительное.

Сформулируем гипотезы:

H0: интенсивность сдвигов в типичном направлении не превосходит интенсивности сдвигов в нетипичном направлении.

H1: интенсивность сдвигов в типичном направлении превышает интенсивность сдвигов в нетипичном направлении.

В диапазоне D2:D12 вычислим абсолютные значения полученных разностей и проранжируем их. Результаты запишем в диапазон E2:Е12.

Отметим те сдвиги, которые являются нетипичными, в данном случае – отрицательными. Сумма рангов этих редких сдвигов и составляет наблюдаемое значение Т-критерия:

Tнабл. = 2 + 4,5 = 6,5.

По таблице для n = 12 и a £ 0,05 в случае односторонней альтернативы находим Tкр. = 17.

Вывод: так как Tкр.³ Tнабл., то нулевая гипотеза отвергается.

Задачи к работе № 4

Задача 1. Имеются данные о числе деталей, поступающих на конвейер в течение 600 двухминутных перерывов.

Число деталей
Число интервалов

Проверить гипотезу о том, что число деталей имеет распределение Пуассона. Принять α = 0,05.

Задача 2. Размер частицы никелевого катализатора замерен с точностью до 1 мкм. На выборке объёма n = 200 проверить, подчиняется ли распределение размеров частиц нормальному закону. В таблице приведены отклонения размеров частиц от номинального. Результаты сгруппированы в 10 интервалов длиной h = 5 мкм. Принять уровень значимости α = 0,05.

Номер интервала, k Границы интервала Наблюдаемая частота, mi
-20 ¸ -15
-15 ¸ -10
-10 ¸ -5
-5 ¸ 0
0 ¸ 5
5 ¸ 10
10 ¸ 15
15 ¸ 20
20 ¸ 25
25 ¸ 30

Задача 3. В исследовании, проведённом методом меченых атомов, по результатам изучения 8 препаратов контрольной серии получены следующие показания счётчика импульсов

Опыт
Контроль - - -

Можно ли считать, что полученные значения опытной и контрольной серий различны? Принять a=0,1.

Задача 4. Сравнивалось действие двух экстрактов вируса табачной мозаики. Для этого каждая из двух половин листа натиралась соответствующим препаратом. Число поражённых мест

Экстракт А
Экстракт Б

Можно ли считать, что действие этих экстрактов различно? Принять a=0,1.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.