Сделай Сам Свою Работу на 5

Сравнение средних арифметических по критерию T Стьюдента





 

Задача сравнения выборочных средних – это вопрос о том, действовал ли в одной из выборок новый систематический фактор по сравнению с другой выборкой? В терминах статистики отличия между средними могут иметь два противоположных источника:

1. Обе выборки взяты из одной генеральной совокупности, но средние отличаются в силу ошибки репрезентативности.

2. Выборки взяты из разных генеральных совокупностей, отличие средних вызвано, в основном, действием разных доминирующих факторов (а также и случайно).

Статистическая задача состоит в том, чтобы сделать обоснованный выбор. Исходно предполагается (Но): "достоверных отличий между средними нет".

Отличить закономерное от случайного можно только на основе знания законов поведения случайной величины. Для исключения чужеродных ("выскакивающих") вариант мы применяли закон нормального распределения: в диапазоне четырех стандартных отклонений, 1.96∙S, отклонение вариант от средней происходит по случайным причинам; за границами этого диапазона лежат чужеродные для данной выборки значения. Поскольку выборочные средние имеют нормальное распределение (см. раздел Ошибка репрезентативности выборочных параметров), критерий отличия двух выборочных средних также базируется на свойствах нормального распределения: в границах Mобщ.±1.96∙m (или приблизительно Mобщ.±2∙m) выборочные средние арифметические отличаются от общей (генеральной) средней по случайным причинам. Критерий отличия средних формируется по типу критерия "исключения", если одну из выборочных средних (М1) принять в качестве генеральной средней, другую взять как "подозрительную" варианту (М2), а роль характеристики варьирования играет обобщенная ошибка репрезентативности (md):



Þ .

Обобщенная ошибка получена объединением двух ошибок, рассчитанных по сравниваемым выборкам (для случая, когда выборочные дисперсии отличаются несильно):

,

которые, в свою очередь, определены рассмотренным выше соотношением:

.

Тогда рабочая формула для T критерия отличия средних будет:

~ T(α, df).

Следует помнить, что разность средних нужно брать по модулю, т. е. без учета знака. Получен­ное этим способом значение критерия T Стьюдента сравнивают с таб­личным при выбранном уровне значимости (обычно для α = 0.05) и числе степеней свободы (объемы выборок без числа ограни­чений, df = n1+n2–2). Результатом такого сравнения должен стать один из двух вариантов следующего статистического вывода. Если по­лученное значение (величина) критерия больше табличного, значит, различия между параметрами при заданном уровне значимости и установленном числе степеней свободы достовер­ны. Если же полученная величина критерия меньше таблич­ной, то при данном уровне значимости и числе степеней свобо­ды различия между параметрами недостоверны. Последнее говорит о том, что различия случайны, никакого определенного вывода сделать нельзя, нулевая гипотеза остается не опровер­гнутой.



Табличные значения критерия следует брать из таблицы Стьюдента (табл. 6П). Обычно эта статистика соответствует нормальному распределению, но в случае небольших выборок дает необходимую поправку на объем выборки, предупреждает возможность сделать слишком жесткий вывод по недостаточным данным. По этой причине критерий различия средних арифметических носит название критерия Стьюдента. Одно из необходимых требований к применению этого критерия – это уверенность в том, что изучаемые признаки имеют распределение, в целом соответствующее нормальному. Если такой уверенности нет, для сравнения средних арифметических лучше воспользоваться непараметрическими критериями.

Рассмотрим такой пример. В процессе специальных исследований было установлено, что у стариков (20 человек) до лечения инсулином среднее содержание белков в крови составляло 81.04±1.7, а после ле­чения 79.33±1.6. Нетрудно видеть, что полученные величины неодинаковы. Но достоверно ли это различие, закономерно ли оно? Можно ли утверждать, что лечение ин­сулином понижает содержание белков в крови? Согласно общей нулевой гипотезе средние не отличаются. Проверим ее с помощью критерия Стьюдента:



= 0.7.

По таблице граничных значений критерия (табл. 6П) находим, что для уровня значимости α = 0.05 и числа степеней свободы df = 20+20–2 = 38 величина крите­рия составляет T(0.05,39) = 2.03. Поскольку полученное значение (0.7) мень­ше табличного (2.03), нулевая гипотеза сохраняется, различия между средними величинами статисти­чески недостоверны (незначимы). Следовательно, влияние инсулина на содержание белков в крови приведенными выше данными не подтверждается и остается недоказанным, возмож­но, из-за недостаточного числа определений.

В среде Excel определить величину T можно с помощью двух функций. Первая из них имеет формат:

=ТТЕСТ(массив1;массив2;хвосты;тип),

где массив1 – диапазон со значениями вариант первой выборки,

массив2 – диапазон со значениями вариант второй выборки,

хвосты – число, определяющее какой критерий используется, односторонний или двусторонний; обычно неизвестно, какая их средних величин должна быть больше, поэтому ставим 2 (двухсторонний),

тип – число, определяющее тип выполняемого теста, мы рассматривали двухвыборочный с равными дисперсиями, ставим 2 (двухпарный).

Результатом выполнения этой функции оказывается уровень значимости, соответствующий степени различия средних, т. е. вероятность того, что различия средних недостоверны. Поскольку обычно в биологии принимают в качестве границы уровень значимости α = 0.05, все значения функции =ТТЕСТ, меньшие 0.05, будут свидетельствовать о достоверных отличиях сравниваемых средних арифметических. Для рассмотренного выше случая оценки действия инсулина функция показала:

=ТТЕСТ(диапазон1;диапазон2;2;2) = 0.492876.

Вероятность того, что отличия недостоверны, очень высока (α = 0.49)! Расчетные уровни значимости можно перевести в привычную форму T критерия Стьюдента с помощью второй функции:

=СТЬЮДРАСПОБР(вероятность;степени_свободы),

где вероятность – уровень значимости, рассчитанный функцией

=ТТЕСТ, т. е. ссылка на ячейку, содержащую формулу этой функции,

степени_свободы – число степеней свободы df = n1+n2–2.

В нашем случае =СТЬЮДРАСПОБР(0.492876;38) = 0.7.

Если объемы сравниваемых выборок существенно отличаются (n1n2) или их дисперсии далеко не равны (S²1S²2), для оценки достоверности отличий двух выборочных средних следует пользоваться другой, более точной, рабочей формулой:

.

Сравним самцов и самок гадюки (см. данные в табл. 6.3 на стр. 108) по средней длине хвоста (M1 = 81.6, M2 = 65.1 мм), объемы выборок одинаковы (n1 = 8, n2 = 9), зато дисперсии отличаются (S²1 = 24.8, S²2 = 6.9). Величина критерия составит:

= 8.7.

Отличие средних достоверно, поскольку рассчитанное значение превышает табличное T(0/05,15) = 2.13.

Для этого случая при вычислениях в среде Excel следует использовать третий тип критерия – двухпарный с неравными отклонениями: =ТТЕСТ(диапазон1;диапазон2;2;3) = 0.00000627,

и далее =СТЬЮДРАСПОБР(0.00000627;15) = 6.8.

Значения 8.7 и 6.8 немного отличаются, поскольку формула критерия для функции Excel несколько отличается от приведенной и более чувствительна к отличию дисперсий. Обычно расчеты по обоим формулам совпадают.

Когда исследуемые признаки подчиняются другому закону распределения, к ним могут быть применены другие критерии. Рассмотрим случай с распределением Пуассона. Как уже говорилось, для признаков, подчиняющихся этому закону, характерно совпадение по величине средней арифметической и дисперсии. Это позволяет проводить сравне­ние и средних арифметических, и дисперсий по критерию F Фишера (подробнее см. ниже) и строить выводы одновременно и по различию средних, и по различию дисперсий.

~ F(α, df1, df2).

Полученное значение сравнивается с табличным (табл. 7П) при выбранном уровне значимости (α = 0.05) и сте­пенях свободы df1 = 2∙M2+2, df2 = 2∙M1.

Рассмотрим случай сравнения частоты встречаемости растений (фиалка) на нескольких пробных площадках двух типов лугов. Для каждо­го луга получили средние значения 1.5 и 14.2 экз. на 1 площад­ку. Нулевая гипотеза состоит, что плотность данного вида на лугах одинакова. Критерий Фишера дает:

= 5.68; df1 = 2∙(1.5+1) = 5, df2 = 2∙14.2 = 28.

Значение F = 5.68 больше табличного F(0.05,5,28) = 5.67; нулевую гипотезу можно отбросить и считать доказанным, что плотность растений на лугах разного типа достоверно отличается.

При сравнении достоверности различия долей (p) альтерна­тивных признаков применяют критерий Фишера с φ-преобразова­нием. Вместо процентов берут фи-значения ( или по таблице 10П) и под­ставляют их в формулу:

~ F(α, df1, df2),

где φ1 и φ2 – преобразованные доли, n1 и n2 – объемы выборок.

Полученное значение сравнивают с табличным в соответст­вии с заданным уровнем значимости, α = 0.05, и числом степеней свободы: df1 = 1, df2 = n1+n2–2.

Например, в процессе учетов мелких млекопитающих в двух разных биотопах, где стояло по 200 ловушек, попалось соответственно 5 и 15 зверьков. Отличается ли численность жи­вотных на этих площадках? Если рассматривать ловушку как варианту, способную принимать два значения – "пустая" и "сработавшая" (со зверьком), то получаем выборку вариант (ловушек) с альтернативным распределением. Число пой­манных особей можно пересчитать в процент сработавших ловушек:

М1 = 100%∙5/200 = 2.5%, М1 = 100%∙15/200 = 7.5%. По таблице 10П находим значения φ и вычисляем значение критерия:

= 5.62.

Полученная величина (5.62) больше критической F(0.05, 1, 398) = 3.9, значит, численность мелких мле­копитающих во втором биотопе достоверно выше, чем в первом.

 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.