Сделай Сам Свою Работу на 5

Проверка статистических гипотез





 

Проверка статистических гипотез – это путь установления биологических закономерностей. Закономерное означает не только повторяемое, но – в связи с известной причиной. "Установить закономерность" значит "установить причинную связь явлений", когда степень выраженности изучаемого свойства объекта определяется внешними или внутренними факторами. Однородность действия факторов определяет и сходство отклика, изменение факторов влечет за собой изменение характеристик наблюдаемого объекта. Параллельное изменение свойств объекта и его среды (признака и фактора) эмпирической наукой принимается как свидетельство зависимости признака от фактора, как закономерная связь явлений.

Для регистрации такого рода зависимости необходимы наблюдения хотя бы двух состояний объекта – при разных уровнях действия фактора. Со статистической точки зрения это должны быть две группы значений (две выборки), характеризующие устойчивость реакции признака на разные уровни действия фактора (разные дозы). Так формируется первая задача поиска закономерностей – сравнение между собой групп вариант, полученных при разной силе воздействия внешних (или внутренних) условий. Если наличие фактора существенно для проявления признака, параметры выборок будут различаться, если фактор безразличен (не действует на объект), отличий между группами не будет.



В терминах математической статистики эта задача формулируется как вопрос о принадлежности выборок к общей генеральной совокупности. Если выборки взяты из одной генеральной совокупности, то между ними не должно быть существенных отличий – только небольшие и случайные (ошибки репрезентативности). Если же выборки взяты из разных генеральных совокупностей, то отличия между выборками должны быть закономерными –достоверными, значимыми. Решая эту задачу, изначально предполагают, что "выборки взяты из одной и той же генеральной совокупности, отличия между средними незначимы". Отличия между выборочными параметрами рассматриваются как отличия по случайным причинам, как ошибки репрезентативности. Чтобы в этом убедиться, по всему объему данных вычисляются ошибки репрезентативности и затем различия между выборочными параметрами сравниваются с ошибками репрезентативности этих параметров; обычно это частное от деления "отличия"/"ошибка". Такое математическое выражение носит название статистического критерия. Если "отличия" немногим больше "ошибки" (небольшая величина критерия), то считается, что параметры действительно не отличаются друг от друга. Если же разность между параметрами много больше величины ошибки репрезентативности (высокое значение критерия), признают, что это не случайность, но результат действия фактора.



Для разных статистических параметров разработаны соответствующие методы их сравнения с ошибками репрезентативности (критерии). Общим остается принцип формулирования статистического вывода: если величина критерия превышает некое "критическое" значение, то нулевая гипотеза отвергается, и тем самым признается – выборки взяты из разных генеральных совокупностей. Это значит, что некий фактор влияет на изменение признака, что удалось установить реальное (закономерное) биологическое явление. Если же величина критерия ниже критической, отличие между выборками признается несущественным, недоказанным.

При всем кажущемся многообразии вариантов проявления различного рода закономерностей, можно выделить всего 4 класса статистических задач вида "доказать отличия":

1. Доказать чужеродность варианты в выборке

(или "классифицировать объекты").

2. Доказать отличие двух выборок.

3. Доказать отличие нескольких выборок



(или "доказать влияние фактора на признак").

4. Найти зависимость между признаками

(или "доказать сопряженность варьирования признаков").

По своей статистической сути все многообразные методы количественной биологии не выйдут за рамки представленного списка задач, хотя в зависимости от конкретной постановки биологического вопроса, типа данных, метода их сбора, способа представления и пр. конкретные алгоритмы могут существенно отличаться. Приемы решения частных задач рассмотрены далее.


5

Задача "доказать чужеродность варианты"

 

В биологии часто встречается ситуация, когда одна из полученных вариант сильно отличается от остальных. Эти отклонения могли возникнуть в ре­зультате неточности измерений, ошибок внимания, методиче­ских погрешностей и т. д. Можно ли такие резко выде­ляющиеся значения использовать при дальнейших расчетах?

С помощью этой редко возникающей задачи о принадлежности данной варианты к данной выборке мы сделаем необходимый переход от практики статистического оценивания к практике проверки статистических гипотез.

Любая статистическая задача – суть вопрос о принадлежности разных вариант к единой генеральной совокупности, о том, что сравниваемые выборочные варианты испытывают на себе действие одних и тех же доминирующих и случайных факторов. В терминах математической статистики поставленный вопрос звучит так: относится ли данная варианта вместе с другими вариантами изучаемой выборки к одной и той же генеральной совокупности или – к разным? Его можно сформулировать и по-другому: сформировано ли данное значение варианты под действием тех же доминирующих и случайных факторов, что и все остальные варианты данной выборки, или это были иные факторы? Здесь возможны два ответа:

1. Факторы те же, т. е. все варианты взяты из одной и той же генеральной совокупности.

2. Факторы иные, т. е. особенная варианта и выборка порознь взяты из разных генеральных совокупностей.

Ответ на этот вопрос можно получить с использованием рассмотренных выше свойств нормального распределения. Так, если все варианты были взяты из одной генеральной совокупности, значит, поведение их должно быть однородным, они должны отличаться только в силу случайных причин и (с вероятностью P = 0.95) находиться в диапазоне M±2∙S. Иными словами, по случайным причинам варианты достаточно большой выборки будут отклоняться влево или вправо от средней арифметической не более чем на 2∙S:

xM < 2∙S или (xM)/S < 2.

Общепринятой безразмерной характеристикой отклонения отдельной варианты от средней арифметической служит нормированное отклонение, оно показывает, на сколько стандартных отклонений отклоняется та или иная варианта от среднего уровня варьирующего признака, и выражается формулой:

~ tтабл.,

где t – критерий выпада (исключения);

x – выделяющееся значение призна­ка;

М – средняя величина для группы вариант;

tтабл. – стандартные значения критерия выпадов, определяемые свойствами нормального распределения, их можно найти по табл. 5П для трех уровней вероятности (для больших выборок обычно пользуются значением tтабл. = 2 при P = 0.95, или α = 0.05).

Используя этот показатель, можно утверждать, что для вариант, принадлежащих к данной достаточно большой выборке, нормированное отклонение меньше двух (с вероятностью P = 0.95):

t < 2.

Если же на отдельную варианту действовал какой-либо новый фактор, который вызвал дополнительное, т. е. не случайное, отклонение от средней, то такая варианта окажется за пределами указанного диапазона M±2S, а ее нормированное отклонение будет равно или больше двух: t ³ 2.

Нормированное отклонение есть простейший статистический критерий, который помогает определять так называемые "выскакивающие" варианты и решать вопрос о возможности их отбрасывания как артефактов (исключать из дальнейшей обработки). Смысл критерия "исключения" состоит в том, чтобы определить, находит­ся ли данная варианта в интервале, характерном для большин­ства членов выборки, или же вне его. Если зна­чение критерия больше табличного, то это означает, что дан­ное значение не относится к анализируемой совокупности, а есть проявление каких-то особых закономерностей, ошибок и пр. и должно быть поэтому исключено из рассмотрения (отброшено). При этом иногда рекомендуют значения параметров (M, S) рассчитывать без учета "подозрительной" варианты. После такой "чистки" параметры выборки должны быть рассчитаны заново. К оценке чужеродности вариант, как и к другим методам статистики, нельзя подходить формально; цель биометрического исследования всегда состоит в том, чтобы понять специфику явления. В частности, "отскакивающая" варианта может быть следствием того, что признак имеет иное, не-нормальное распределение.

Рассмотрим работу критерия на примере. При измерении длины черепа взрослых самцов обыкно­венной землеройки-бурозубки получены выборки с такими па­раметрами: М = 18.8, S = 0.3 мм. Общее число животных n = 85. Вызывают сомнения два слишком больших значения 19.2 и 21.0. Определим для них критерии выпада:

,

.

Согласно таблице 5П, критическое значение нормированного отклонения для уровня значимости α = 0.05 и n = 85 равно t = 2.0. Поскольку первое полученное значение (1.3) меньше табличного (2), первый из сомнительных результатов исключать не следует, а второй должен быть отброшен – критерий выпада (7.3) превышает таб­личное значение (2).

Понятие "нормированное отклонение" позволяет ввести важнейшее понятие статистики. Статистика – безразмерная случайная величина, которая имеет известный закон распределения и используется в качестве критерия для проверки статистических гипотез.

В этом смысле нормированное отклонение есть статистика. Во-первых, это безразмерная величина, поскольку единицы измерения числителя (xiM) и знаменателя (S) взаимно уничтожаются. Во-вторых, оно имеет вполне определенное распределение (в случае непрерывных признаков – нормальное) со своими параметрами. Его средняя равна нулю Mt = tM = (M–M)/S = 0, а стандартное отклонение равно единице St = tS = (SM)/S = (S–0)/S = S/S = 1. Последний тезис стоит рассмотреть более предметно, поскольку он имеет большое практическое значение.

Рассмотрим на примере конкретных данных, почему нормированное отклонение имеет такие параметры. Значения длины хвоста (Lc, мм) для выборки из n = 9 гадюк дают среднюю M = 73.1, стандартное отклонение S = 11.7 мм.

                  M S
xLc 73.1 11.7
tLc –1.29 –1.2 0.16 1.69 –0.69 1.01 0.50 –0.44 0.25 –0

Рассчитаем для каждого значения нормированное отклонение, например, для x = 59 t = (x–M)/S = (59–73.1)/11.7 = –1.20, а для x = 93 t = (93–73.1)/11.7 = 1.69. Нетрудно подсчитать, что для полученного ряда нового расчетного признака t средняя по всему ряду составит Mt = –2∙10-16 ≈ 0, стандартное отклонение St = 1.

Здесь важно подчеркнуть, что нормированное отклонение – универсальная величина. Какой бы признак (имеющий нормальное распределение) мы ни брали, его значения можно выразить в виде расстояния от центра в единицах стандартного отклонения, т. е. на сколько S данное значение x отклонилось от M. При этом, как следует из свойств нормального распределения, крайние значения в 95% случаев не будут принимать значения меньше –2 и больше 2 (рис. 5.1).

 

Рис. 5.1. Переход от реального признака x к нормированному отклонению t

 

С помощью нормированного отклонения можно, например, сравнивать объекты разного качества (организмы разных ви­дов, разных пород и сортов, разных возрастов) – по разным свойствам (признакам).

Так, промеры длины хвоста (Lc, мм) и длины тела (Lt, см) у выборки гадюк разного пола позволяют увидеть, что самец № 5 при средних размерах тела (xLt = 0.03) обладает относительно небольшим хвостом (tLc = –0.69), а самец № 6 при такой же длине имеет существенно более длинный хвост (tLc = 1.01).

 

Пол f f m m m m f m f M S
xLc 73.1 11.7
tLc –1.29 –1.20 0.16 1.69 –0.69 1.01 0.50 –0.44 0.25 0.00 1.00
xLt 49.9 3.3
tLt –1.47 –1.17 –0.57 –0.27 0.03 0.03 0.93 0.93 1.53 0.00 1.00

 

Нормированное отклонение можно использовать и для срав­нительной оценки разных индивидов по одному и тому же признаку. Например, если сопоставляемые по относительному весу сердца молодая и взрослая землеройки-бурозубки демонстрируют оди­наковые показатели (10.5 мг%), то это, тем не менее, не озна­чает их сходства по изучаемому признаку. Используя известную информацию (у молодых средний индекс сердца равен M = 10.0 при стандартном отклонении S = 1.3, у взрослых – M = 11.8, S = 1.1), рассчитаем нормированное отклонение для молодого зверь­ка

и для взрослого .

Налицо существенное различие: взрослый зверек имеет относительно низкий показатель сердеч­ного индекса, а молодой близок по этому признаку к ви­довой норме.

Наибольшее развитие такой подход получает в процедурах обработки многомерных данных, при исследовании объектов, охарактеризованных по многим признакам, методом корреляций, главных компонент, при их кластеризации и т. п. Во многих случаях обработка многомерного массива начинается с нормирования данных по формуле нормированного отклонения.


6

Задача "доказать отличие двух выборок"

 

Сравнение двух выборок не может быть самоцелью биологического исследования, поскольку современную биологию интересуют не просто факты, но их подоплека, не столько конкретное биологическое явление, сколько причина его возникновения. В этом ключе сравнение двух выборок выступает в роли метода поиска отличий в причинах, обеспечивших существование двух групп объектов (вариант) разного качества; в конце концов, это поиск влияния фактора, поиск закономерности. В свете рассмотренного ранее фрейма формирования выборок источник отличий между выборками следует усматривать в различии методик сбора данных, различиях объектов исследования по статусу или состоянию или в различиях условий существования объектов. Переводя эти случаи в форму статистического вопроса, можно спросить, сравниваемые выборки взяты из одной или разных генеральных совокупностей? Поскольку выборки могут быть охарактеризованы несколькими обобщающими параметрами, то и сравниваться они будут с помощью разных статистических методов.

Ранее было показано, что специфику выборки можно охарактеризовать с разных сторон, используя разные способы сравнения выборок. Задача сравнения двух выборок есть очевидное развитие задачи сравнения варианты с выборкой, это своеобразный поиск "чужеродности" всех вариант одной выборки по отношению к другой выборке.

 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.