Свойства нормального распределения

Предыдущая 1 2 3 456 7 8 9 10 11 12 13 14 15 16 Следующая

Биометрия изучает поведение биологических случайных величин. Начиная биологический эксперимент или приступая к наблюдению, невозможно точно сказать, каков будет результат – уровень численности животных в данном районе, вес еще не отловленных особей, количество сахара в крови через час после введения препарата и т. п. В этом смысле биологические явления случайны, точно не предсказуемы. Однако любому биологу ясно, что случайность эта не абсолютна. Несмотря на сложность точного прогноза, приблизительный результат можно предугадать, в частности, предсказав, что интересующая нас величина будет находиться в пределах некоторого интервала между конкретными минимальными и максимальными значениями. Ясно, например, что рост очередного встречного взрослого человека вряд ли превысит два метра или будет меньше полутора метров. Такого рода прогноз можно дать, ориентируясь на повторяемость однотипных наблюдений, на распределение случайных величин. Распределение – это соотношение между значениями случайной величины и частотой их встречаемости. Если значения признака откладывать по оси абсцисс, а частоты их встречаемости по оси ординат, то можно построить гистограмму, удобную частотную диаграмму. Изучая такие признаки, как размеры и массу тела, мы наблюдаем повторяемость одних значений и редкость встреч других. Как мы видели, это было характерно для веса тела землероек. При этом числовые значения вариант располагаются в некоторой ограниченной зоне, в центре которой их особенно много, а по краям мало. Такое распределение называют нормальным. Его форма помогает строить прогнозы.

Так, в случае продолжения отлова зверьков выше будет вероятность отловить таких новых особей, масса тела которых окажется ближе к центральному значению, чем к крайним. Знание математического закона распределения анализируемого признака позволяет предсказывать значения вариант много точнее – с некоторой вероятностью. Закон нормального распределения случайной величины задан уравнением:

где , нормированное отклонение для конкретного признака; M, S – параметры нормального распределения..

Уравнение определяет ход кривой линии, имеющей характерную колоколообразную форму, т. е. позволяет вычислить ординаты нормальной кривой, или "плотность вероятности" (p). Вероятность – численная мера возможного, определяется как отношение числа вариант (исходов испытаний) определенного вида к общему числу вариант (опытов). Поскольку нормальное распределение характерно для непрерывных случайных величин, говорят не о вероятности какого-то определенного значения варианты, но о "плотности вероятности", отражая тем самым плавность изменения вероятности значений для разных значений t, чем ближе к центру распределения, тем плотность вероятности выше. С помощью уравнения плотности вероятности можно рассчитать (интегрируя) вероятность появления нового значения случайной величины в том или ином интервале значений t. Итак, формула количественно выражает вполне определенные свойства поведения случайной величины, из которых можно назвать следующие практически важные следствия:

1. Все варианты лежат в интервале плюс-минус бесконечность. Иными словами, с вероятностью P = 1 (P = 100%) мы вправе ожидать появление новой варианты в пределах от –∞ до +∞. Слева и справа от средней арифметической лежит по 50% вариант, т. е. с вероятностью P = 0.5 (50%) можно предсказать появление новой варианты в интервалах M–∞ и M+∞.

2. В интервале от M–1S до М+1S лежат 68.3% всех вариант; с вероятностью P = 0.683 (P = 68.3%) можно прогнозировать появление новой варианты на расстоянии ±1S от средней, или в диапазоне M±S.

3. Между M–1.96S до М+1.96S лежит 95% вариант. Это позволяет с 95%-ной вероятностью предполагать, что новая варианта окажется в интервале М±1.96S (округленно М±2S – так называемое правило двух стандартных отклонений).

4. С вероятностью P = 0.99 значение новой варианты будет заключено в пределах М±2.58S и с вероятностью P = 0.999 – в интервале М±3.3S.

Исходя из сказанного, можно оценить вероятность появления новых значений признака. В отношении непрерывных случайных величин (метрических признаков) эта процедура сводится к так называемой интервальной оценке. Для полученных ранее характеристик, массы бурозубок, средней M = 9.26 и стандартного отклонения S = 0.79 (г), находим доверительные интервалы: M±1S = 9.26±0.78, M±1.96S = 9.26±1.53. Новое значение признака с вероятностью P = 0.68 ожидается в пределах 8.47–10.6 г., а с вероятностью P = 0.95 –между 7.68 и 10.82 г. Предсказание веса землероек, конечно, не имеет большого практического значения и приводится нами исключительно для иллюстрации. Гораздо важнее может быть прогноз численности ценных промысловых видов, сельскохозяйственных вредителей, вспышек болезней, урожая культурных растений и т. п. Эти прогнозы также основаны на оценке доверительной вероятности ожидаемого события.

Важнейшее значение для практического применения имеет "соглашение о 95%". В соответствии с ним совокупности, состоящей из 95% особей (объектов), мы доверяем так же, как и 100%-ной. Термин "доверительная вероятность P = 0.95" означает, что, согласно принятому допущению, 95% вариант достаточно полно характеризуют изучаемое явление (в данном случае изменчивость веса землероек), что позволяет ограничиться рассмотрением вариант в области М±1.96S, охватывающей эту 95%-ную совокупность. Так, мы принимаем, что нормальный вес землероек данного вида может изменяться в пределах 7.7–10.8 г, не больше и не меньше. За этими пределами мы обнаруживаем животных иного вида или статуса.

При этом в биометрии обычно довольствуются доверительной вероятностью P = 0.95 (уровень значимости α = 0.05), хотя в наиболее ответственных исследованиях принимают и более строгие уровни – P = 0.99 и P = 0.999. Однако это имеет смысл лишь при очень больших выборках исходных данных, точно описывающих закономерности изменчивости признаков. Обычно же выборки не очень велики, что позволяет ограничиться меньшей степенью доверительной вероятности Р = 0.95.

"Уровень значимости" – понятие, альтернативное доверительной вероятности и, соответственно, составляет разность между единицей и доверительной вероятностью (α = 1–P). Для доверительной вероятности 0.95 уровень значимости составляет 0.05, а для 0.99 и 0.999 – соответственно 0.01 и 0.001. Уровень значимости, равный 0.05 (5%), можно интерпретировать так: имеется всего 5% шансов, что полученная величина не будет соответствовать изучаемой совокупности. Уровень значимости – это тот теоретический процент вариант нормального распределения, который можно отбросить, не учитывать, дабы с меньшими усилиями получить основную информацию об изучаемом явлении. Можно целую жизнь положить на попытки отловить обыкновенную землеройку-бурозубку весом 2.5 г, но так и не собрать выборку, достаточную по объему, чтобы это реализовать (миллионы особей). Поэтому использование доверительной вероятности и уровня значимости можно назвать средством (теоретической базой) разумного ограничения материала (времени и масштабов исследования), позволяющего получить достоверную общую информацию за счет исключения ничтожной доли частной (излишне конкретной). В итоге такой прием дает возможность найти границы нормальной изменчивости изучаемых признаков и отбросить ошибочные, наведенные и артефактные значения.

Предыдущая 1 2 3 456 7 8 9 10 11 12 13 14 15 16 Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: