Сделай Сам Свою Работу на 5

Построение вариационного ряда





 

Мы считаем, что любое статистическое исследование должно начинаться с установления характера распределения изучаемых признаков. Распределение – это соотно­шение между значениями случайной величины и частотой их встречаемости. Статистическая теория началась с идеи подсчитать, как часто случается то или иное событие. Бóльшая повторяемость одних значений по сравнению с другими заставляет задумываться о причинах, о закономерностях наблюдаемых процессов. В качестве первичного описания любого явления может выступить частотное распределение. Если значения признака откладывать по оси абсцисс, а частоты их встречаемости по оси ординат, то можно построить гистограмму, частотную диаграмму, удобную для целей иллюстрации и исследования.

Основой для построения гистограммы служит вариационный ряд – представленный в виде таблицы ряд значений изучаемого признака (первый столбец), расположенных в порядке возрастания с соответствующими им частотами их встречаемости в выборке (второй столбец).

Начнем с примера изучения плодовитости серебристо-черных лисиц, которое дало следующие результаты (число щенков на самку): 5565564445646646455853655555636464625653763468635



565438475431653456744656465.

Для дискретного признака (такова плодовитость) построение вариационного ряда обычно не представляет сложности, достаточно подсчитать встречаемость конкретных значений.

Плодовитость, x Частота, a

 

Гистограмма, построенная по данным о плодовитости лисиц (рис. 2.3), сразу же обнаруживает характерное поведение случайной величины – высокие частоты встречаемости значений в центре распределения и низкие по периферии.

Рис. 2.3. Распределение плодовитости лисиц

 

Если же изучаемый признак непрерывен (таковы размерно-весовые характеристики), то для построения вариационного ряда сначала весь диапазон изменчивости признака разбивается на серию равных интервалов (классов вариант), затем подсчитывают, сколько вариант попало в каждый интервал. Число классов для больших выборок (n>100) должно быть не менее 7 и не более 12, их оптимальное число можно приблизительно определить по эмпирической форму­ле:



k = 1+3.32∙lg(n), где п – объем выборки.

Составим для примера вариационный ряд для непрерывного признака – по данным о весе 63 взрослых землероек (г):

9.2 11.6 8.1 9.1 10.1 9.6 9.3 9.7 9.9 9.9 9.6
7.6 10.0 9.7 8.4 8.6 9.0 8.8 8.6 9.3 11.9 9.3
9.2 10.2 11.2 8.1 10.3 9.2 9.8 9.9 9.3 9.1 9.4
9.6 7.3 8.3 8.8 9.2 8.0 8.6 8.8 9.0 9.5 9.1
8.5 8.8 9.7 11.5 10.5 9.8 10.0 9.4 8.7 10.0 7.9
8.6 8.7 9.1 8.2 9.2 9.4 8.8 9.8      

 


1) Все операции могут

быть выполнены как вручную, так и с помощью функций Excel. Предвидя расчеты, на листе Excel данные лучше все-го разместить в столбце (на-пример, в блоке A2:A64). Да-лее следует определить объем выборки n, введя формулу в ячейку A1 и задав мышью диапазон: A1 =СЧЁТ(A2:A64).

 

2) Рассчитаем пределы размаха изменчивости значений,

лимит (разность между максимальным и минимальным значением):

Lim = Ymax – Ymin = 11.9–7.3 = 4.6,

B1 =МАКС(A2:A64)–МИН(A2:A64).

3) Найдем число классов вариационного ряда по формуле:

k = 1+3.32*lg(63) = 6.973811 ≈ 7,

С1 =1+3.32*LOG10(A1).

4) Найдем длину интервала dx (допустимо округление):

dx = Lim/ k = 4.6/ 7 ≈ 0.7,

D1 =B1/C1.

D2 =ОКРУГЛ(D1,1).

5) Установим границы классов; в качестве первой гра-ницы имеет смысл взять округ-ленное минимальное значение (D3 = 7). Для расчетов на листе Excel удобно к значениям пре-дыдущей границы прибавлять значение ширины интервала: D4 =D3+0.7 (или D4 =D3+$D$2); далее формулу следует ввести еще в семь ячеек, удобнее всего с помощью приема "автозапол-нение": D5 =D4+0.7 … (блок D5:D11).

6) Вычислить центральное значение признака в каждом клас-се. На листе Excel вычисления аналогичны рассмотренным в п. 4;




исходным берется значение центра первого интервала:

E4 =СРЗНАЧ(D4:D3) , E5 =E4+0.7, …, E10 =E9+0.7.

7) Произвести разноску вариант в соответствующие классы с подсчетом их числа методом конверта (табл. 2.2):

1 2 3 4 5 6 7 8 9 10 .

 
 

 


Таблица 2.2

Классы Центр классового интервала Подсчет частот Частоты, а
7 – 7.7 7.35
7.8 – 8.4 8.05
8.5 – 9.1 8.75
9.2 – 9.8 9.45
9.9 – 10.5 10.15
10.6 – 11.2 10.85
11.3 – 11.9 11.55
Сумма    

 

Для подсчета частот на листе Excel следует вызвать программу (макрос) построения вариационного ряда командой меню Сервис\ Анализ данных\ Гистограмма и заполнить окно. Каждое действие выполняется в два приема. Сначала нужно установить курсор в нужное окошко, щелкнув туда мышкой, затем мышкой же выделять соответствующие диапазоны ячеек листа Excel, нажимая левую кнопку над первой ячейкой диапазона и отпуская над последней (см. руководства к пакету Excel).

В качестве "Входного интервала" задать массив ячеек, содержащих исходные значения вариант (A2:A64). "Интервал карманов" – это блок значений правых границ классовых интервалов (D3:D11). Для "Выходного интервала" достаточно указать мышью одну ячейку (F3), это будет верхняя левая ячейка для блока результатов подсчета частот. После этого нажать ОК. Если все сделано правильно, появятся результаты, совпадающие с табл. 2.2. Однако необходимо помнить, что на листе Excel значения частот ставятся в соответствие не центрам классовых интервалов, но их правым (большим) границам.

 

 


Рис. 2.4. Построение вариационного ряда в среде Excel

 

Чтобы в дальнейшем не путаться, можно сразу переместить значения центров интервалов на место соответствующих карманов. Для этого выделим диапазон E3:E11, перетащим на место F3:F11, подтвердив замену содержимого ячеек (рис. 2.4). Пустая ячейка E3 нужна для упрощения операции автоматического построения диаграммы – значения для оси абсцисс (первый столбец) не должны быть подписаны, а ячейка над значениями для оси ординат (второй столбец) должна содержать надпись.

 

Рис. 2.5. Распределение бурозубок по весу тела

Теперь данные можно пред­ставить графически, в виде полигона частот (ломаной кривой) или гистограммы (столбиками). Выделим диапазон E3:F10 и с помощью Мастера диаграмм или кнопки Тип диаграммы построим Гистограмму или График (рис. 2.5). Отметим, что шкалирование осей диаграммы прошло автоматически.

Средняя

(характеристика величины признака)

 

Одной из важнейших обобщающих характеристик вариаци­онного ряда является средняя величина признака (часто обознача­ется буквой М). Существует несколько видов средних (сред­няя арифметическая – простая и взвешенная, средняя гармо­ническая, средняя квадратичная), но в практике биологических исследований наибольшее значение имеет средняя арифметиче­ская, величина, вокруг которой "концентрируются" варианты.

Физической аналогией может послужить такой образ средней арифметической для признака с нормальным распределением: средняя – это та точка вырезанного из картонки распределения, опираясь на которую левая и правая симметричные половинки уравновешивают друг друга.

 
 

Общая формула для определения величины средней ариф­метической – это отношение суммы значений всех вариант (xi) выборки к их числу (объему выборки, n):

.

Средняя арифметическая характеризует действие систематических факторов, дающих равный вклад в каждую варианту выборки, исходя из рассмотренной модели:

xi = xdi ± xri.

 

Выполняя суммирование

Σxi = Σxdi + Σ(±xri),

можно увидеть, что сумма случайных отклонений влево и вправо от средней в силу симметричности нормального распределения обращается в нуль (Σ(±xri) = 0). Значит, сумма вариант есть сумма эффектов действия только доминирующего фактора, одинакового для всех вариант (Σxi = Σxdi). Средняя арифметическая есть поэтому характеристика действия доминирующего фактора на одну варианту: M = Σxi /n = Σxdi/n. Модель варианты преобразуется: xi = M ± xri.

В среде Excel значение средней арифметической вычисляет функция =СРЗНАЧ(диапазон). Диапазоном может быть как один столбец, так и несколько. Для нашего примера с бурозубками средний вес составит С3 =СРЗНАЧ(A2:A64), M = 9.298412698. При расчетах статистических параметров следует помнить, что большое количество значащих цифр, рассчитанных ЭВМ, обычно не имеет никакого биологического смысла. Записывая такие статистические параметры, как средняя и стандартное отклонение, следует оставлять в лучшем случае на одну значащую цифру больше, чем имели значения вариант, а оценки ошибок – на две значащих цифры. Поскольку масса тела бурозубок колебалась от 7.3 до 11.9 г, средняя с учетом округления должна иметь вид M = 9.3 г.

В биологических исследованиях зачастую встречается ситуа­ция, когда требуется первичная статистическая обработка большого числа выборок, но необязательно с большой точностью. Это может понадобиться для предварительного рас­смотрения и оценки материала, в частности для оперативного выявления общих тенденций его изменчивости, с тем, чтобы в дальнейшем перейти к специальным методам статистического анализа. Таковы, например, параметры многочисленных поч­венных проб, результаты лабораторных анализов, морфологи­ческие характеристики разных групп животных, органов рас­тений, физиолого-биохимические показатели и др. В этих слу­чаях вычисление средней арифметической по пред­ложенной формуле неоправданно из-за большой трудоем­кости и неадекватной задачам исследования избыточной точности. Между тем знание закона нормального распределения позволяет предложить простой экспресс-метод расчета средней арифметической с использова­нием полученного для данной выборки размаха значений (Lim). В случае нормального распределения средняя арифметическая находится точно по центру (совпадает со значением медианы), т. е. левая и правая границы распределения (с любой принятой вероятностью) находятся на одинаковом расстоянии от средней. В выборке объемом n>30 крайние значения удалены от средней на расстояние 2S (с вероятностью P = 95%): xmin = M–2S, xmax = M+2S, и среднюю арифметическую можно рассчитать по формуле медианы:

Для бурозубок эта средняя составит M = (7.3+11.9)/2 = 9.6 г, что вполне соответствует действительности.

В случаях, когда необходимо объединить результаты расчетов по нескольким выборкам и на этой основе найти общую среднюю, характеризующую весь изученный материал, пользуются взвешенной средней, которая учитывает объемы частных выборок:

,

где Mj – значение частной средней,

nj – условные "веса" частного значения, объемы выборок.

Чтобы рассчитать среднюю взвешенную, необходимо значение средней арифметической помножить на его "вес", все эти произведения сложить и сумму разде­лить на сумму весов. Пусть получены результаты определения средней величины выводка у рыжих полевок (экз./ самку) по месяцам: май 5.0, июнь 5.4, июль 6.2, август 6.0, сентябрь 4.5, причем известно число определений (самок) для каждого месяца: 22, 43, 103, 33 и 5. Средняя взвешенная составит:

M = (5∙22+5.4∙43+6.2∙103+6∙33+4.5∙5)/ (22+43+ 103+33+5) = 5.8.

Вычисление общей средней арифметической обычным спо­собом дает в этом случае заниженную характеристику:

М = (5+5.4+6.2+6+4.5)/5 = 5.4.

Помимо средней арифметической важную область применения находит и средняя квадратич­ная. Ее употребляют при вычислении средних площадей, диа­метров, радиусов, например, при расчете среднего размера клеток микроскопических водорослей, диаметра эритроцитов, величины листовой пластинки у растений, размеров колоний микробов и т. д. Средняя квадратичная равняется корню квадратному из суммы квадратов вариант, отнесенной к их общему числу, и рассчитывается по формуле:

Применение этой величины оправдано тем, что указанные признаки имеют несимметричное нормальное распределение, но обладают резко выраженной асимметрией. Возведение в квадрат сильнее сказывается на больших значениях, по сравнению с меньшими, частоты больших значений повышаются, распределение становится более симметричным, близким к нормальному, а средняя арифметическая для квадратов делит распределение пополам. Поэтому средние квадратичные обладают свойствами полноценных средних, тогда как простые средние арифметические, рассчитанные по таким данным, дают смещенные оценки.

Если, например, отдельные измерения диаметра эритроцитов дали следующие результаты: 7, 8, 10, 8, 11 и 6 мкм, то средний диаметр, найденный как среднее квадратичное, будет:

,

тогда как простая средняя арифметическая дает величину 8.3.

В число прочих констант вариационного ряда входит медиана (Me), значение, делящее размах выборки пополам, и мода (Mo), класс (или значение), представленный наибольшим числом вариант.

 

Стандартное отклонение

(и другие показатели изменчивости)

 

Среднее квадратичное отклонение (или стандартное отклонение, S) – вторая по значению константа вариаци­онного ряда. Она является мерой разнообразия входящих в груп­пу объектов и показывает, на сколько в среднем отклоняются варианты от средней арифметической изучаемой совокупности.

Продолжим рассмотрение физической аналогии, предложенной для средней. Разрежем вырезанное из картонки нормальное распределение по вертикальной линии строго пополам, начиная с точки средней арифметической. Стандартное отклонение для признака с нормальным распределением – это та точка половинки вырезанной из картонки фигуры распределения, опираясь на которую левая и правая несимметричные части уравновешивают друг друга.

 

 
 

 

 


Стандартное отклонение есть мера изменчивости признаков, обусловлен­ная влиянием на них случайных факторов. Что такое "случайное" при детальном рассмотрении? В формуле модели вариант случайный компонент предстает в виде некой "добавки" к доле варианты, сформированной под действием систематических факторов, ± xслуч.. Она, в свою очередь, складывается из эффектов влияния неопределенно большого числа факторов: xслуч. = Σ xслуч.j.

Каждый из этих факторов может обнаружить свое сильное действие (дать большой вклад), а может почти не участвовать в становлении варианты (слабое действие, незначительный вклад). По этой причине доля случайной "прибавки" для каждой варианты оказывается различной! Рассматривая с большим пристрастием какие-либо характеристики животных, например размеры дафний, можно увидеть, что одна особь крупнее, другая мельче, поскольку одна родилась на несколько часов раньше, другая позже, или одна генетически не вполне идентична прочим, а третья росла в более прогреваемой зоне аквариума и т. д. Если эти частные факторы не входят в число контролируемых при сборе вариант, то они, индивидуально проявляясь в разной степени, обеспечивают случайное варьирование вариант. Чем больше случайных факторов, чем они сильнее, тем дальше будут раз­бросаны варианты вокруг средней, и тем большим оказывается характеристика варьирования, среднее квад­ратичное отклонение. Подчеркнем еще раз, что в контексте нашей книге термин "случайное" есть синоним слова "неизвестное", "неподконтрольное". Пока мы каким-либо способом не выразим интенсивность фактора (группировкой, градацией, числом), до тех пор он останется фактором, вызывающим случайную изменчивость.

Рассмотрим путь получения числовой характеристики изменчивости. Исходя из общей модели варианты xi = M ± xri, доля случайной изменчивости составит xri = xi – M.

Простое обобщение (суммирование) эффектов действия случайных факторов для всей выборки невозможно (Σ(±xri) = 0), поэтому разность возводят в квадрат и затем извлекают из нее корень:

.

Отнеся полученное значение к объему выборки, получаем среднюю долю значения варианты, сформированной под действием всех случайных факторов:

.

Эта формула могла бы служить для вычисления характеристики случайного варьирования, однако, как показано в математической статистике, она дает смещенные оценки, и более правильно применять другую формулу, использующую вместо объема выборки n число степеней свободы n–1.

Итак, величина стандартного отклонения выражается следующей смысловой формулой:

,

где x – значение признака у каждого объекта в группе;

М – средняя арифметическая признака;

п – число вари­ант выборки.

 

Общая же рабочая формула расчета точного значения стандартного отклонения (заложенная и в алгоритм приведенной программы для ЭВМ) имеет следующий вид:

,

где Σx² – сумма квадратов значений признака для всех вариант, Σx – сумма значений признака,

n – объем вы­борки.

В среде Excel стандартное отклонение вычисляется с помощью функции =СТАНДОТКЛОН(диапазон). Для примера с массой тела бурозубок стандартное отклонение будет равно:

С4 =СТАНДОТКЛОН(A2:A64), т. е. S = 0.897216496;

после необходимого округления S = 0.897 г.

В некоторых случаях бывает необходимо определить взвешенное сред­нее квадратичное отклонение для суммарного распределения, составленного из нескольких выборок, для которых значения стандартных отклонений уже известны. Эта задача решается с помощью формулы:

,

где SΣ – усредненная величина среднего квадратичного откло­нения для суммарного распределения;

S ­­– усредняемые значе­ния стандартного отклонения;

п – объемы отдельных выборок;

k – число усредняе­мых стандартных отклонений.

Рассмотрим такой пример. Четыре независимых определе­ния веса печени (мг) у землероек-бурозубок в июне, июле, ав­густе и сентябре дали следующие величины стандартных отклонений: 93, 83, 50, 71 (при n = 17, 115, 132, 140). Подставив в вышеприведенную фор­мулу нужные значения, получим стандартные отклонения для суммарной выбор­ки (для всего бесснежного периода):

= 69.9.

 

В случае, если требуется первичная статистическая обработка большого числа выборок, но необязательно с большой точностью, для оценки стандартного отклонения можно воспользоваться экспресс-методом, основанным на знании закона нормального распределения. Как уже отмечалось, крайние значения для выборки (с вероятностью P = 95%) можно считать границами, удаленными от средней на расстояние 2S: xmin = M–2S, xmax = M+2S. Это значит, что в лимите (Lim), в диапазоне от максимального до минимального выборочного значения, укладываются четыре стандартных отклонения: Lim = (M+2S) (M–2S) = 4S. Однако этот вывод справедлив только по отношению к выборкам большого размера, тогда как для небольших выборок необходимо делать поправки. Рекомендуется следующая формула приблизительного расчета стандартного отклонения (Ашмарин и др., 1975):

,

где величина d взята из таблицы 2.3 (против соответствую­щего объема выборки, n).

 

Таблица 2.3

п d п d п d n d
1.128 2.704 3.258 3.588
1.693 2.847 3.336 3.640
2.059 2.970 3.407 3.689
2.326 3.079 3.472 3.735
2.534 3.173 3.532 более

 

Выборочное стандартное отклонение веса тела бурозубок (n = 63), рассчитанное по приведенной формуле, составляет:

S = (11.9–7.3)/4 = 1.15 г,

что достаточно близко к точному значению, S = 0.89 г.

Использование экспресс-оценок стандартного отклонения значительно сокращает время расчетов, существенно не сказываясь на их точности. Отмечается лишь небольшая тенденция к завышению получаемых этим методом значений стандартного отклонения при небольших объемах выборок.

Стандартное отклонение – величина именованная, поэтому с ее помощью можно сравнивать характер варьирования лишь одних и тех же признаков. Чтобы сопоставить изменчивость разнородных признаков, выраженных в различных единицах измерения, а также нивелировать влияние мас­штаба измерений, используют так называемый коэффициент вариации (СV), безразмерную величину, отношение выборочной оценки S к собственной средней M:

.

 

В нашем примере с весом тела бурозубок

9.6 %.

Индивидуальная изменчивость (варьирование) признаков – одна из наиболее емких характеристик биологи­ческой популяции, любого биологического процесса или явле­ния. В связи с этим особенно важно правильно оценивать сте­пень варьирования показателей, что представляется отнюдь не простой задачей, особенно в свете дискуссий о способах измере­ния и изучения изменчивости. Не затрагивая чисто методиче­ских аспектов проблемы и оставляя последнее слово за специа­листами-математиками, следует, тем не менее, согласиться с мнением о том, что коэффициент вариации может считаться вполне адекватным и объективным критерием, хорошо отражающим фактическое разнообразие совокупности независимо от абсолютной величины признака. Индекс был создан для унификации показа­телей изменчивости разных или разноразмерных признаков пу­тем приведения их к одному масштабу. Отнесением квадратич­ных отклонений к соответствующим средним мы переводим их в соизмеримые показатели и тем самым освобождаем от влия­ния величины самого признака. Практика показывает, что для многих биологических признаков наблюдается увеличение изменчивости (стандартного отклонения) с ростом их величины (средней арифметической). При этом коэффициент вариации остается примерно на одном и том же уровне 8–15%. За увеличение коэффициента вариации ответственны, как правило, растущие отличия распределения признака от нормального закона.


3

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.