Сделай Сам Свою Работу на 5

Выборка и ее статистическое описание





 

Биометрическое исследование в центр внимания всегда ставит выборку. В статистическом смысле выборка – набор чисел, множество значений случайной величины, совокупность вариант; отдельная варианта – это число. С предметной стороны, варианта предстает как объект, носитель числа, а выборка – как группа объектов. В процессе формирования выборки участвует несколько агентов, которые необходимо иметь в виду для правильной интерпретации различий между выборками. Основная особенность выборки как множества значений случайной величины – это отличие отдельных вариант друг от друга, явление изменчивости.

 

Процесс формирования выборки

В поисках причин варьирования детально рассмотрим отдельную варианту, единичное значение – число.

Для понимания структурно-логической сущности числа в биометрическом исследовании требуется привлечение как минимум четырех понятий: объект, признак, фактор, метод; вместе они образуют элементарный фрейм, логическую структуру минимального размера, необходимую для понимания существа процесса появления выборки.

 
 

 


Число есть количественное выражение признака некоего объекта, полученного при данном уровне фактора внешней среды вполне определенным методом. С помощью этого фрейма очень просто показать основные направления тиражирования чисел, т. е. набора множества вариант, формирующих выборки, а также основные трудности с этим связанные.



 

Метод

 

Процедура получения чисел (вариант), включающая субъекта, методику, инструмент их измерения и регистрацию. Простейший способ получения выборки – использование разных методов измерения одного и того же объекта. В этом случае отличия повторных примеров будут характеризовать разнокачественность применяемых методик, инструментов или уровни навыка участвующих исполнителей. При этом разные методы обладают разной способностью сообщить вариантам случайные ошибки (неточность оценок) и систематические ошибки (смещение оценок). По этой причине те выборки, варианты которых получены разными методами, обладают заведомо большей изменчивостью, чем выборки методически однородные. Рассмотренная тема приводит к очевидной рекомендации – для формирования сравнимых выборок использовать единую методику, одинаковый инструмент, "одни руки"; это, впрочем, далеко не всегда возможно.



Приступая к составлению выборки, метод ее получения следует соотнести с теми статистическими методами, что планируются для анализа количественных материалов, – не исключено, что выбранная процедура измерений не годится для формирования корректных выборок. Грубые методы (оценки "на глаз") позволяют дать только грубые оценки – качественные, или баллы; точные инструментальные методы позволяют получать гораздо более эффективные характеристики в форме непрерывных признаков, дробных чисел. В частности, балльные оценки можно статистически исследовать только с помощью непараметрических приемов, тогда как для непрерывных количественных признаков можно использовать, кроме того, точные и высокоэффективные параметрические методы.

Важно отметить, что точность инструмента измерения и точность метода измерения – разные понятия. В первом случае говорят о технической характеристике. Под точностью метода подразумевается понятие точности (погрешности) измерительной процедуры, т. е. возможность воспроизведения тех же результатов при повторном измерении одного и того же объекта. Помимо точности (состояния) прибора здесь фигурируют еще и навыки исследователя, и точность инструкции, и особенности условий проведения измерений (влажность, радиация и др.). Можно поэтому утверждать, что точность метода всегда ниже, чем точность инструмента. Это значит, что биологам нет смысла проводить измерения очень точными приборами, если сама процедура измерения предполагает широкое варьирование. В частности, длина тела мелких млекопитающих многими зоологами измеряется штангенциркулем. Во время измерения зверек лежит на столе. При этом у зверьков, попавших в давилки недавно, еще не проходит трупное окоченение, и их позвоночник физически невозможно "распрямить", тогда как мышцы немного "лежалых" зверьков расслабляются и позвоночник выпрямить просто. Промеры зверьков "разной свежести" обязательно дадут отличающиеся результаты с погрешностью 1–2 мм. Зачем в таком случае использовать штангенциркуль с ценой деления 0.1 мм, если удобнее (проще и быстрее) проводить измерения этих мелких животных на миллиметровой бумаге? На наш взгляд, точность измерительного инструмента (и трудоемкость измерения) должна быть соотнесена с погрешностью самой процедуры измерения. В любом случае выбор в пользу того или иного метода регистрации вариант (чисел) требует предварительной оценки их погрешности (причем разными исполнителями, дабы не превращать науку в искусство).



 

Признак

 

Признак (свойство, показатель, величина, характеристика, переменная) – любая информация о наблюдаемом объекте, выраженная качественно или количественно определенная. В рамках вариационной статистики любые признаки выступают в роли случайной величины. Случайная величина – численная характеристика, принимающая те или иные заранее точно не известные значения. Несмотря на то, что точное описание поведения случайной величины получить нельзя, статистика способна выполнить вероятностное описание, позволяющее за множеством частных случаев увидеть их единство и дать довольно точные интервальные предсказания, решить поставленные биологией вопросы. Максимально эффективно это можно сделать, если не упускать из вида требования к формированию выборок.

На этапе выбора (конструирования) признака следует иметь в виду ряд обстоятельств. Число свойств (признаков) любого объекта бесконечно, поэтому выбор того или иного признака должен хорошо соответствовать цели исследования. Довольно часто в биометрических исследованиях используются традиционные, общепринятые признаки ("стандартные промеры"), что само по себе не гарантирует адекватности рассматриваемого признака целям данного исследования или планируемого способа статистической обработки. Например, традиционные зоологические промеры "длина тела", Lt, и "длина хвоста", Lc, имеют общую опорную точку на теле животного – передний край анального (клоакального) отверстия. Во время измерения кожа неизбежно натягивается и эта точка всегда смещается относительно тела, что одновременно сказывается на обоих названных промерах, причем прямо противоположным образом. Если по выборке таких промеров оценить средние, они будут адекватно реальности отражать обобщенное свойство выборки животных и могут быть использованы для статистических сравнений с другими выборками. Если же использовать методы, изучающие зависимости признаков (корреляционный, регрессионный), то обозначенная методическая погрешность синхронного искажения промеров будет приводить к появлению ложной корреляции, тем более сильной, чем "чище" выборка, чем более сходны животные друг с другом (например, группа одновозрастных однополых особей). В соответствии с биологическим смыслом корреляция между размерами тела и хвоста должна быть положительной (чем больше животное, тем больше у него хвост). Однако ложная корреляция будет отрицательной (чем больше промер тела, тем меньше длина хвоста), она будет вычитаться из общей и тем самым искажать представления об истинной зависимости между признаками. Избежать таких проблем можно, используя видоизмененные признаки, например сумму длины тела и хвоста, т. е. признак "длина позвоночника".

Подходя к формированию выборки, нужно определиться с числом регистрируемых признаков; если их будет несколько, каждая варианта (объект) окажется носителем нескольких значений.

 

 

 
 

 

 


Варианта с одним признаком Варианта с тремя признаками

Увеличивая число зарегистрированных свойств, мы получаем возможность усложнять методы статистической обработки и от одномерных методов (описательная статистика) переходить к поиску зависимостей между двумя характеристиками (дисперсионный, регрессионный, корреляционный анализ) и многомерному анализу (кластерный, дискриминантный, компонентный анализы). Обычно регистрация нескольких признаков предполагает последующее применение корреляционного анализа. В этом случае имеет смысл позаботиться о том, чтобы признаки были одного вида (лучше, чтобы они были непрерывными).

Вариационная статистика может дать биологу множество эффективных способов количественного описания наблюдаемых явлений, которые позволяют с наименьшими ошибками получить точное статистическое (доказательное) суждение в рамках соответствующего статистического метода. Эти рекомендации относятся как к выбору статистического параметра, соответствующего цели, так и к способу количественного описания фактов.

Существует целый ряд методов регистрации признаков биологических объектов.

Качество (нечисловой дискретный признак) – простой, непосредственный, чувственный способ регистрации фактов; это статус, сезон, таксон, цвет, плотность, тип действия и пр. Значения таких признаков выражаются словами или символами, они не имеют количественного содержания и выражают принадлежность данного объекта к определенной обширной группе объектов (зеленый, январь, ♀, ♪).

Для обработки с помощью количественных статистических методов таким признакам придают количественное содержание разными способами. Простейший прием состоит в подсчете частоты встречаемости объектов разного качества в выборке. Так можно оценить соотношение числа особей разного пола в популяции, соотношение объемов возрастных групп, видовое разнообразие в экосистеме.

Другой способ состоит в переводе качественных характеристик в полуколичественные, в ранги и баллы. Например, серия генераций разновозрастных животных может быть обозначена как 1, 2, 3,… Если, в соответствии с этой шкалой, одной особи будет присвоен ранг 1, а другой – 3, это означает только то, что вторая особь старше первой, но вовсе не в три раза. Другой пример относится к косвенной (полуколичественной) характеристике зон загрязнения вокруг промышленного предприятия. Обычно по мере удаления от источника выбросов уровень загрязнения среды снижается. Это можно выразить, ранжируя некоторые зоны в порядке ослабления влияния как 1, 2, 3 и т. д. Если же помимо общих соображений есть некие данные о степени загрязнения (по интенсивности запыления, угнетения растительности или другим признакам), зоны загрязнения могут получить балльную оценку, например, 10, 2, 1. В отличие от рангов баллы сообщают не только порядок, но и степень отличия градаций изучаемой характеристики. В нашем примере первая зона загрязнена существенно сильнее по сравнению со второй, чем вторая по сравнению с первой.

Многие из качественных признаков оказываются следствием использования грубых (прикидочных, визуальных, чувственных) методов исследования, но их в принципе можно перевести в количественные показатели с помощью соответствующих процедур и приборов (это третий способ). Так, зоны загрязнения можно охарактеризовать в единицах концентрации вредных веществ, измеренных химическими или физическими методами; цвета спектра выражают в единицах длины волны электромагнитного излучения, ноты (звуки) – частотой колебаний в герцах и т. д.

Ранг (номер) – дискретный полуколичественный признак, выражающий особенности объекта измерения относительно соседних с ним объектов другого качества. Ранжирование вариант – это процедура упорядочивания объектов по степени увеличения или снижения выраженности какого-либо качества, воспринимаемого органами чувств. Ранг позволяет говорить только о направлении отличий объектов, но не о степени этих отличий (например, у объекта 1 качество выражено слабее, чем у объекта 5 и у объекта 10, но вовсе не в 5 и 10 раз). Процедура ранжирования применяется и для упорядочивания вариант в алгоритмах непараметрической статистики.

Балл (оценка) – дискретный полуколичественный признак, численная характеристика объекта, присвоенная в соответствии с внешней заранее принятой шкалой (Перегудов, Тарасенко, 1981; Зайцев, 1990). Вначале разрабатывается некая шкала баллов, учитывающая весь возможный диапазон изменчивости регистрируемых (чаще всего чувственно) качественных признаков и снабженная точными критериями различения объектов разного статуса, соответствующих разным баллам. Во время оценки объект соотносится с этими критериями и ему присваивается соответствующий балл.

В качестве примера рассмотрим шкалу балльной оценки проективного покрытия чем-нибудь какой-либо поверхности. Зрительно человек хорошо отличает отсутствие покрытия (0 баллов – 0%) от единичных объектов (1 – 1–5%), единичные – от слабого покрытия (2 – 5–30%), слабое – от сильного (3 – 40–70%), сильное – от сплошного (4 – 90–100%). По этой причине соотношение между балльными и прямыми количественными оценками не прямо пропорциональное, а имеет степенное выражение (рис. 2.2).

Рис. 2.2. Соотношение между оценками и баллами

 

Это значит, что баллы 2 и 4 не обладают свойствами чисел 2 и 4, в частности, балл 4 не в два раза больше балла 2, для них арифметические и алгебраические операции применять нельзя, только логические операции сравнения. По этой причине для статистической обработки балльных оценок требуются специальные, непараметрические, методы. Это значит, что для рангов и баллов нельзя обычными методами рассчитывать многие выборочные параметры, например средние и дисперсии. Точнее говоря, их рассчитывать можно, например, для иллюстративных целей. Но эти величины не будут обладать свойствами статистических параметров, в частности, их нельзя статистически сравнивать (с помощью критериев Стьюдента или Фишера). Корректно будет характеризовать выборки балльных оценок с помощью частотных распределений, моды, размаха изменчивости. Балльные оценки оказываются грубыми и приблизительными. В соответствии с этим и методы непараметрической статистики могут иметь только невысокую точность статистических выводов.

Известным хорошим компромиссом оказывается так называемая "шкала желательности", процедура преобразования качественных признаков в количественные с возможностью последующей обработки точными статистическими методами. Шкала желательности позволяет установить "соответствия между физическими и психологическими критериями" (Адлер и др., 1976, с. 36). С ее помощью любые характеристики среды (количественные или качественные) получают субъективную оценку исследователя, выраженную, тем не менее, числами в диапазоне от 0 до 1. В отличие от баллов функция желательности (d) является непрерывной величиной. Выраженность качества объектов наблюдения соотносят с заранее определенной целью или разной ролью значений изучаемых признаков в достижении этой цели. Чем более важно данное значение на пути к этой цели, тем более высокую оценку желательности оно получит.

При формировании шкалы функции желательности для отдельного признака неким стандартом служит шкала из 5 интервалов (Адлер и др., 1976, с. 36) (табл. 2.1). Каждому интервалу функции ставят в соответствие определенные уровни выраженности свойств объектов измерений. Характеристика выраженности признака в ключевых точках (0.2, 0.37, 0.63, 0.80) должна быть как можно более точной. В качестве примера приведена шкала желательности для оценки качества воды водоема в целях рекреации (Калинкина, 1989).

 

 

Таблица 2.1

Желательность Диапазон значений функции желательности Пример шкалы желательности качества воды
Очень хорошо 1.00 – 0.80 Чистая прозрачная вода
Хорошо 0.80 – 0.63 Чистая слегка желтоватая вода
Удовлетво-рительно 0.63 – 0.37 Темная вода или замутненная взвесью
Плохо 0.37 – 0.20 Мутная вода с легким неприятным запахом
Очень плохо 0.20 – 0.00 Грязная пахнущая вода

После разработки шкалы с ее помощью можно проводить количественные оценки качества объектов. Полученный таким образом количественный признак оказывается непрерывным. Это свойство используется для объединения нескольких признаков, оцененных в разных шкалах желательности, в обобщенную функцию желательности (среднее геометрическое из n частных функций): . В результате мы получаем интегральную характеристику, учитывающую значимость всех регистрируемых признаков. Продолжая наш пример, можно оценить рекреационное качество среды в целом, учитывая не только желательные характеристики воды, но и почвы (берега), воздуха, ландшафта, растительности и пр. Используя такой емкий показатель, можно гораздо точнее формулировать приоритеты научно-практической деятельности.

Сходный метод построения количественных шкал оценок относительной важности разных видов деятельности разработан в рамках метода анализа иерархий (Саати, Кернс, 1991).

В заключении отметим, что показатели желательности или относительной важности являются близкими аналогами обобщающих характеристик, используемых в многомерных методах анализа (см. раздел 9).

Количество (число) – дискретный количественной признак (число натурального ряда), характеризующий множество однородных объектов, черт, деталей строения, состав (например, число эмбрионов у самки, число жаберных тычинок у рыб, число тычинок в цветке, число деревьев на пробной площадке). Отдельную варианту получают, подсчитав число неких дискретных черт строения у отдельного объекта в пространстве ограниченного объема, а также в отдельной пробе. Это очень важное понятие. Оно дает одну из возможностей перевода качественных признаков в количественные и, кроме того, раскрывает смысл формирования частотных распределений разного типа. Для иллюстрации понятия "проба" рассмотрим умозрительный пример описания полового состава популяции животных. Если просто подсчитать число самок и самцов, то мы получим два числа, которые можно свести к одному – доле самок в процентах. Если же брать пробы, к примеру, по 10 особей, то число самок в разных пробах будет широко варьировать, создавая тем самым выборку различных вариант. Поскольку для чисел натурального ряда выполняются все операции арифметики, количественные признаки можно обрабатывать всеми параметрическими методами статистики. Для такой выборки можно рассчитать статистические параметры и проводить сравнение с параметрами других выборок.

Промер (ряд дробных, рациональных, чисел) – непрерывный (мерный) количественный признак, характеризующий свойства объектов с помощью различных дополнительных количественных шкал – температурной, весовой, размерной, объемной и т. п. Отдельная варианта получает количественную характеристику выраженности данного признака у данного объекта (в пределах точности метода): температуру тела, его размеры, уровень глюкозы в крови и т. д. Большинство методов статистики разработано для исследования именно таких непрерывных признаков (параметрические методы).

Объект

Объект – биологический феномен, на который направлено внимание исследователя. Здесь важно различать два понятия. Объект исследования – это общее понятие, обозначающее биологический предмет (организм, популяция, экосистема) или биологическое явление (размножение, динамика численности, сукцессия). В результате научной деятельности исследователь получает знание об объекте исследования. Объект измерения – это конкретный представитель объекта исследования (особь, группа особей в данной местности, результаты отловов, временные ряды), который непосредственно (материально) измеряется в помощью инструмента (органа чувств или прибора). В результате исследователь получает число, варианту. В дальнейшем объект измерения фигурирует как варианта. Варианта – это категория, обозначающая некий объект, отдельные свойства которого качественно или количественно охарактеризованы. Варианта может "нести" одно значение (объект охарактеризован одним признаком), два (учтены два свойства) и несколько (оценены несколько качеств).

Сформировать выборки можно, специально организуя процедуру регистрации все новых вариант. Один из приемов получения множества чисел – это отбор и измерение более или менее однородных объектов измерения, представляющих некий объект исследования. Отличие между такими вариантами имеет внутренний, эндогенный, источник – индивидуальные отличия по статусу и по состоянию. Например, животные одного возраста различны индивидуально, генетически, т. е. по статусу. Кроме того, каждое из них в разные годы, сезоны, время суток имеет разные морфофизиологические характеристики, т. е. отличается по состоянию. Следует отметить, что между статусом и состоянием нет непроходимой границы, как ее нет между объектом исследования и объектом измерения, – познание причин изменчивости живого и есть "погружение" во все более глубокие и тонкие отличия индивидуумов, в придании все более узкой специфике объекта измерения статуса объекта исследования. Важно отметить, что наиболее продвинутые в этом отношении науки (токсикология, биохимия, молекулярная биология) стремятся с помощью химической чистоты постановки опытов и выведения чистых линий подопытных животных убрать все мешающие причины "избыточного" варьирования.

Второй метод получения выборок – наблюдение объектов в разных условиях; источник отличий при этом внешний, определяющий разную реакцию на него изучаемых объектов (см. раздел Фактор).

Зная природу объекта, можно правильно оценить соответствие изучаемой выборки требованиям статистической процедуры. Статистические методы ориентированы на изучение случайных величин разного типа. Желательно, чтобы они подчинялись нормальному закону распределения (непрерывные признаки) или биномиальному закону (дискретные признаки) (подробнее законы распределения рассмотрены ниже). Зачастую отклонение поведения случайных величин от этих законов связано с непродуманным способом получения выборок, с методическими ошибками и неточностями (хотя многие биологические признаки исходно имеют иные типы распределения). Для приведения распределения к более "чистому" виду нужно выявить, учесть, изучить факторы, влияющие на изменчивость вариант, и самые сильные из них по возможности ликвидировать. Тогда выборка будет точнее соответствовать объекту исследования. Унификацию выборки можно проводить, например, путем формирования из одной выборки двух и более выборок (с вариантами отчетливо разного статуса). Так, в морфологических исследованиях считается очевидно необходимым разделение животных по видам. Но не менее важно отдельно характеризовать самок и самцов, разновозрастных животных и даже представителей разных генераций с разными сроками рождения. Ликвидируя сильные причины варьирования, мы будем формировать выборки со все более "правильными" ("нормальными") распределениями. Теоретически мыслима ситуация, когда учтены все факторы варьирования и многократные повторные измерения объекта исследования дают одно и то же единственное значение. Если в физике такая ситуация возможна ("чистый эксперимент"), то в биологии, с ее необозримым числом факторов (внешних и внутренних по отношению к объекту исследования), практически не удается получить абсолютную повторяемость вариант. В лучшем случае множество несущественных причин обеспечит "хорошее" нормальное распределение.

 

Фактор

Фактор – это условия проведения наблюдений, среда существования объекта, возможная причина, определяющая текущее состояние объекта. Часто выделяют факторы эндогенные, внутренние (статус, способ существования объекта) и экзогенные, внешние (среда, условия существования объекта). Иными словами, граница между признаком (статусом)и фактором (эндогенным) достаточно условна. Разграничение этих понятий важно только с точки зрения организации вычислительной статистической процедуры. Фактор всегда есть активное, действующее начало, признак – его результат, последствие. В кибернетической схеме, методической основе построения моделей, фактор есть вход, переменная x, признак – выход, переменная

y: y = f(x).

 
 

 


В биологической системе, содержащей много компонентов, где выход одного процесса является входом для следующего, понятия фактора и признака теряют свою определенность, поэтому их называют переменными, или же потоками. Тем не менее нам важно сохранить в нашем учебнике биометрии эти термины, поскольку они явным образом ориентируют на поиск причинной обусловленности явлений и вполне адекватно соответствуют биоэкологической терминологии.

С методической точки зрения есть факторы контролируемые и неконтролируемые. В первом случае степень проявления фактора точно устанавливается, а затем организуется получение выборок при разных заданных уровнях. Таковы условия проведения лабораторных экспериментов, когда имеется возможность сразу получать "чистые" выборки, не загрязненные эффектами действия посторонних факторов. Во втором случае, таковы натурные наблюдения, значения факторов неподвластны исследователю. Некоторые факторы он в состоянии регистрировать, другие – нет. Эта ситуация наиболее обычна для экологии, и важно понимать, как здесь может помочь статистика. Оказывается, что существуют методы, которые (при достаточно большом числе наблюдений в разных условиях) позволяют из всего многообразия эффектов действия факторов выделять интересующие исследователя (особенно эффективны дисперсионный и компонентный анализы). Самым важным при этом оказывается обязательная регистрация максимально возможного числа факторов (как внешних, так и внутренних), тогда появляется возможность исследовать их раздельное действие на объект. Современный путь биометрии – измерение большого числа признаков объектов и факторов их среды с последующим изучением зависимостей между ними методами многомерной статистики. Отсюда следует общая рекомендация при составлении выборки – определение по возможности всех условий ее получения. Например, для морфофизиологического исследования нужно знать пол особи, ее год и месяц рождения, фазу динамики численности популяции, когда проводились отловы.

Важно помнить, что цель любого биометрического исследования всегда состоит в том, чтобы доказать достоверность действия какого-либо фактора, определить, влияет ли изменение дозы (силы действия) данного фактора на изменение значений данного признака. Так, сравнение двух выборок уже есть задача сравнения двух доз некоего фактора, представленных, соответственно, двумя группами вариант. Если групп вариант (доз, градаций фактора) несколько, имеем возможность решить задачу оценки интенсивности этого влияния (дисперсионный анализ), а также задачу оценки характера влияния (регрессионный анализ).

Если однозначно фактор влияет на признак, он называется систематическим или доминирующим, если влияет спорадически, он должен быть определен как случайный. Эти рассуждения приводят к первой модели варианты:

xi = xdi ± xri,

где xi – измеренное значение варианты,

i – индекс варианты (i = 1, 2, … , n),

xdi – суммарный вклад j доминирующих факторов (dominant),

xd = Σxdj,

xri – суммарный вклад k случайных факторов (random),

xri = Σxrk.

Вопрос о влиянии может быть поставлен только в отношении контролируемого или регистрируемого фактора, о неучтенных факторах (которых всегда достаточно много) нельзя сказать почти ничего. Такие неучтенные факторы, о которых нет информации, также относят к случайными. В то же время практика показывает, что эти факторы реально существуют и действуют, вызывая варьирование. Значит, общей перманентной задачей биометрического исследования остается поиск способа регистрации неучтенных факторов и доказательство не случайности их влияния.

 

 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.