Сделай Сам Свою Работу на 5

Основы дискриминантного анализа





Этот метод многомерной статистики служит для дискрими­нации, т. е. различения (дифференциации) и диагностирования (распознавания) биологических объектов и явлений, отличия между которыми неочевидны. В медицине этот метод использу­ется для идентификации заболевания по ряду показателей (ха­рактерных симптомов), а в биологии – для установления груп­повой принадлежности отдельных особей (объектов). Иными словами, общая задача дискриминантного анализа заключается в том, чтобы определить, к какой из двух известных групп объектов принадлежит изучаемый объект. Как и в кластерном анализе, исследуемые объекты представлены несколькими численными признаками и (в простейшем случае) требуется сформировать один расчетный признак, однозначно характеризующий каждый объект. Однако задачи дискриминантного анализа прямо противоположны кластерному: не выделить из множества объектов группы близких, а отнести тот или иной объект к определенной, априорно выделенной группе. Эта идентификация (дискриминация) объекта выполняется с помощью уравнения дискриминации (дискриминантной функции), которое воплощает в себе максимальное отличие между предварительно заданными группами (дискриминация "с обучением").



Рассмотрим общий принцип использования этого метода на примере определения пола у пеночек-весничек. Визуально мо­лодые самцы и самки этого вида не различаются, а распределения морфологических признаков (длина крыла, хвоста, цевки) у них довольно сильно перекрываются, что не позволяет с уверенностью диагностировать пол этих птиц. На­пример, для длины крыла степень трансгрессии составляет 20%, а длины цевки – 90%. Между тем дискриминантный ана­лиз в силах справиться с подобной задачей.

 

 
 

 


Рис. 9.4. Зона трансгрессии – наложение "хвостов" распределений

На основе реальных признаков птиц математически рассчиты­вается искусственный и единственный признак, учитывающий все незначительные морфологические отличия полов в целом по всем признакам. Эти расчеты проводятся с условием, чтобы различия между группами сам­цов и самок стали наиболее выраженными, а трансгрессия между их распределениями – наименьшей. Так удается свес­ти к минимуму долю животных неопределенного пола и с вы­сокой степенью достоверности предсказывать пол по морфоло­гическим признакам.



В основе дискриминантного анализа лежит дискриминантная функция; для двух признаков она имеет такой вид:

.

Как можно видеть, признаки х и у, объединяясь, дают один признак Z. Если в анализ будут включены размерные призна­ки, такие как длина крыла и длина хвоста, то новый признак можно назвать " относительные размеры тела".

Коэффициенты a и b оценива­ют "вклад" каждого из признаков в диагностические возмож­ности функции. На первых этапах работы в расчеты обычно вовлекается большое число реальных признаков, многие из которых никак не влияют на диагностические возможности дискриминантной функции, для них дискриминантные коэффициенты близки к нулю. Такие признаки исключают из рассмотрения, а дискриминантую функцию рассчитывают заново. Формальным критерием для отбраковки "неинформативных" признаков служит аналог критерия Стьюдента для оценки значимости коэффициентов регрессии, который мы не рассматриваем.

Коэффициент Н – это граничная величина меж­ду значениями Z для самцов и самок. Свободный член уравне­ния ΔZ – поправка на разные объемы выборок.

Теперь сформулируем задачу более конкретно. У 10 самцов и 10 самок погибших по разным причинам пеночек-весничек (их пол был определен путем вскрытия) взяли промеры длины крыла и хвоста. По этим данным вычис­лены необходимые для дальнейших расчетов величины (суммы значений, их квадратов и произведений), сведенные в табли­цу 9.5: Σx = 1218; Σx² = 74324 5; Σy² = 9275; Σy² = 43087.25;Σ(ху) = 56564.5. Таблица 9.5



Самцы (1)  
0.14  
0.01  
0.09  
63.5 4032.25 3238.5  
0.05  
0.02  
0.07  
63.5 4032.25 0.08  
0.03  
0.06  
Σ1 = 631 39828.5  
  Самки (2)
–0.08  
–0.05  
–0.17  
57.5 3306.25 2472.5 –0.12  
46.5 2162.25 2836.5 0.0004  
60.5 3660.25 –0.01  
57.5 3306.25 2722.5 –0.09  
–0.10  
60.5 3660.25 –0.03  
–0.04  
Σ2 = 587 449.5 20215.25 26416.5  
Σ = 221218 927.5 74324.5 43087.25 56564.5  
                               

Теперь определим средние арифметические:

Mx1= 631/10 = 63.1; My1 = 478/10 = 47.8; Mx2 = 58.7; My2 = 44.95

и их разности: dx = 63.1–58.7 = 4.4; dy = 47.8–44.95 = 2.85.

Находим также вспомогательные величины:

,

,

.

Наконец, для определения коэффициентов а и b необходимо решить следующую систему уравнений:

.

Ее корнями будут:

,

.

Теперь найдем средние значения признака Z для самцов и са­мок:

Z1 = aMx1 + b∙My1 = 0.021423∙63.1 + 0.015335∙47.8 = 2.0848,

Z2 = aMx2 + bMy2 = 0.021423∙58.7 + 0.015335∙44.95 = 1.9468.

Определяем разность между этими средними, или центроидами:

(D = Z1Z2): D = 2.0848 – 1.9468 = 0.138.

Найдем границу между группировка­ми самцов и самок:

Н = Z2 + D/2 = 1.9468 + 0.138/2 = 2.0158.

Так получен третий член уравнения дискриминации. Что каса­ется четвертого, поправки на объем выборки, то он определяет­ся по формуле:

, где nmax – объем большей,

nmin – объем меньшей выборки объектов разного качества.

В нашем случае поправка равна 0, так как груп­пы имеют одинаковый объем (по 10). Теперь можно записать уравнение дискриминации в полном виде:

Z = 0.021423∙x + 0.015335∙у – 2.0158.

Рассчитаем с его помощью значения но­вого признака "относительные размеры тела" для конкретных особей. Для первого самца величина разницы составит:

Z11 = 0.021423∙65 + 0.015335∙50 – 2.0158 = 0.14.

Значения для всех остальных осо­бей занесены в таблицу 9.5, из которой видно, что самцы имеют положительные, а самки (кроме одной) – отрицательные значения функции Z. Распределения нового признака перекрываются на одну двад­цатую часть, всего на 5%. По исходным данным видно, что трансгрессия по признаку х составила 10% (значение 61), а по признаку у – 25% (значения 46 и 46.5). Таким образом, рассчитанный признак характеризуется меньшей трансгрессией по сравнению с реальными признаками, т. е. позволяет снизить число невер­ных определений пола у живых птиц. Дальнейшие операции, связанные с ис­пользованием дискриминантной функции, вполне очевидны. Для особи с неизвестным полом, но известными промерами частей тела (когда птица после отлова и взятия промеров отпускается живой) вычисляется значение функции. Если оно больше 0, значит, это самец, если меньше – самка.

Заключительный этап – оценка достоверности уравнения по критерию Фишера:

~ F(α, 2, n–3).

В нашем случае

.

По лученное значение критерия Фишера (0.32) меньше табличного (табл. 7П) для α = 0.05 и df1 = 2, df2 = 20–3 = 17 F(α, 2,n–3) = 3.6, значит, уравнение недостоверно. Это объясняется небольшим объемом выбор­ки в нашем примере: для исходных данных из 50 экз. птиц каждого пола (обычный объем зоологическо­го материала) критерий Фишера был равен F = 4.2 при F(α, 2, 47) = 3.1. Отсюда следует, что уравнение дискриминации для 50 особей достоверно и вполне пригодно для прижизненного определения пола пеночек-весничек.

Уверенность в результатах анализа может придать оценка работоспособности дискриминантной функции на независимой проверочной выборке особей с известным статусом.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.