Сделай Сам Свою Работу на 5

Основы кластерного анализа





Классификация, кластеризация – методы, широко использу­емые в современной таксономии, – позволяют наглядно представить сходство или различие биологических объектов, охарактеризованных по многим параметрам. Эти под­ходы можно применять в самых разных областях биологии, в частности, для сравнения условий среды в сериях местообитаний, выявления различий и сходства между сообществами жи­вых организмов, отдельными их популяциями, группами, особя­ми и т. п. Кластерный анализ, как и многие другие многомер­ные статистические приемы, не имеет достаточно разработанно­го математического аппарата для статистического оценивания полученных данных; его основная функция – вы­явление скрытой структуры биологического материала, что поз­воляет затем целенаправленно ставить и решать конкретные биомет­рические задачи с помощью простых статистических методов (регрессионного, корреляционного, дисперсионного и др.).

Суть кластерного анализа состоит в

1) определении "расстоя­ний" (меры различия) между объектами по всей совокупности признаков,

2) группировании сходных объектов в кластеры (кластеризация),



3) графическом изображении сети (или древа) расстояний между всеми объектами.

Речь, следовательно, идет о формировании одного нового признака (относительного расстояния) на основании нескольких исходных.

В качестве меры расстояния может выступить любой признак. Так, разность между значениями длины тела двух поле­вок есть не что иное, как расстояние между ними по одному признаку. Достоинство кластерного анализа заключается в том, что он позволяет получить обобщенную меру расстояния между объектами по всему множеству анализируемых призна­ков.

Один из вариантов такой меры ос­нован на коэффициенте сходства Съёренсена, который исполь­зуется для сравнения многовидовых сообществ. "Расстояние" вычисляется по формуле:

,

где В и С – число видов в двух сравниваемых сообщест­вах,

А – число общих видов.

Рассмотрим в качестве примера анализ биоценотических группировок мелких млекопитающих Приладожья. Видовой состав изучен в 7 основных биотопах: лишайниковых сосняках (A), сосняках-зеленомошниках (Б), ельни­ках (В), спелых лиственных и смешанных лесах (Г), листвен­ном мелколесье (Д), молодых зарастающих вырубках (Е) и по границе сеяного луга и ольшаника (Ж). Встречаемость (по принципу отсутствие – присутствие) и относительная числен­ность (число особей на 100 ловушко-суток) 14 видов землероек и грызунов показаны в таблицах 9.1 и 9.2. Дальнейшая процедура сводится к следующему.



По данным таблицы 9.1 рассчитывается матрица расстояний между разными биотопами. Например, в ельниках (В) отмечено 12 видов мелких млекопитающих, а на вырубках (Е) – 5; из них общих для обоих биотопов – 5. Отсюда рас­стояние:

S = 1–10/17 = 0.41.

Смысл следующей операции – собственно кластеризации (от слова "кластер" – гроздь, группа) – состоит в последовательном объединении объектов в кластеры, в груп­пы, внутри которых сходство между объектами выше, чем с другими объек­тами или кластерами. Вначале объединяются наиболее сходные объекты (с наименьшим расстоянием между собой), затем приближающиеся к ним по этому показателю и так далее до момента слияния всех объектов в один общий кластер. При этом на промежуточных этапах могут образовываться несколько от­дельных кластеров. Уровень каждого объединения фиксируется и затем отображается на графике.

Таблица 9.1

    Биотопы
Вид ЛС СЗ Е СЛ ЛМ В ЛО
  А Б В Г Д Е Ж
Обыкновенная бурозубка
Средняя бурозубка
Малая бурозубка
Равнозубая бурозубка
Крошечная бурозубка
Водяная кутора
Лесная мышовка
Лесной лемминг
Полевая мышь
Мышь-малютка
Рыжая полевка
Красная полевка
Темная полевка
Полевка -экономка
Число видов

 



Таблица 9.2

ЛС СЗ Е СЛ ЛМ В ЛО  
А 0.27 0.5 0.5 0.33 0.34 0.64 ЛС
  Б 0.26 0.26 0.07 0.17 0.42 СЗ
    В 0.17 0.3 0.41 0.58 Е
      Г 0.21 0.41 0.47 СЛ
        Д 0.23 0.47 ЛМ
          Е 0.33 В
            Ж ЛО

Существует множество вариантов процедуры кластеризации, из них наи­более простым считается метод "ближайшего соседа", не тре­бующий обязательного использования ЭВМ. Сначала по матри­це расстояний (табл. 9.2) отыскиваются ближайшие соседи для всех объектов и заносятся в таблицу наименьших расстояний (табл. 9.3). Так, к лишайниковому сосняку (А) ближе всего сосняк-зеленомошник (Б): SАБ = 0.27, а к сосняку-зеленомошнику (Б) – лиственное мелколесье (Д): SБД = 0.07, (минимальное расстояние из всех изу­ченных биотопов).

Таблица 9.3

Сосед 1 Сосед 2 Расстояние, S Кластер Сосед 2 Расстояние, S Кластер
А Б 0.27      
Б Д 0.07      
В Г 0.17 Б 0.26  
Г В 0.17 Д 0.21
Д Б 0.07      
Е Б 0.17      
Ж Е 0.33      

Заполнив четыре первые графы, приступают к построению предварительного дерева расстояний (рис. 9.1, А). Для этого на график наносят индексы объ­ектов и расстояния между ними, соединя­ют их прямыми линия­ми. В нашем случае сначала образовалось два отдельных класте­ра (АБДЕЖ и ВГ), но их может быть и больше. Теперь вновь возвращаемся к таб­лицам 9.2 и 9.3. В пятой графе против объектов из меньшего кластера следует отме­тить индекс ближай­ших объектов из боль­шего кластера, а в шестой – расстояние меж­ду ними. Далее выбираем звено наименьшей протяженности – это спелые лиственные леса (Г) и молодняки (Д): SГД = 0.21. Соединим на рисунке 9.1 кластеры пунктирной линией, и кластеризация завершена.

Последний этап – построение окончательного варианта дендрограммы. Здесь также есть несколько возможностей. Представленноена рис. 9.1, Б "древо минимальной протяженности" строится с учетом единственного условия – соблюдения пропорций расстояний между биотопами-соседями.

 
 

 


Рис. 9.1. А – схема поэтап­ной кластеризации; Б – "древо минимальной про­тяженности"; А–Ж – ин­дексы биотопов

Классический вариант дендрограммы приведен на рис. 9.2. По оси абсцисс размещаются объекты в том порядке, который продиктован логикой их связей и субъективными вкусами исследователя, от­дельные ветви "древа" при этом не должны пересекаться. По оси ординат откладывается расстояние между ближайшими соседями (рис. 9.2).

Интерпретация полученных результатов подчеркивает дос­тоинства дендрограммы как емкой иллюстрации обобщающих характеристик. Так, в данных по Приладожью кластерный ана­лиз выделил группы биотопов, наиболее близких по условиям обитания и видовому составу зверьков. Наиболее богаты вида­ми еловые и смешанные леса (В и Г). Обедненными териокомплексами, представленными в основном политопными видами, ха­рактеризуются сосняки-зеленомошники, вырубки и лиственное мелколесье (Б, Е, Д). Население сосняков (Б и А) в общем сходно (табл. 9.1), но в лишайниковых сосняках видов очень мало. Наконец, наиболее обособленное положение занимает биотопичес­кий комплекс экотона – границы между лугом и лесом (Ж), включающий представителей смежных биотопов.

 
 

 

 


Рис. 9.2. Дендрограмма сходства биотопов по видовому составу мелких млекопитающих

При использовании в кластерном анализе количественных признаков применяют евклидову меру расстояния:

где xkj, xki – значения k-го признака у j-го и i-го объектов,

m – число учитываемых признаков.

Рассчитав матрицу расстояний между объектами по комп­лексу количественных признаков, проводят кластеризацию и построение дендрограмм по описанному выше методу. Рас­смотрим эту процедуру на уже знакомом примере многовидо­вых группировок мелких млекопитающих в трех типах биото­пов Приладожья (Б –сосняки-зеленомошники, В – ельники, Д – мелколесье), но по данным количественных учетов канав­ками (экз. на 10 канавко-суток; табл. 9.4).

Рассчитаем евклидово расстояние сначала между двумя биотопами – сосняком (Б) и ельником (В):

.

Таблица 9.4

Вид Численность, экз. на 10 канавко-суток  
сосняки-зеле-номошники (Б) ельники (В) лиственное мелколесье (Д)  
  Обыкновенная бурозубка 3.9 7.2 6.0
  Средняя бурозубка 1.8 1.1 0.5
  Малая бурозубка 1.9 2.0 1.6
  Равнозубая бурозубка 0.01 0.2 0.1
  Крошечная бурозубка 0.04 0.04
  Водяная кутора 0.04 0.06 0.4
  Лесная мышовка 0.6 0.3 0.7
  Лесной лемминг 0.2 0.05
  Мышь-малютка 0.04
  Рыжая полевка 1.5 0.8 0.8
  Красная полевка 0.06 0.6 0.02
  Темная полевка 0.2 0.7
  Полевка-экономка 0.2 0.2
Всего 10.3 12.9 10.9  
                 

Повторив эту процедуру для других пар биотопов, получим dБД = 0.741 и dВД = 0.417. Све­дем полученные данные в матрицу расстояний:

  Б 0.97 0.74
    В 0.42
      Д
Сосед 1 Сосед 2 Расстояние, d  
Б Д 0.74  
В Д 0.42  
Д В 0.42  
             

Дендрограмма приведена на рис. 9.3. По сравнению с предыдущим случаем она выявл­яет новые нюансы отношений между биоценотическими комплексами млекопитающих. Если по видовому составу лиственные леса (Д) были ближе к соснякам (Б) (в отличие от ельников и там и тут встречались лесной лемминг и темная полевка), то по уровню численности лиственные леса ближе к ельникам (в отличие от сосняков в этих биотопах существенно больше обыкновенных бурозубок и рыжих полевок).

 
 

 

 


Рис. 9.3. Дендрограмма сходства биотопов по численности мелких млекопитающих

Когда изучаемые признаки имеют разную размерность (экз./га, кг, мм, %), то вместо таблицы исходных данных (см. табл. 9.4) для вычисления евклидовой меры расстояния следует подго­товить таблицу нормированных значений. Для этого по каждой строке первичной таблицы рассчитываются средняя арифмети­ческая (Мj) и стандартное отклонение (Sj), а затем – нормированные значения каждой варианты из этой строки:

,

где x – исход­ные значения вариант 1-й строки (i-го признака).

Например, для первой строки таблицы 9.4 М1 = 5.7, S1 = 1.67. Новые значе­ния строки будут равны: t11 = (3.9–5.7)/1.67 = –1.078,

t12 = (7.2–5.7)/1.67 = 0.89, t13 = (6.0–5.7)/1.67 = 0.18.

Полученная таким образом таблица используется для вычисления евклидовой меры расстояния между объектами по рассмотренному выше алгоритму.

Кроме рассмотренных мер расстояния для кластерной клас­сификации объектов исследования используют коэффи­циент корреляции (r) в форме коэффициента "не-корреляции": dji = 1– rji. При этом следует использовать нормированные значения признаков.

В этом случае матри­ца расстояний формируется по предварительно рассчитанной корреляционной матрице. Поскольку метод корреляционного анализа рассмотрен нами выше, а дальнейшие процедуры не­сложны и очевидны, мы не иллюстрируем этот прием конкрет­ным примером.

В среде Excel нет программы для проведения кластерного анализа. Но его можно выполнить с помощью пакета StatGraphics.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.