Сделай Сам Свою Работу на 5

Расчет корреляционных компонент





 

Используя наши данные по гадюкам (W – масса тела, Lt – длина тела, Lc – длина хвоста), рассмотрим расчет таких "корреляционных компонент", аналогов главных компонент (табл. 9.6, 9.7). Если рассчитать корреляции между тремя признаками, получим всего шесть коэффициентов (включая автозависимости, r = 1.00).

 

Таблица 9.6

Матрица корреляций
W Lt Lc
W 1.00 0.79 -0.49
Lt 0.79 1.00 -0.33
Lc -0.49 -0.33 1.00

 

Возьмем в качестве факторных (точнее, "корреляционных") нагрузок первый столбец коэффициентов, выражающий сопряжение трех признаков с массой тела змеи: r11 = rWW = 1.00, r12 = rWLt = 0.789, r13 = rWLc = –0.492. Тогда уравнение первой корреляционной компоненты примет вид:

.

Рассчитаем значения компонент, новых признаков, для конкретных особей (для простоты обойдемся без нормирования); для первого самца:

,

для последней самки

.

 

 

Таблица 9.7

Исходные данные "Очищенные" данные
пол W Lt Lc КК1 W – KK1 Lt – KK1 Lc – KK1 КК2
m1 37.6 2.4 7.4 39.4 48.7
m2 38.0 5.0 8.0 46.0 58.5
m3 42.3 2.7 4.7 38.7 45.9
m4 46.1 1.9 –1.1 29.9 30.5
m5 50.7 2.3 –3.7 29.3 27.7
m6 66.1 –1.1 –16.1 11.9 –4.8
m7 65.6 2.4 –12.6 24.4 14.4
m8 67.5 2.5 –16.5 19.5 5.8
f9 69.0 –9.0 –19.0 –7.0 –33.8
f10 72.4 –11.4 –17.4 –7.4 –35.0
f11 74.7 –6.7 –25.7 –9.7 –41.0
f12 84.8 –7.8 –33.8 –18.8 –59.0
f13 91.6 –9.6 –39.6 –27.6 –75.0
f14 50.5 90.4 –8.4 –39.9 –26.4 –73.1
f15 98.4 –8.4 –45.4 –30.4 –82.4
f16 109.8 –9.8 –58.8 –47.8 –114.1
f17 122.6 –10.6 –65.6 –52.6 –126.3
M 68.47 50.15 72.88          
S 20.31 3.39 9.29          

 



Что же дают нам эти первые результаты? Значения главных компонент, новых признаков, обозначает одно общее направление изменчивости, характерное для всех морфологических признаков – это увеличение размеров тела с возрастом. Ход графика первой корреляционной компоненты (КК1) в общих чертах совпадает с ходом графика изменения массы (W) и длины (Lt) тела; эта компонента‚ по существу, подменяет собой два исходных признака, ее можно назвать общим термином "размеры особи". Факторные нагрузки (табл. 9.6) для этих двух признаков велики и положительны. Третий же признак дает отрицательный вклад в первую компоненту, отделяя себя от прочих. Есть все основания считать, что он характерен для какого-то иного направления изменчивости. (В нашем примере – это половые отличия: у самок хвосты короче.) Таким образом, на первом этапе удалось выделить одно направление изменчивости и наметить другое. Конкретизируем его с помощью второй главной компоненты.



 

Рис. 9.6. Корреляционные компоненты

 

Откуда же взять значения факторных нагрузок во второй и следующих компонентах? Ведь они должны быть другими, поскольку, по определению, следующие компоненты должных характеризовать другие направления изменчивости вариант, другие факторы!

Здесь компонентный анализ идет по пути расчета частных коэффициентов корреляции. Общий коэффициент корреляции отражает сопряженное варьирование признаков только относительно самого сильного общего фактора, тогда как эффекты действия более слабых факторов (иных направлений изменчивости) затушевываются. Чтобы выявить оставшиеся направления изменчивости, нужно удалить эффект главного фактора! Для этого из всех значений вариант следует, условно говоря, "вычесть" долю, обусловленную этим самым сильным фактором. Для нашего примера попробуем поступить грубо и от значений исходных признаков непосредственно вычтем значение первой главной компоненты: .



Оставшаяся часть значения каждого признака будет отражать действие всех прочих причин, кроме первой. Если теперь рассчитать корреляцию для вариант, "очищенных" от влияния первого фактора, то корреляция между признаками должна показать их сопряженное изменение относительно другого, второго по силе фактора. Понятно, что корреляционная структура "очищенной" матрицы данных будет совершенно другой, нежели у исходной: все зависимости оказались высокими и положительными (r > +0.9) (табл. 9.8).

Для расчета значений второй компоненты в качестве факторных нагрузок возьмем коэффициенты корреляции с опорой на признак (Lc – KK1) (табл. 9.8).

Эти новые коэффициенты корреляции сыграют роль факторных нагрузок для уравнения второй корреляционной компоненты:

;

расчеты значений этой компоненты для конкретных особей приведены в табл. 9.7.

Таблица 9.8

Матрица корреляций
  W – KK1 Lt – KK1 Lc – KK1
W – KK1 1.00 0.822 0.976
Lt – KK1 0.822 1.00 0.923
Lc – KK1 0.976 0.923 1.00

 

Судя по графику хода второй компоненты (рис. 9.5), она в первую очередь "пытается" отследить и усилить второе направление изменчивости данных – отличие самцов (особи № 1–8) и самок (особи № 9–17) по длине хвоста: у самок хвост короче, чем у самцов. Как показывают факторные нагрузки, признаку "длина хвоста" (1.00) в этом помогают переменные "масса" (0.976) и "длина тела" (0.923). Итак, вторая компонента обозначила другой внутренний фактор отличия особей, изменчивость по длине хвоста, половой диморфизм.

 

Требование ортогональности компонент

 

В рамках компонентного анализа рассмотренная процедура "вычитания" информации о влиянии отдельного фактора из общей информации об изменчивости вариант имеет одно важное условие, специально оговоренное и обязательно выполняемое при вычислениях. Компоненты должны быть ортогональны, т. е. вовсе не должны коррелировать друг с другом:

Идеологически это понятно: исходные значения должны полностью утратить "след" первого учтенного фактора, чтобы можно было оценивать роль второго; информация, которая воплотится в следующую компоненту, должна быть полностью независима от предыдущей компоненты. Обязательное отсутствие корреляции между компонентами гарантирует, что каждая из главных компонент содержит уникальную информацию об обособленном направлении изменчивости признаков.

Поскольку в проведенных выше расчетах это условие специально не выдерживалось, оказалось, что корреляционные компоненты существенно не ортогональны: Судя по высокому отрицательному коэффициенту, здесь явно проявляется ложная корреляция (см. раздел 8, с. 201) как результат вычитания общего значения (–K1).

Процедура компонентного анализа не имеет такого недостатка, поскольку "вычленение" информации, учтенной главной компонентой, выполняется непосредственно из матрицы коэффициентов корреляции: из каждого общего коэффициента корреляции вычисляется коэффициент корреляции между теми долями вариант, которые сформированы под действием первого фактора. Детали этого вычислительного процесса не так и важны, главное, что обновленная матрица корреляций полностью утрачивает информацию о первом факторе и никаких ложных корреляций не появляется.

 

 

Компонентный анализ

 

Рассмотрим результаты собственно компонентного анализа (табл. 9.9, 9.10), выполненного для исходных данных по размерам гадюки (табл. 9.7) в среде пакета StatGraphics. Условие ортогональности выполнено, компоненты независимы (с точностью до ошибки округления):

Рис. 9.5. Главные компоненты

Таблица 9.9

Факторные нагрузки  
  a1 a2 a3
W 0.644 0.191 0.741
Lt 0.603 0.467 -0.655
Lc -0.470 0.863 0.186
       
Дисперсия 2.10 0.71 0.19
Дисперсия, %

 

Исходя из полученных факторных нагрузок, уравнение первой главной компоненты имеет вид:

.

Используя его, рассчитаем значения компонент, новых признаков, для конкретных особей, помня, что вместо исходных значений берутся нормированные. Таблица 9.10 содержит нормированные значения (норм.X = (X–M)/S); в частности, для первого самца (40 г) получаем норм.W = (40–68.47)/20.31 = –1.40). Параметры M, S взяты из таблицы 9.7. Значения первой компоненты составят:

для первого самца

= –2.026,

для последней самки

= 2.74.

Таблица 9.10

пол норм.W норм.Lt норм.Lc ГК1 ГК2 ГК3
m1 –1.40 –1.52 0.44 –2.027 –0.596 0.024
m2 –1.25 –1.22 1.20 –2.108 0.220 0.082
m3 –1.16 –0.93 0.87 –1.715 0.098 –0.095
m4 –1.01 –1.52 0.34 –1.723 –0.614 0.295
m5 –0.76 –0.93 0.77 –1.411 0.081 0.177
m6 –0.17 –0.04 0.55 –0.395 0.422 0.004
m7 –0.02 0.84 1.84 –0.372 1.978 –0.218
m8 0.08 0.25 1.52 –0.513 1.442 0.175
f9 –0.42 –0.04 –1.17 0.255 –1.110 –0.498
f10 –0.37 1.43 –0.85 1.026 –0.132 –1.354
f11 –0.02 –0.34 –0.85 0.179 –0.894 0.044
f12 0.42 0.25 –0.74 0.770 –0.441 0.011
f13 0.67 0.55 –0.96 1.208 –0.441 –0.037
f14 0.67 0.10 –0.96 0.941 –0.648 0.249
f15 1.06 0.84 –0.52 1.437 0.143 0.145
f16 1.55 0.25 –1.17 1.701 –0.595 0.770
f17 2.14 2.02 –0.31 2.746 1.088 0.226
M
S2 2.0997 0.711 0.189

 

Для первой компоненты "корреляционные" (табл. 9.6) и факторные нагрузки (табл. 9.9) очень близки и отражают рассмотренное явление – противопоставление общих размеров тела (большие положительные корреляции) длине хвоста (большие отрицательные корреляции). График первой главной компоненты (рис. 9.6) также похож на график первой корреляционной компоненты (рис. 9.5) и характеризует "общие размеры тела" (объединяя два признака – W и Lt). В то же время достаточно высокий вклад переменной "длина хвоста" (–0.47) заставляет включить и этот признак в название компоненты, обозначая направление изменчивости "рост размеров при уменьшении хвоста".

Вторая главная компонента отличается от своего корреляционного аналога. Нагрузка для переменной "длина хвоста" остается высокой (0.863), но для первых двух признаков значения факторных нагрузок существенно ниже корреляционных (0.191 и 0.467 против 0.976 и 0.923). Эти небольшие коэффициенты свидетельствуют о том, что половой диморфизм сказывается и на общих размерах тела, но в меньшей степени, чем размер хвоста. Причины несовпадения коэффициентов корреляции и факторных нагрузок состоят в том, что первичные коэффициенты отражают, вообще говоря, действия всего множества факторов сопряженного варьирования исходных признаков, "смесь". Сильные факторы определяют уровень коррелированности в большей мере, слабые – в меньшей. Факторные же нагрузки вычленяют эффект действия своего фактора "в чистом виде". Изменчивость второй главной компоненты менее определена, чем второй корреляционной компоненты. Однако вместе с первой они хорошо дифференцируют особей разного пола на две изолированные группы: в осях двух главных компонент самки "расположены" справа внизу, самцы – слева вверху.

 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.