Сделай Сам Свою Работу на 5

Этапы компонентного анализа





 

Метод главных компонент достаточно сложен, но это самая эффективная процедура разведочного анализа любой многомерной совокупности данных, имеющая примерно семь крупных шагов:

1) организация массива данных с метками объектов и именами переменных,

2) изучение направлений изменчивости исходных признаков,

3) выполнение расчетов в среде специальных пакетов (StatGraphics),

4) изучение факторных нагрузок,

5) изучение ординации объектов в осях значимых главных компонент,

6) присвоение названий значимым компонентам,

7) вывод об основных направлениях (факторах) изменчивости данных.

8) отсев или отбор признаков и повторение расчетов; итерации позволяют глубже понять структуру связей между признаками.

Поэтапно проанализируем данные по динамике снеготаяния на прибайкальской равнине в зоне действия Байкальского целлюлозно-бумажного комбината, который имеет большие объемы пыле-газовых выбросов.

1) Глубину снега (h, см) измеряли в 9 точках Прибайкальской равнины вдоль побережья оз. Байкал 4 раза за сезон с 21 апреля по 18 мая 1986 г. (табл. 9.11).

2) Данные показывают, что с запада на восток уровень снега в среднем постепенно повышается, достигая в некоторых точках (85 км) глубины h21.4.86 = 110 см. При этом для начала весны (21.4.86) отмечается плавное повышение уровня снега с запада на восток, а к концу (18.5.86) становятся заметны резкие перепады между отдельными точками.



Таблица 9.11

Расстояние запад–восток, км 21.04.86 02.05.86 11.05.86 18.05.86 Средняя ГК1 ГК2
1.3 –3.2 0.7
35.0 –1.3 0.2
25.3 –1.9 –0.3
68.8 0.7 –0.3
33 (БЦБК) 36.3 –1.2 –0.8
88.8 1.8 0.4
98.8 2.4 0.01
77.5 1.2 0.04
82.5 1.5 0.2

 

3) Порядок расчетов в StatGraphics рассмотрены на с. 251.

4) В результате расчетов получены коэффициенты линейных индексов (факторные нагрузки) (табл. 9.12), позволяющие рассчитать значения главных компонент по формулам вида:

,

и т. д.

Таблица 9.12

Дата a1 a2 a3 a4
21.04.86 0.49 –0.55 –0.38 0.54
02.05.86 0.51 –0.38 0.13 –0.76
11.05.86 0.50 0.26 0.75 0.33
18.05.86 0.49 0.69 –0.52 –0.11
S2 3.741 0.191 0.059 0.008
S2, % 93.5 4.8 1.5 0.2

 



Первая главная компонента имеет бóльшую дисперсию (3.7 из 4), т. е. забирает на себя бóльшую часть информации (93.5%); остатки почти целиком приходятся на вторую компоненту (4.8%). Очевидно, что при данном количестве наблюдений вторая компонента незначима, тем не менее мы ее рассмотрим подробнее.

В первой компоненте факторные нагрузки ("веса") разных признаков почти равны (по 0.5), это значит, что чем больше будут значения всех промеров, тем больше будет и значение компоненты.

Во второй главной компоненте достаточно большие факторные нагрузки имеют только первая (21.04.86) и последняя (18.05.86) даты (–0.55 и 0.69 соответственно), причем с разными знаками. Вторая компонента как бы противопоставляет зимние и весенние глубины. Максимальные значения этой компоненты будут наблюдаться для точек, в которых зимой был наименьший уровень снега, а весной наибольший, т. е. там, где уровень снега почти не менялся. Минимальные же значения должны наблюдаться для тех точек, где зимой снега было много, а весной – мало, т. е. где снег быстро сошел.

Рис. 9.7. Компонентный анализ динамики снеготаяния

 

5) Отследим значения главных компонент для отдельных точек. Значения первой компоненты велики для самых восточных точек (1.5), где максимальны все промеры снега, и минимальны для западных (–3.2), где снега почти нет. Значения второй компоненты высоки для многих пунктов промера (где снег сходил более или менее равномерно), а минимальны только для точки 33 км: здесь наблюдается резкий перепад глубин между отдельными промерами.



6) Ход первой компоненты подобен средней арифметической по всем промерам (рис. 9.7), ее можно назвать "запасы снега". Высокие значения второй компоненты выявляют зоны медленного схода снега, а низкие – быстрого, поэтому ее можно назвать "устойчивость снегового покрова весной".

7) Рассматривая явление в новых терминах, можно сказать, что в общем запасы снега на Прибайкальской равнине плавно увеличиваются с запада на восток. Для окрестностей БЦБК характерна средняя мощность, но низкая устойчивость снегового покрова. Как показали специальные исследования, причина этого явления – загрязнение поверхности пылевыми частицами, которые способствуют его нагреванию под лучами солнца и быстрому таянию.

 

Варианты представления результатов

 

Для представления результатов компонентного анализа часто используются три разных способа выражения величины факторных нагрузок.

При первом из них, показанном выше (табл. 9.9, 9.13 ), в качестве векторов факторных нагрузок выступают так называемые собственные векторы (техника и теория их расчетов приведена во многих пособиях, например, Коросов, 1996).

Таблица 9.13

Факторные нагрузки
  a1 a2 a3
W 0.644 0.191 0.741
Lt 0.603 0.467 –0.655
Lc –0.47 0.863 0.186
       
Дисперсия, S2 2.09 0.71 0.19

 

Для собственных векторов выполняется важное условие: произведение вектора на самого себя дает единицу. Так,

 

(0.644 0.603 -0.470)∙ = 0.644∙0.644 + 0.6032 + (– 0.47)2 = 1.

 

На основании этих факторных нагрузок рассчитываются те значения главных компонент, дисперсии которых, S2, представлены в нижней строке таблицы с результатами (табл. 9.10, 9.13). Кстати сказать, сумма дисперсий всех компонент равна числу изучаемых признаков, m (2.09+0.71+0.19 = 3). В такой форме результаты анализа выдает пакет StatGraphics.

Несмотря на прозрачный математический смысл, интерпретировать такие факторные нагрузки неудобно из-за какой-то непонятной "абсолютности"собственных векторов.

Второй способ позволяет более эффективно сопоставлять нагрузки, относящиеся к каждой компоненте по отдельности. Для этого все нагрузки делят на модуль максимального значения.

Так, для первого вектора maxa = 0.644; нормированная нагрузка для признака W составит: 0.644/0.644 = 1.000, а для признака Lt – 0.603/0.644 = 0. 936 и т. д. (табл. 9.14).

Таблица 9.14

Факторные нагрузки
  a1 a2 a3
W 1.000 0.221 1.000
Lt 0.936 0.541 –0.884
Lc –0.730 1.000 0.251
       
Дисперсия, S2 2.09 0.71 0.19

 

В результате факторные нагрузки обретают значения от –1 до +1, их становится легче сравнивать друг с другом в контексте одной компоненты. При этом, правда, свойства векторов нагрузок меняются и их произведение на себя уже не дает значения 1. В то же время, новая относительная величина позволяет применить простой критерий оценки достоверности отличия нагрузки от нуля, для этого она должна быть по модулю больше 0.7: |a|>0.7. Получается, что большие коэффициенты нагрузки как бы приравниваются к единице (полный учет признака), а остальные – к нулю (признак не участвует в компоненте). Такой прием во многом облегчает первый шаг в интерпретации главных компонент. Провести рассмотренные преобразования можно в среде Excel.

Третий способ презентации результатов МГК позволяет сравнивать факторные нагрузки одного признака в разных главных компонентах. В качестве основания для нормирования такого рода служит стандартное отклонение конкретной компоненты S, на величину которой умножаются факторные нагрузки (табл. 9.15). Например, нагрузка признака Lt теперь составит для второй компоненты: 0.467∙0.843 = 0.394, для третьей компоненты: –0.655∙0.435 = –0.286.

 

Таблица 9.15

Факторные нагрузки
  a1 a2 a3
W 0.933 0.161 0.322
Lt 0.874 0.394 –0.286
Lc –0.681 0.728 0.081
       
Дисперсия, S2 2.09 0.71 0.19
Стандартное отклонение, S 1.449 0.843 0.435

 

Такое преобразование позволяет оценить относительную роль признака в той или иной компоненте: несмотря на относительно высокое значение исходной нагрузки признака Lt в третьей компоненте (-0.655) по сравнению со второй (0.467) (табл. 9.13), его рассмотрение в контексте общего варьирования говорит от обратном: фактическое влияние признака на изменчивость третьей компоненты (–0.28) меньше, чем влияние на вторую компоненту (0.394) (табл. 9.15).

Более того, новое преобразование позволяет точно вычислить какую долю своей изменчивости каждый признак сообщает каждой компоненте (иначе, какую долю изменчивости признака учитывает та или иная компонента). Поскольку факторные нагрузки можно рассматривать как аналоги коэффициентов корреляции, то их квадраты могут играть роль коэффициентов детерминации, выражающих как раз долю варьирования за счет действия фактора в общем варьировании признака. Как известно, общая дисперсия отдельного нормированного признака равна единице (см. табл. 9.10), поэтому квадраты факторных нагрузок будут представлять собой искомые доли (табл. 9.16). Так, из общей дисперсии признака Lt компоненты "забрали" такие доли: первая – 0.764, вторая – 0.155, третья – 0.082; при этом 0.764 + 0.155 + 0.082 = 1, или 76 + 16 + 8 = 100%. Как видно, в наибольшей степени длина тела учтена в первой компоненте.

 

Таблица 9.16

Признаки a1 a²1 a2 a²2 a3 a²3 ∑a²1-3
W 0.933 0.870 0.161 0.026 0.323 0.104 1.0
Lt 0.874 0.764 0.394 0.155 -0.286 0.082 1.0
Lc -0.681 0.464 0.727 0.528 0.081 0.006 1.0
               
Сумма = дисперсия, S2   2.098   0.71   0.19 3.0

 

Произведения преобразованных векторов факторных нагрузок на самих себя не равны единице, но – величине дисперсии (что вытекает из процедуры получения векторов):

 

(0.933 0.874 –0.681)∙ = (0.9332 + 0.8742 + (–0.681)2) = 2.098.

 

Значения главных компонент, рассчитанные с помощью преобразованных факторных нагрузок будут отличаться от тех, что высчитаны по первой схеме. Если их дисперсии вычислить непосредственно, то они будут равны единице, а не той величине, что указана в нижней строке таблицы. В такой форме результаты компонентного анализа представлены в пакете Statistica.

В заключении следует отметить, что каким бы способом представления факторных нагрузок мы ни пользовались, как бы не трансформировались значения главных компонент, все равно, ординация (взаиморасположение) объектов в осях главных компонент не меняется! Это позволяет правильно интерпретировать компонентный анализ изменчивости признаков независимо от метода отображения его результатов.

 

 

Резюме

 

Компонентный анализ позволяет рассчитывать линейные индексы исходных признаков (главные компоненты), используя в качестве коэффициентов пропорциональности факторные нагрузки. Процедура расчетов линейных индексов, главных компонент, строится на выполнении следующих условий:

· факторные нагрузки отражают корреляцию исходных признаков,

· компоненты ортогональны, т. е. не коррелируют друг с другом,

· дисперсия следующей компоненты меньше, чем предыдущей.

Выполнение этих требований достигается в процессе многократно повторяющейся (итеративной) процедуры "подгонки" результатов вычислений под выдвинутые требования.

Компонентный анализ дает два основных итога. Во-первых, с его помощью удается выяснить тонкую структуру зависимостей переменных друг от друга и от общих причин, т. е. установить состав корреляционных плеяд признаков. Во-вторых, этот метод позволяет количественно оценить обобщенные отличия между всеми объектами, отделить несходные и объединить сходные, т. е. выявить кластерную структуру объектов. Обозначив плеяды признаков и кластеры объектов, компонентный анализ заставляет исследователя задуматься над причинами наблюдаемой структурированности, выйти за рамки известного, направляет дальнейший научный поиск.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.