Сделай Сам Свою Работу на 5

Главные компоненты как факторы





 

Зачем же делать такую подмену одних признаков – другими? Дело в том, что новые показатели – это не совсем "признаки", характеристики объектов. С бóльшим основанием их можно назвать "явлениями"; это отображения неких процессов (или факторов), затрагивающих сразу группы признаков объектов измерения.

Взять, к примеру, индивидуальный рост животных, который сказывается и на размерах тела, и на массе особи, ее внутренних органов, степени развития генеративных органов, интенсивности обменных процессов и т. д. Опыт показывает, что в выборке разновозрастных животных одна из главных компонент формируется при участии всех этих признаков и поэтому может быть названа "возрастные изменения", т. е. как явление, а не признак. Что же могут представлять из себя другие главные компоненты, какие явления она могут описывать, какое общее направление изменчивости? Таким направлением может быть, например, половой диморфизм по многим признакам: самки отличаются от самцов и массой, и размерами, и пропорциями, и степенью гипертрофии органов при беременности и т. д. Это вторая причина изменчивости затрагивает те же признаки, что и онтогенез, но "в другом направлении". Наконец, если рост и развитие разных особей проходили в разных условиях (разные сезоны, районы ареала, антропогенной пресс), они не могли не сказаться на морфологии, но своим, особенным образом – третья причина.



Эта логика приводит нас к двойственному заключению:

– каждый реальный признак характеризует только какую-то одну сторону явлений, которыми захвачены особи,

– каждое из этих явлений (факторов) сказывается на многих признаках.

Получается, что в значении каждой отдельной варианты воплощается реализация нескольких разнородных процессов; модель значения варианты любого исходного признака имеет вид:

,

где x – исходное значение какого-либо признака x,

xa – выражение процесса a в формировании варианты x,

xb – роль процесса b в формировании значения варианты x.

Понятно, что разные факторы будут оказывать на варианты разное влияние, одни более сильное, другие более слабое. Например, из рассмотренных выше возможных отличий вариант, воплощенных в конечном признаке каждой особи (пусть это будет масса тела), наибольшую роль сыграет возраст, а также половой диморфизм, затем условия развития, индивидуальные отличия и пр., т. е. a > b > c >…



Если попытаться выразить массу какого-либо мелкого животного (например, обыкновенной гадюки) предложенным способом, получим:

,

где Wi – значение массы отдельной i-й особи,

Wвид – вклад в значение массы видовой нормы (средней)(примерно 50 г),

Wпол – вклад в значение массы половых отличий (±50 г),

Wвозраст – вклад в значение массы этапа онтогенеза (±80 г),

Wплод – вклад в значение массы наличие эмбрионов (±60 г),

Wсезон – вклад в значение массы сезона (упитанности, развития)(отличия до 50 г).

Так, для молодого половозрелого самца гадюки летом имеем примерно

W = 50 + 40 – 20 + 0 + 0 = 70 г,

 

для старой беременной самки летом

W = 50 + 100 + 100 + 30 – 20 = 260 г,

для трехлетней ювенальной особи весной

W = 50 + 0 – 30 + 0 + 0 = 20 г.

Пример показывает, благодаря действию каких причин отличаются размеры животных, какие направления изменчивости реализованы в этих вариантах; в порядке возрастания значимости это:

– отличия по возрасту,

– отличия по полу,

– отличия по участию в размножении,

– отличия по сезону (упитанности).

Важно указать, что "видовая норма", определенная комплексом процессов, определяющих типичные для вида размерные характеристики (условная средняя), дает одинаковый вклад во все значения вариант; вклады остальных причин для каждой особи различны.

Аналогичным образом можно расписать влияние названных причин на любой другой признак, например, на линейные размеры тех же гадюк:



и т. п.

 

Итак, одни и те же процессы (факторы) сказываются на разных количественных характеристиках изучаемых объектов, при этом на разные варианты один и тот же фактор воздействует с разной силой. Сила действия данного фактора может быть, видимо, определена по величине соответствующей "добавки" к значению варианты.

Такой "декомпозирующий" взгляд на числа в матрице исходных данных позволяет предложить принцип поиска и количественной характеристики общих причин, ответственных за отличия объектов выборки. Используя информацию, заключенную в исходной матрице данных, в рамках компонентного анализа предлагается количественно выразить факторы, ответственные за отличия объектов. Данный l-й фактор можно представить как сумму всех эффектов (xlj) его воздействия во все изучаемые признаки (x1,…xj,…xm), т. е. как сумму всех "добавок" данного фактора во все значения отдельных признаков отдельной особи:

 

… (x1 как сумма вкладов разных факторов

в первый признак)

…,

 

(xm как сумма вкладов разных факторов)

в m-й признак)

 

– сумма вкладов одного фактора в значения всех признаков,

где ГКа – значение главной компоненты, характеризующей действие одного из процессов формирования вариант (фактор a),

xaj – вклад фактора a в значение варианты j-го признака данного объекта.

Для другого процесса (фактор b) имеем:

и т. д. для всех прочих факторов.

Например, как показывает практика, первой главной компонентой в выборке животных обычно оказывается фактор возрастных отличий, что позволяет записать примерное выражение:

.

Иными словами, главная компонента, характеризующая действие возраста, представляет собой сумму соответствующих долей вариант по всем признакам.

Конечно, странно и неправильно было бы складывать граммы с миллиметрами и миллиграммами, поэтому в уравнении присутствует префикс норм., говорящий о том, что в расчетах принимают участие значения, предварительно преобразованные к виду, позволяющему проводить такие операции. Эти значения центрированы (к средней) и нормированы (на стандартное отклонение):

норм. xji = ,

где норм. xji, или zji – нормированное i-е значение j-го признака,

Mj, Sj – средняя и стандартное отклонение j-го признака по всей выборке,

i – индекс объекта, особи,

j – индекс признака.

После нормирования признаки утрачивают единицы измерения, и складывать их значения вполне допустимо.

 

Требование максимума дисперсии

 

Представленным выше способом формируется столько главных компонент, сколько существенных причин участвовало в формировании вариант. Теперь можно детальнее показать, почему количество расчетных признаков (главных компонент) должно быть меньше, чем число исходных переменных. На выборке объектов можно часто наблюдать, как от объекта к объекту разные признаки изменяются чуть ли не синхронно, т. е. сходным образом реагируют на одни и те же факторы. Факт корреляции между признаками означает, что они содержат много общей информации о действующих факторах. При этом каждый отдельный фактор влияет на несколько признаков. Главные компоненты как раз и выражают эти немногие причины изменчивости, которых всегда меньше, чем исходных признаков.

Получается, что 100% информации об изменчивости вариант, заключенной в исходной матрице данных, перераспределяется между компонентами по-иному, чем между признаками. Например, когда изучается 10 признаков, можно условно принять, что каждый из них привносит по 10% информации. Пусть при этом половина значения каждой варианты каждого признака будут изменяться у разных особей под действием одной причины (например, возраста), тогда на долю главной компоненты, которая уловит эти возрастные отличия, придется 50% общей информации; она будет в пять раз более информативна, чем любой исходный признак. Аналогично можно представить, что на половые отличия придется 30% информации (изменчивости значений вариант), на отличия по срокам наблюдения – 10%, а на все прочие более слабые причины – оставшиеся 10%. В итоге можно увидеть, что вместо 10 признаков львиную долю общей изменчивости вариант отобразили, "объяснили" всего 3 главных компоненты. Эти 10–20% относятся, как правило, к стохастическому шуму (слабые несущественные факторы, ошибки измерения), их обычно не рассматривают.

В рамках компонентного анализа "сила" каждой компоненты (характеристики некоего фактора) оценивается как доля дисперсии данной компоненты в общей дисперсии признаков (этот принцип, по существу, заимствован из дисперсионного анализа). Как уже говорилось, количество информации в многомерной статистике выражается степенью отличия объектов друг от друга, т. е. общей дисперсией их значений (ГКj). Эта общая по всем признакам дисперсия перераспределяется между разными компонентами. (В публикациях можно найти выражения вроде "доля дисперсии первой главной компоненты составляет 34%"; буквально это означает, что относительная сила влияния некоего фактора, выраженного этой компонентой, составляет 34%.) Процедура расчета главных компонент организована таким образом, что первыми описываются самые сильные влияния, действие самого сильного фактора, т. е. чтобы дисперсия первой компоненты имела наибольшее значение. Затем вычисляются оценки действия второго по значимости фактора, с меньшей дисперсией, и так далее в порядке уменьшения величины дисперсии главных компонент:

.

 

Факторные нагрузки

 

Подходя к рассмотрению техники расчетов главных компонент, выразим их модель с использованием не абсолютных значений вкладов разных признаков, но относительных. Если значение отдельной варианты есть сумма вкладов разных факторов , то величина вклада в значение варианты отдельного фактора составит некую долю от общего значения варианты:

,

где aj – относительный вклад данного фактора в конечное значение варианты,

xj – значение варианты признака j.

Используя это преобразование, а также исходную формулу , получаем уравнение первой главной компоненты:

,

второй:

и так далее.

Общая модель компонентного анализа примет вид:

,

где l – номер компоненты, l = 1, 2,… k (значимых компонент

всегда меньше, чем признаков, k m).

Как же практически можно определить, какую долю каких факторов содержит в себе каждое значение исходных признаков, т. е. чему равны конкретные значения коэффициентов aj (факторных нагрузок) и как их вычислить? Для упрощения объяснения на первых порах придется несколько пожертвовать строгостью понятий.

Сначала зададимся более простым вопросом – как определить долю участия некоего внешнего фактора в каких-либо двух изучаемых признаках (например, масса и размеры особи)? Если некий фактор будет действовать на оба признака одновременно, это значит, что изменения значений вариант от объекта к объекту будут происходить более или менее синхронно, сопряженно. Поскольку известно, что сопряженное варьирование двух признаков лучше всего оценивать с помощью корреляционного анализа, значит, коэффициент корреляции и покажет, чтó в варьировании двух признаков есть общего и какова степень этой общности. Корреляция на уровне r = 1свидетельствует о том, что оба изучаемых признака абсолютно детерминированы друг другом или единственной внешней причиной. Говоря упрощенно, коэффициент корреляции r = 0.5 свидетельствует, что примерно половинная доля значений каждой из вариант обоих признаков определяется действием некоего общего фактора, а другие "половинки значений" сформированы под влиянием иных обстоятельств. Такой уровень корреляции как раз характерен для связи вес – размеры особи. Любой коэффициент корреляции будет отражать то общее, что есть между каждой парой изучаемых признаков, что заставляет их сопряженно изменяться от варианты к варианте.

Коэффициенты в уравнениях главных компонент – это по существу и есть коэффициенты корреляции между признаками, они названы факторными нагрузками (отличия между коэффициентами корреляции и факторными нагрузками показаны ниже). Это удачное название показывает, во-первых, какой эффект данный l-й фактор оказал на данный j-й исходный признак, а также, во-вторых, какой вклад вносит данный признак в значение данной главной компоненты. Итак, факторные нагрузки есть аналоги коэффициентов корреляции между признаками (например, между первым признаком и всеми остальными, r1i); это позволяет записать примерную формулу:

.

 

 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.