Сделай Сам Свою Работу на 5

Матрица корреляций пяти показателей интеллекта





Показатели
Счет в уме 1,00 0,88 0,33 0,23 0,42
Числовые ряды 0,88 1,00 0,32 0,24 0,35
Осведомленность 0,33 0,32 1,00 0,58 0,58
Словарный запас 0,23 0,24 0,58 1,00 0,54
Сходство 0,42 0,35 0,58 0,54 1,00

 

Та б л и ц а 16.2

Факторные нагрузки после варимакс-вращения
Исходные переменные Факторные нагрузки а2 (общность)
Ру Рг
0,97 0,20 0,99
0,86 0,20 0,78
0,18 0,76 0,62
0,09 0,74 0,56
0,26 0,69 0,55
Собственное значение 1,79 1,70 3,5
Доля дисперсии 0,36 0,34 0,7

 

Применив факторный анализ, исследователь выделил два фактора. Основной ре­зультат, который подлежит интерпретации исследователем, — таблица факторных нагрузок после варимакс-вращения (табл. 16.2). Не рассматривая пока шаги, при­водящие к этому результату, попытаемся проинтерпретировать полученные данные. В нашем примере по фактору 1 (У^) максимальные нагрузки имеют переменные 1 и 2. Следовательно, фактор 1 и определяется этими переменными. Поскольку перемен­ная 1 — счет в уме, а переменная 2 — продолжение числового ряда, то фактору 1 мо­жет быть присвоено название «арифметические способности», как показателю лег­кости оперирования числовым материалом. Точно так же фактору 2 можно присвоить название «вербальные способности», как показателю словесного понимания. Нетруд­но заметить, что переменные, определяющие фактор, сильнее связаны друг с другом, чем с другими переменными (табл. 16.1). Так, переменные 1 и 2, определяющие фак­тор 1, сильнее связаны друг с другом, чем с переменными 3, 4 и 5. Таким образом, за взаимосвязью пяти исход­ных измерений способностей при помо­щи факторного анализа обнаруживает­ся действие двух латентных переменных (факторов).



Интерпретация фактора через исход­ные переменные

Интерпретация факторов — одна из основных задач факторного анализа. Ее решение заключается в идентификации факторов через исходные пере­менные. Эта идентификация и осуществляется по результатам обработки, представленным в табл. 16.2.

Основное содержание табл. 16.2 — величины оп ... о25 — факторные нагруз­ки переменных 1 ... 5 (строки) по факторам 1 и 2 (столбцы). Факторные на­грузки — аналоги коэффициентов корреляции, показывают степень взаимо­связи соответствующих переменных и факторов: чем больше абсолютная величина факторной нагрузки, тем сильнее связь переменной с фактором, тем больше данная переменная обусловлена действием соответствующего фактора. Каждый фактор идентифицируется по тем переменным, с которы­ми он в наибольшей степени связан, то есть по переменным, имеющим по
этому фактору наибольшие нагрузки. Идентификация фактора заключается, как правило, в присвоении ему имени, обобщающего по смыслу наименова­ния входящих в него переменных.



Если исследователя интересует только структура измеренных признаков, на этом факторный анализ завершается. Продолжая факторный анализ, ис­следователь далее может вычислить значения факторов для испытуемых, на­пример, с целью их дифференциации по преобладанию арифметических или вербальных способностей.

Выбирая факторный анализ как средство изучения корреляций, исследо­ватель должен отдавать себе отчет в том, что это один из самых сложных и трудоемких методов. Зачастую нет веских оснований предполагать наличие факторов как скрытых причин изучаемых корреляции, и задача заключается лишь в обнаружении группировок тесно связанных переменных. Тогда целе­сообразнее вместо факторного анализа использовать кластерный анализ кор­реляций (см. главу 19). Помимо простоты, кластерный анализ обладает еще одним преимуществом: его применение не связано с потерей исходной ин­формации о связях между переменными, что неизбежно при факторном ана­лизе. И уже после выделения групп тесно связанных переменных можно по­пытаться применить факторный анализ для их объяснения.



Итак, можно сформулировать основные задачи факторного анализа:

1. Исследование структуры взаимосвязей переменных. В этом случае каж­дая группировка переменных будет определяться фактором, по которому эти переменные имеют максимальные нагрузки.

2. Идентификация факторов как скрытых (латентных) переменных — при­чин взаимосвязи исходных переменных.

3. Вычисление значений факторов для испытуемых как новых, интеграль­ных переменных. При этом число факторов существенно меньше числа исходных переменных. В этом смысле факторный анализ решает задачу со­кращения количества признаков с минимальными потерями исходной ин­формации.

МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ ИДЕИ И ПРОБЛЕМЫ МЕТОДА

Анализ главных компонент и факторный анализ

Модель главных компонент лежит в основе большинства методов фактор­ного анализа и часто рассматривается как один из его самостоятельных вари­антов. Анализ главных компонент преобразует набор коррелирующих исход­ных переменных в другой набор — некоррелирующих переменных. Проще всего понять суть этого метода, привлекая геометрические представления.


Предположим, у нас имеются две положительно коррелирующие перемен­ные Хи У, измеренные на группе объектов. Тогда график двумерного распре­деления (рассеивания) этих объектов в осях измеренных признаков (коорди­наты объектов заданы значениями признаков) будет представлять собой эллипс, так как большим значениям переменной X будут соответствовать боль­шие значения переменной У и наоборот (рис. 16.1). Главная ось эллипса Мх — это прямая, вдоль которой будет наблюдаться наибольший разброс данных. Вдоль второй оси эллипса М2, перпендикулярной первой и проходящей че­рез ее середину, будет наблюдаться наименьший разброс данных.

Если перед нами стоит задача представления объектов (точек) в терминах только одной размерности (переменной), то главная ось эллипса является наиболее подходящей, так как вдоль нее объекты отличаются друг от друга лучше (дисперсия больше), чем вдоль любой другой прямой, в том числе и вдоль отдельно оси X или У. Анализ главных компонент в отношении этих двух признаков и состоит в переходе от них к главной компоненте, соответ­ствующей главной оси эллипса, и в представлении объектов в значениях про­екций объектов на эту ось (главную компоненту). Иначе говоря, происходит переход от координат каждого объекта по двум осям (X, У) к их координатам только по одной оси Мх — главной компоненте (рис. 16.1). Отметим, что в случае отсутствия взаимосвязи двух признаков главной компоненты просто не существует, так как обе оси (компоненты) являются равнозначными.

Рис. 16.1. Компоненты Мх и М2 двумерного распределения признаков Хи У

 

Анализ главных компонент можно представить как преобразование ин­формации, содержащейся в исходных данных. Так, определяя главную ком­поненту как направление, в котором наблюдается наибольший разброс объек­тов, представляя объекты в единицах измерения по этой оси, мы теряем минимум информации об отличии объектов друг от друга. Чем сильнее взаи­мосвязь двух переменных, тем меньше исходной информации теряется при переходе от двух переменных к одной главной компоненте. Если две пере­менные не коррелируют, то компоненты (оси) являются равнозначными по информативности, и невозможно определить одну из них как «главную».

При наличии более двух коррелирующих переменных принцип определе­ния главных компонент тот же. В осях трех и более переменных график раз­броса объектов будет представлять собой эллипсоид (овальное тело) в про­странстве трех и более измерений. Первая ось этого эллипсоида пройдет по его наибольшему диаметру, вторая — по наибольшему диаметру в плоскости, рассекающей эллипсоид посередине и перпендикулярно первой оси, и так далее. Количество осей этого эллипсоида будет равно количеству перемен­ных, и в направлении каждой последующей оси будет все меньший и мень­ший разброс наблюдений. При этом количество компонент, которые иссле­дователь выбирает как «главные», определяется произвольно. Таким образом, анализ главных компонент решает задачу сокращения количества перемен­ных при условии сохранения максимальной доли дисперсии наблюдений.

Анализ главных компонент является исходной процедурой многих мето­дов факторного анализа и может рассматриваться как их упрощенный аналог. Поэтому более подробно рассмотрим на его примере наиболее важные поня­тия факторного анализа.

В основе анализа главных компонент лежит математический метод нахож­дения собственных значений и собственных векторов корреляционной мат­рицы. Не останавливаясь на определениях и процедурах этого метода, отме­тим то, что действительно имеет существенное значение для дальнейшего понимания основ факторного анализа. В процессе компонентного анализа решается уравнение (в матричной форме):

К = АА\ (16.1)

где К — исходная матрица корреляций; А — матрица, каждый элемент кото­рой аш — компонентная нагрузка переменной \ (строка) по компоненте к (стол­бец); А' — транспонированная матрица А. Уравнение 16.1 Л. Терстоун назвал «фундаментальной факторной теоремой» (Г. Харман, 1972). Результатом ре­шения этого уравнения является матрица компонентных нагрузок А.

Рассмотрим важные особенности матрицы компонентных нагрузок на примере компонентного анализа корреляционной матрицы, представленной втабл. 16.1. Решение уравнения 16.1 позволяет получить матрицу компонент­ных нагрузок (табл. 16.3).

Таблица 16.3

Компоненты корреляционной матрицы показателей интеллекта
Переменная Компоненты
0,77 -0,58 0,00 0,03 -0,26
0,75 -0,60 -0,13 0,00 0,25
0,75 0,41 -0,06 -0,51 -0,01
0,68 0,53 -0,39 0,33 -0,02
0,78 0,30 0,52 0,18 0,05
Собственное значение (X) 2,78 1,24 0,45 0,41 0,13
Доля дисперсии 0,56 0,25 0,09 0,08 0,02
Накопленная доля дисперсии 0,56 0,81 0,90 0,98 1,00

 

Собственные значения выделяются в порядке их убывания в соответствии с осями эллипсоида разброса наблюдений. Количество выделяемых компонент (и собственных значений) равно числу переменных. Сумма всех собственных значений равна количеству переменных. Отметим, что если бы все корреля­ции между исходными переменными были бы равны нулю, то каждое соб­ственное значение равнялось бы 1. Чем выше корреляции между переменны­ми, тем больше предыдущие собственные значения и меньше — последующие. Собственное значение, деленное на количество переменных, есть доля дис­персии, соответствующая данной компоненте. Все компоненты исчерпывают 100% совокупной дисперсии переменных.

Каждый элемент а матрицы А — это компонентная нагрузка переменной / (строка) по компоненте к (столбец). Компонентная (как и факторная) нагруз­ка — аналог коэффициента корреляции, мера связи переменной / и компо­ненты к. Соответственно, квадрат компонентной нагрузки (как и корреля­ции) приобретает смысл части дисперсии, в данном случае — части дисперсии переменной, объясняемой соответствующей компонентой. Сумма квадратов всех компонентных нагрузок по строке равна 1, полной дисперсии перемен­ной (в ^-значениях).

Таким образом, полная единичная дисперсия каждой переменной разло­жена по компонентам. Сумма квадратов всех компонентных нагрузок по стол­бцу равна собственному значению данной компоненты:

р

Я/ = Е°/У' (16.2)

м

где / — номер компоненты, ] — номера переменных (количеством Р).

Как было указано, это собственное значение, деленное на количество пе­ременных, есть доля дисперсии, соответствующая данной компоненте, и ис­пользуется как показатель информативности компоненты.

Уравнение 16.1 позволяет восстановить коэффициенты корреляции по матрице компонентных нагрузок А, так как произведение этой матрицы на саму себя транспонированную дает корреляционную матрицу. В соответствии с правилом умножения матриц, каждый коэффициент корреляции г^ может быть восстановлен через компонентные нагрузки, как сумма всех (по строке) произведений нагрузок для этих двух переменных по каждой компоненте. Восстановленный коэффициент корреляции вычисляется по формуле:

м

^ = (16.3)

к=\

где I,] — номера переменных в корреляционной матрице; к — номер компо­ненты; М — количество компонент; а — компонентные нагрузки. Так, вос­становленная корреляция между переменными 3 и 5:

/■35= 0,75-0,78 + 0,41-0,30+ (-0,06)0,52 + (-0,51)0,18 + (-0,01)0,05 = 0,58.

Заметим, что диагональный элемент корреляционной матрицы, как кор­реляция признака с самим собой (г =/), равен сумме квадратов всех компо­нентных нагрузок данной переменной — по строке, то есть 1.

Исследователь может воспользоваться анализом главных компонент как упрощенным вариантом факторного анализа. Тогда он выберет не все компо­ненты, а только главные, объясняющие большую часть дисперсии. В данном случае главными будут первые две компоненты, объясняющие 81% суммар­ной дисперсии переменных.

Переход к главным компонентам позволяет ввести еще одно важное поня­тие факторного анализа. Общность (СоттипаИгу) — часть дисперсии перемен­ной, объясняемая главными компонентами (факторами), вычисляется как сумма квадратов нагрузок по строке:


 

(16.4)

где / — номер переменной, к — номер (главной) компоненты. Например, если по таблице 16.3 выделяются две главные компоненты, то общность переменной 1: к? = 0,772 + (-0,58)2 = 0,93, а общность переменной 4: /г42 = 0,682 + 0,532 = 0,74. То есть первые две компоненты исчерпывают 93% дисперсии переменой 1 и 74% дисперсии переменной 4.

Восстановленные только по главным компонентам коэффициенты корреля­ции (по формуле 16.3) будут меньше исходных по абсолютной величине, а на ди­агонали восстановленной корреляционной матрицы будут не 1, а величины общ­ностей.

Анализ главных компонент в «чистом виде» используется для решения од­ной из ключевых проблем факторного анализа — проблемы числа факторов.

Принцип выделения «главных факторов» в факторном анализе тот же, что и при анализе главных компонент. Но в отличие от компонентного анализа факторный анализ направлен на объяснение корреляций между переменны­ми, а не только компонент дисперсии.

(16.5)

Факторная структура (Расюг Зпиаиге Магпх) — основной результат приме­нения факторного анализа. Элементы факторной структуры — факторные на­грузки (РасХог ЬоасНщз) переменных а, аналогичные компонентным нагруз­кам (см. табл. 16.3). Однако основное требование их получения, в отличие от анализа главных компонент, — максимально полное отражение исходных коэф­фициентов корреляции. Поэтому оснонное уравнение факторного анализа:

К = А-А'при условии Л—> К,

где К — исходная матрица интеркорреляций; К — матрица восстановленных коэффициентов корреляции; А — матрица факторных нагрузок размерностью, столбцы которой — факторные нагрузки /^переменных по Мфакторам; А' — транспонированная матрица А. Отличие уравнения 16.5 от сходного с ним уравнения компонентного анализа (16.1) в том, что матрица факторных на­грузок А вычисляется таким образом, чтобы восстановленные коэффициенты корреляции минимально отличались от исходных корреляций.


Рассмотрим искомую факторную структуру в общем виде, как матрицу факторных нагрузок (табл. 16.4). В этой таблице Р строк, соответствующих переменным, и М столбцов — факторов. Значение аш — это факторная на­
грузка переменной / по фактору к. Соотношения величин в этой таблице иден­тично соотношениям в таблице компонентных нагрузок. Собственное значе­ние (ЕщетаЫе) каждого фактора Хк, по формуле 16.2, равно сумме квадратов факторных нагрузок всех переменных по фактору к (по столбцу). Общность каждой переменной к}, в соответствии с формулой 16.4, равна сумме квадра­тов факторных нагрузок переменной / по всем факторам. Коэффициент кор­реляции между любыми двумя переменными может быть восстановлен по этой таблице, как сумма произведений факторных нагрузок по соответствующим строкам (по формуле 16.3).

Таблица 16.4

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.