Техника расчета линейного коэффициента корреляции

Предыдущая 16 17 18 19 20 21 222324 25 26 27 28 29 30 31 Следующая

Часто ее наличие пытаются оценить на глаз с помощью графиков. Однако даже если и удается определить сам факт коррелятивной взаимосвязи, то степень ее остается неизвестной. Корреляционный анализ призван количественно выразить связь и определить ее достоверность.

Конструкция коэффициента корреляции в своей основе имеет линейную математическую модель (метод наименьших квадратов). Поэтому единичное значение коэффициент корреляции принимает лишь тогда, когда все точки графика зависимости переменных лежат на одной прямой линии. Во всех остальных случаях он будет отличаться от единицы.

Способ вычисления коэффициента корреляции показан на примере исследования зависимости между живым весом коров и их приплода (кг) (табл. 8.3, стр.176). Рассчитываются квадраты вариант и их произведения, а также суммы значений, их квадратов, произведений, другие вспомогательные величины:

Cxy = Σ(x∙y)–(Σx)∙(Σy)/n = 103144–3150∙224/ 7 = 2344

Cy = Σy²–(Σy)²/n = 7330–224²/ 7 = 162,

Cx = Σx²–(Σx)²/n = 1453158–3150²/ 7 = 35658.

Затем вычисляется коэффициент корреляции:

= 0.975,

его ошибка:

и критерий Стьюдента, проверяющий нулевую гипотезу Но: "коэффициент корреляции достоверно от нуля не отличается", r = 0.

T_r = r/ m_r = 0.975/ 0.099 = 9.84.

То, что эта величина значительно превышает табличную (для уровня значимости α = 0.05 и числе степеней свободы df = п–2 = 5 T_(0.05,5) = 2.57), говорит о высокой статистической значимости полученного коэффициента корреляции.

По таблице 6П можно определить уровень значимости коэффициента корреляции. Полученное значение критерия T_r = 9.84 превышает порог даже для уровня значимости α = 0.001, т. е. шанс ошибочного заключения даже ниже 1 на 1000, иначе вероятность справедливости заключения очень высока, P>0.999.

Оценить достоверность отличия коэффициента корреляции от нуля можно и не прибегая к вычислению ошибки и критерия Стьюдента. Для этого служит специальная таблица 16П, в которой указаны минимальные значимые значения коэффициента корреляции при разных объемах выборок и уровне значимости. Чтобы полученный коэффициент корреляции можно было считать достоверным, он должен превышать табличное значение при данном n. В нашем случае (n = 7, α = 0.05) достоверно уже значение r = 0.666, полученный коэффициент корреляции (r = 0.975) превышает табличное, следовательно, также значим.

Доверительный интервал для нашего случая (r = 0.975, α = 0.05, п = 7, df = п–2 = 5, T_(0.05,5)= 2.57) рассчитывается так. Преобразуем r:

= 2.184724 (по таблице 14П z = 2.0923).

Ошибка составит = 0.5.

Определяем верхнюю границу:

_maxz = z+T₍_α_,_df₎∙m_z = 2.09+2.57∙0.5 = 3.375,

нижнюю границу:

_minz = z+T₍_α_,_df₎∙m_z = 2.09–2.57∙0.5 = 0.805.

Обратное преобразование (по табл. 15П) дает: _maxr ≈ 1.00, _minr ≈ 0.67. Истинный коэффициент корреляции находится в диапазоне от r = 0.67 до r = 1.00.

В среде Excel существует несколько путей поиска корреляций. Отдельный коэффициент корреляции между двумя переменными проще всего определить с помощью статистической функции = КОРРЕЛ(диапазонX;диапазонY). Аналогичный результат дает регрессионный анализ с помощью макроса, вызываемого командой меню Сервис\ Анализ данных\ Регрессия. Когда изучаются два признака, Множественный R на самом деле является парным коэффициентом корреляции между ними. Для расчета корреляций между несколькими переменными можно использовать программу, вызываемую командой меню Сервис\ Анализ данных\ Корреляция. Результатом ее работы оказывается матрица коэффициентов корреляции.

Ложная корреляция

Когда величина коэффициента корреляции определяется в первую очередь способом подбора вариант в выборку, а не реальной зависимостью между изучаемыми признаками, то говорят о "ложной корреляции".

Величина коэффициента корреляции зависит от вытянутости эллипса рассеяния: чем больше длина главной оси эллипса отличается от сечения, тем выше значение коэффициента. Случайные единичные, а тем более парные значения могут резко повысить показатель силы связи признаков. Особенно чувствителен коэффициент корреляции к нулям, которые могут попасть в исходную матрицу при переносе данных между электронными таблицами.

Явление ложной корреляции возникает и в том случае, когда исследуемые показатели имеют в сумме постоянное значение, например 100%. Рассмотрим соотношение численности грызунов и насекомоядных в разных биотопах (табл. 8.10). Представители и первого, и второго отрядов чаще встречаются в коренных хвойных лесах, нежели в антропогенных стациях, тем более в агроценозах. Синхронность их реакции на трансформацию ландшафтов выражается высоким коэффициентом корреляции их численности r = 0.85.

Таблица 8.10

Биотоп	Численность (экз./100 конусо-суток)	Доля (%)
	бурозубок	грызунов	общая	бурозубок	грызунов	общая
	N6	Nг	Nо	N6/ Nо	Nг / Nо	Nо / Nо
Кедровник				0.46	0.54
Смешанный				0.44	0.56
Экотон				0.52	0.48
Сосняк				0.58	0.42
Березняк				0.47	0.53
Луг				0.53	0.47
r	0.85		–1.00

Если же оценить зависимость между долей грызунов (Рг = Nг/Nо) и долей бурозубок (Рб = Nб/Nо) в этих стациях (между индексами доминирования), она составит r = –1.00. Дело в том, что эти показатели рассчитываются относительно общей суммы, поэтому доля полевок составляет разницу между 1 и долей бурозубок: Рг = 1–Рб. По существу, мы имеем уравнение строго функциональной обратной регрессии (у = 1–1∙х), которому соответствует, естественно, максимальный отрицательный коэффициент корреляции. Требование неизменности суммы двух показателей (1 или 100 %), принятое для вычисления процентов, оказывается причиной постоянной обратной пропорции между этими показателями. Такая корреляция должна быть названа ложной, потому что характеризует не биологическую зависимость показателей, а способ их расчета. Когда общую сумму образуют три и более признаков, ложная корреляция будет отличаться от r = –1, но от этого не утратит своей природы математического артефакта.

При обработке массивов данных с большим числом производных признаков (индексы доминирования видов в сообществе, морфофизиологические индикаторы) нетрудно пропустить еще один вид ложной корреляции, которая наблюдается между двумя признаками, отнесенными к общей для них третьей переменной.

По неосмотрительности коэффициенты связи между индексами можно воспринять как оценку зависимости между признаками. Такие корреляции, бессознательно наведенные третьим фактором, также можно назвать ложными.

Безусловно, содержательную интерпретацию можно дать как корреляции признаков, так и корреляции индексов, но они будут кардинально отличаться. Например, для нескольких видов куньих (от ласки до барсука) коэффициент корреляции (r = 0.96) между длиной тонкого и толстого отделов кишечника отражает простые морфологические пропорции: у крупного животного кишечник длиннее, чем у мелкого. Однако корреляция между индексами этих органов (размеров, отнесенных к длине тела особи) характеризует уже отличия диеты разных видов (r = 0.78): кишечник относительно меньше у облигатных хищников, нежели у полифагов. Однако в большом массиве производных значений такие отношения между индексами могут восприниматься как зависимости между признаками, что неизбежно приведет к ложным выводам.

Чтобы уйти от подобной двусмысленности, к обработке желательно привлекать только предварительно выверенные реальные исходные показатели, а не доли, проценты или индексы.

Предыдущая 16 17 18 19 20 21 222324 25 26 27 28 29 30 31 Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: