Сравнение нескольких выборок по величине одного признака

Предыдущая 8 9 10 11 12 13 141516 17 18 19 20 21 22 23 Следующая

(однофакторный дисперсионный анализ)

Дисперсионный анализ позволяет оценить достоверность отличия нескольких выборочных средних одновременной, т. е. изучить влияние одного контролируемого фактора на результативный признак путем оценки его относительной роли в общей изменчивости этого признака, вызванной влиянием всех факторов.

Логико-теоретические основы

Задача дисперсионного анализа состоит в том, чтобы охарактеризовать силу и достоверность влияния фактора на признак, причем только на величину (средний уровень) признака, но не на его изменчивость. Дисперсионный анализ есть метод сравнения нескольких средних арифметических. В этом смысле он подобен методу сравнения двух средних арифметических с помощью критерия Стьюдента:

T = (M₁–M₂)/ m_d, или T = dM/ m_d

где M₁ , M₂– две выборочные средние,

dM – обобщенный показатель отличия выборочных средних,

m_d – обобщенная ошибка репрезентативности .

Критерий сравнивает две средние арифметические двух выборок, полученных при разных условиях, при действии двух доз некоего фактора. В числителе этой формулы стоит оценка действия возможного доминирующего фактора, а в знаменателе стоит оценка действия случайных факторов варьирования выборочных значений. Если изучаемый фактор сказывается на значении вариант, то оценка его действия (dM) превысит оценку действия случайных факторов (m_d), хотя бы в 2 раза (критическое значение критерия Стьюдента для репрезентативных выборок T(_0.05,30) ≈ 2). В этом случае говорят о достоверном отличии средних арифметических, о достоверном влиянии на варианты различных условий их формирования.

В дисперсионном анализе использован такой же показатель достоверности влияния фактора, но адаптированный к случаю сравнения нескольких выборок (критерий Фишера):

F = S²_факт_./ S²_случ_..

В качестве обобщенной меры отличия нескольких выборочных средних выступает дисперсия, рассеяние выборочных средних (M_j) вокруг общей средней (M_общ_.):

где df_факт. = k–1,

j = 1, 2, …k,

k – число сравниваемых средних.

В качестве обобщенной меры случайного варьирования служит дисперсия вариант (x_i) вокруг средней в каждой градации (M_j):

где df_случ. = n–1,

i = 1, 2, …n, n – число вариант всех выборок.

В этом отношении критерий Фишера, используемый для сравнения нескольких средних арифметических, подобен критерию Стьюдента, служащему для сравнения двух средних:

изменчивость за счет систематических причин

изменчивость за счет случайных причин

––––––––––––––––––––––––––––

Применяя дисперсионный анализ, это обстоятельство важно всегда иметь в виду: несмотря на то, что критерий Фишера использует дисперсии, тем не менее, сравниваются друг с другом выборочные средние арифметические!

Техника расчетов

В основе однофакторного дисперсионного анализа (дословно – разложение дисперсий) лежит модель варианты (x_i), которая выражает ее отклонение от общей средней (M) за счет действия контролируемого фактора (x_факт.) и действия случайных причин (x_случ.):

x_i = M ±x_факт. ±x_случ.

Иными словами, отклонение варианты от общей средней связано с отклонением за счет действия изучаемого фактора и за счет действия прочих неучтенных факторов.

Каждой дозе изучаемого фактора соответствует одна выборка (градация). Поэтому каждая групповая (выборочная) средняя будет характеризовать реакцию объектов на соответствующую дозу изучаемого фактора и эффект изучаемого фактора можно выразить как отклонение групповой средней – от общей средней:

x_факт. = M_j – M.

В свою очередь, от групповой средней каждая варианта будет отличаться в силу случайных неучтенных причин, эффект действия случайных факторов можно выразить как отклонение отдельной варианты от данной групповой средней:

x_случ. = x_i – M_j_.

Получается, что отклонение варианты от общей средней будет равно отклонению групповой средней от общей средней (эффект учтенного фактора) и отклонению варианты от своей групповой средней (эффект неучтенных факторов). Отсюда:

(x_i– M) = (M_j – M) + ( x_i – M_j).

Обобщая эту запись для всех вариант выборки (возведя в квадрат и суммировав), получаем правило разложения общей вариации признака на составные части, отражающие влияние всех названных причин:

С_общ_. = С_факт_. + С_случ_.

Общая сумма квадратов признака рассчитывается как сумма квадратов отклонений всех вариант (x_i) от общей средней (M):

С_общ_. = Σ (x_i – M)².

Факториальная сумма квадратов рассчитывается как сумма квадратов отклонений частных средних (M_i) для каждой выборки (всего k выборок) от общей средней:

С_факт_. = Σ (M_j – M)².

Остаточная (случайная) сумма квадратов есть сумма квадратов отклонений вариант каждой выборки (x_i) от своей средней (M_j):

С_случ_. = Σ (x_i – M_j)².

Параметры дисперсионного анализа и порядок их вычислений представлены в таблице 7.2.

Отношение сумм квадратов (SS, sum of squares) к соответствующему числу степеней свободы дает оценку величины дисперсии, или средний квадрат (MS, mean square), иногда ее именуют варианса. Влияние изучаемого фактора отражает факториальная, или межгрупповая, дисперсия S²_факт_., а влияние случайных неорганизованных в данном исследовании причин – случайная, или внутригрупповая, остаточная дисперсия S²_случ_., или S²_остат.

Таблица 7.2

Состав-ляющие дисперсии	Суммы квадратов (SS), С	Сила влияния, η²	Степени свободы, df	Дисперсии (средний квадрат, MS), S²	Критерий влияния, F
Фактори-альная	С_факт_. = Σ (M_j – M)²		k–1	S² _факт_. = =	F =
Случайная	С_случ_. = Σ (x_i – M_j)²		n–k	S²_случ_. = =
Общая дисперсия	С_общ_. = Σ (x_i – M)²

Сила влияния фактора определяется как доля частной суммы квадратов в общем варьировании признака. Показатель силы влияния изучаемого фактора составляет: η² _факт.= С_факт./ С_общ_.,неорганизованных (случайных): η² _случ_.= С_случ_./ С_общ_.; сумма этих показателей, естественно, равна единице: η² _факт.+ η² _случ. = 1.

В то же время нам кажется, что придавать большое значение этому индексу не стоит. Во-первых, в литературе показано, что он дает не точную характеристику вклада фактора в общую изменчивость и для него приходится рассчитывать некую поправку. Во-вторых, утверждение вроде "фактор влияет с силой 20%" ничего не передает, кроме впечатления о не очень большом влиянии фактора. Гораздо интереснее было бы дать прогноз возможных значений результативного признака при том или ином уровне действия фактора, а это можно сделать только с помощью регрессионного анализа или имитационного моделирования. По этим причинам мы рекомендуем рассматривать показатель η _факт.как простую и удобную характеристику влияния фактора на признак, подталкивающую исследователя к решению о необходимости продолжения биометрического исследования в рамках регрессионного анализа. Чем большую долю в общей дисперсии занимает ее факториальная часть, тем большая часть общего разнообразия обусловлена варьированием за счет действия фактора.

Нулевая гипотеза гласит: "влияние фактора на признак отсутствует". Проверяют гипотезу по критерию Фишера:

F = S²_факт./ S²_случ_.≥ F ₍_α_,_df_1,_df₂₎,

где df₁ = k–1, df₂= n–k,

k – число градаций результативного признака,

n – общий объем всех выборок по всем градациям.

Влияние считается достоверным, если величина расчетного критерия равна или превышает свое табличное значение с принятым уровнем значимости (обычно α = 0.05) (F определяется по табл. 7П).

Предыдущая 8 9 10 11 12 13 141516 17 18 19 20 21 22 23 Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: