Сделай Сам Свою Работу на 5

Техника расчета линейной регрессии





 

Судить о том, на какую величину в среднем изменяется один признак (Y) при изменении другого (x) на единицу измерения, позволяет уравнение линейной регрессии: Y = ax + b.

Термин "линейная" относится к методу оценки коэффициентов регрессии (a, b), это метод наименьших квадратов, дающий уравнение линии, удаленной от всех точек двумерного распределения на наименьшее расстояние.

Способ вычисления уравнения регрессии показан в таблице 8.3 на примере зависимости меж­ду живым весом коров и их приплода (кг). Нулевая гипотеза предполагает отсутствие связи. По таблице рас­считываются квадраты вариант и их произведения, а также суммы вариант, квадратов и произведений. Вычисления ведут­ся по точным рабочим формулам.

 

Таблица 8.3

i у х у² х² х∙у Y (yYi T∙mY minY maxY
25.6 0.31 2.0 23.6 27.5
27.1 1.29 1.7 25.5 28.8
28.8 4.65 1.4 27.4 30.2
32.2 0.04 1.2 31.0 33.4
34.2 0.06 1.3 32.9 35.5
37.1 0.76 1.7 35.4 38.9
38.9 0.81 2.1 36.8 41.0
Σ   7.92      

 



Проведем последовательные расчеты. Сначала определим вспомогательные величины:

Cxy = Σ(x∙y)–(Σx)∙(Σy)/n = 103144–3150∙224/ 7 = 2344,

Cобщ. = Cy = Σy²–(Σy)²/n = 7330–224²/ 7 = 162,

Cx = Σx²–(Σx)²/n = 1453158–3150²/ 7 = 35658,

Cостат. = 7.92,

Cмод. = 162–7.92 = 154.08;

затем – параметры:

My = Σy/n = 224/ 7 = 32,

Mx = Σx/n = 3150/ 7 = 450,

= 5.2,

= 77.1,

= 0.975,

= 0.0657,

b = Mya∙Mx = 32–0.0657∙450 = 2.419.

Получено уравнение линейной регрессии Y = 0.0657x + 2.419, которое позволяет рассчитать теоретические значения Yi (табл. 8.3)и провести дисперсионный анализ (табл. 8.4).

Расчетное значение F (97.3) превышает табличное (6.0), следовательно, модель адекватна реальности. Судя по коэффициенту детерминации, "сила влияния" веса коров на вес плода велика:

.

Далее найдем ошибки параметров:

,

,

,

или = 1.2582,

3.0359;

и, наконец, критерий T Стьюдента для проверки значимости коэффициентов: Ta = a/ ma = 0.0657/ 0.00667 = 9.84,

Tb = b/ mb = 2.419/ 3.0359 = 0.7968.

Для уровня значимости α=0.05 и числа степеней свободы df = n–2 = 5 находим табличное значение критерия Стьюдента T(0.05,5) = 2.57.



 

Таблица 8.4

Составляющие дисперсии С   df S² F
Наклон модельной линии Смод. = = Σ (YiY)2 154.08 S2мод. = = 154.08 F = = = = 97.3
Отклонения вариант от линии регрессии Состат. = = Σ (yi – Yxi)2 7.92 S2остат. = = 1.58 F(0.05,1,5) = 6.6
Общая (всего) Собщ. = = Σ (yiY)2      

Полученная величина (9.84) значительно превышает табличную (2.57), что говорит о высокой статистической значимости первого коэффициента регрессии (a), о достоверности его отличия от нуля. Масса тела теленка действительно возрастает вслед за ростом массы тела коровы.

Рассчитаем доверительный интервал, в котором с той или иной вероятностью заключено теоретическое значение веса новорожденных. Примем уровень значимости α = 0.05, тогда для числа степеней свободы df = п–1 = 6 критерий Стьюдента (нормированное отклонение) составит 2.45. Далее находим границы. Так, для значения x = 352 кг прогноз равен Y = 25.56, отклонение составит:

T∙mY = =

= 2.45∙0.81 = 1.98.

Отсюда находим границу доверительного интервала (табл. 8.3):

верхнюю: maxY = Yi + T∙mY = 25.56 + 1.98 = 27.54

и нижнюю: minY = Yi T∙mY = 25.56 – 1.98 = 23.58.

Для найденного значения до­верительный интервал имеет границы 25.56 ±1.98 кг, или от 23.58 до 27.58 кг. Именно в этом весовом диапазоне с вероят­ностью P = 0.95 должен находиться средний вес новорожденных телят, рожденных от коров весом 352 кг.

 

Интервал прогноза рассчитывается аналогично. Так, для тех же значений x = 352 кг и Y352 = 25.56 кг отклонение составит:

T∙SY = =

= 3.66.

Отсюда находим границы интервала прогноза:

верхнюю: Yi + T∙SY = 25.56 + 3.66 = 29.22



и нижнюю: Yi T∙SY = 25.56 – 3.66 = 21.89.

Для найденного значения 25.56 кг зона прогноза имеет границы 25.56 ±3.66 кг, или от 21.89 до 29.22 кг. В таком диапазоне с вероят­ностью P = 0.95 должен находиться вес очередного новорожденного от коровы массой 352 кг. Доверительные интервалы и интервалы прогноза, рассчитанные для других значений, отображены на диаграмме (табл. 8.3, рис. 8.9). В пределах доверительной зоны с вероятностью P = 0.95 находится генеральная (истинная) линия регрессии, в пределах зоны прогноза ожидаются новые значения вариант.

Рис. 8.9. Линия регрессии, ее доверительный интервал и интервал прогноза для модели Y = 0.0657∙x+ 2.1347

 

Итак, расчетное уравнение регрессии приняло вид (Y = ax+b): Y = 0.0657∙x+2.1347. Однако анализ показал, что критерий Стьюдента для второго коэффициента (свободного члена уравнения) (2.13) оказался ниже табличного значения (2.57), т. е. коэффициент b значимо от нуля не отличается (на данном объеме собранных материалов). Это позволяет пересчитать коэффициент регрессии: a = Σ(x∙y)/Σx² = 0.071.

Отсюда уравнение регрессии (Y = ax) будет иметь вид:

Y = 0.071∙x.

Подставляя в него любые значения х, мы получим соответст­вующие теоретические (т. е. средние) значения Y и таким образом сможем построить на гра­фике линию регрессии. Например, при массе тела коровы x = 376 кг масса теленка должна составить Y = 0.071∙376 = 26.7 кг, а при х = 555 Y = 39.4. Соединив на графике точки с эти­ми координатами, получаем линию регрессии, весьма наглядно иллюстрирующую характер изучаемой связи (рис. 8.10).

Рис. 8.10. Линия регрессии, ее доверительный интервал и интервал прогноза для модели Y = 0.071∙x

 

В заключение оценим адекватность полученной модели исходным данным с помощью дисперсионного анализа. Для этого следовало бы вновь найти оценку остаточной суммы квадратов отклонений реальных значений от новых прогнозных, Σ(yY)², затем оценить регрессионную сумму квадратов, найти дисперсии и рассчитать критерий Фишера (кстати, число степеней свободы для остаточной дисперсии берется как df = n–1 = 6, раз в расчетах участвует только один коэффициент (a)). Для этой цели воспользуемся программой, встроенной в пакет Excel. Она вызывается командой меню Сервис\ Анализ данных\ Регрессия.

Дисперсионный анализ (табл. 8.5) показал, что расчетное значение (F = 102.9) выше табличного (6.0), т. е. регрессионная дисперсия существенно превышает остаточную, иначе говоря, исходные данные и модельные расчеты хорошо согласуются друг с другом, модель адекватна реальности. Коэффициент детерминации указывает, что "сила влияния" веса коров на вес плода очень велика:

.

 

Таблица 8.5

ВЫВОД ИТОГОВ              
Регрессионная статистика              
Множественный R 0.9720              
R-квадрат 0.9449              
Нормир R-квадрат 0.7782              
Стандартн 1.2193              
Наблюден              
Дисперсионный анализ            
df SS MS F Значимость F    
Регрессия 153.079 153.079 102.958 0.00015      
Остаток 8.92085 1.48680          
Итого            
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95.0% Верхние 95.0%
Y-пересеч #Н/Д #Н/Д #Н/Д #Н/Д #Н/Д #Н/Д #Н/Д
х 0.0709 0.00101 70.1713 5.6E-10 0.06850 0.07345 0.06850 0.07345

 

В окне макроса нужно указать диапазоны ячеек, содержащих ряды значений изучаемых признаков (не перепутав x и y), желательно сразу с метками этих рядов (в этом случае нужно поставить галочку в окне Метки), ОК. Результаты будут выведены на новый автоматически созданный лист книги Excel. Помимо описательной статистики они содержат таблицу дисперсионного анализа, а также коэффициенты регрессии с их ошибками и оценкой статистической значимости по Стьюденту. Если при первом прогоне программы оказалось, что свободный член значимо от нуля не отличается, при втором прогоне макроса в окне Константа-ноль следует поставить галочку.

Выполнение регрессионного анализа с помощью пакета StatGraphics показано в следующем разделе.


Криволинейная регрессия

Рассмотренный выше метод линейной регрессии позволяет описывать и прогнозировать явления и процессы, при которых зависимость между изучаемыми признаками приближается к линейной, простой пропорции. Таковы, например, зави­симость веса сердца разных видов млекопи­тающих от массы их тела или экстраполя­ция данных о числен­ности популяции, полу­ченных на пробных площадях, на всю за­нимаемую ею террито­рию и т. п. Однако в большинстве случаев связь биологических признаков не бывает линейной, и они изме­няются с разной скоро­стью (и в разных мас­штабах). Соответствен­но на графике форма такой связи отображается не прямой, а кривой линией. Примерами могут служить геометрическая прогрессия роста численности популяции в оптимальных условиях, характерное для теплокровных животных изменение метаболизма – невысокий уровень в оптимуме и ускоренно возрастающий при смене условий, рост числа видов, попавших в описание, по мере увеличения площади обследованной территории, а также различие скоростей роста разных частей тела, определяющее аллометрический характер зависимости признаков. Так, увеличение массы тела опе­режает по темпам весовой рост сердца и других внутренних органов, лицевой отдел черепа растет более интенсивно, чем мозговой; с разной скоростью растут листья на одном и том же побеге.

В подобных случаях использование уравнения прямой линии (у = ах + b) неэффективно: теряются многие детали процесса, коэффициенты корреляции и регрессии получаются заниженными, а результаты анализа – приблизительными, недостаточно точными. Решить эту проблему можно с помощью уравнений кривых линий. В практике биологических исследований в число наиболее часто используемых входят следующие пять видов криволинейной зависимости (табл. 8.6).

Существуют два достаточно простых пути подгонки уравнений под конкретные данные (аппроксимации данных – кривой), два способа оценки коэффициентов в уравнениях кривых – это настройка параметров модели с помощью макроса "Поиск решения" (этот путь рассмотрен в разделе Имитационное моделирование) и расчет коэффициентов методом наименьших квадратов.

 

Таблица 8.6

Название зависимости Уравнение График
Степенная (аллометрическая) (multiplicative)   у = a  
Гиперболическая (reciprocal)      
Показательная (экспоненциальная, exponencial)     у = beax и у = bax    
Параболическая (polynomial)     у = c+bх+aх²  
Логистическая (кривая Ферхюльста) (logistic)      

Поскольку метод наименьших квадратов исходно ориентирован на линию (поиск уравнения линии, наименее удаленной ото всех эмпирических точек), прямой расчет уравнений кривых в рамках регрессионного анализа невозможен. Натурные данные необходимо предварительно "выпрямить", т. е. сделать возможным вычисление линейного уравнения регрессии с тем, чтобы потом из него получить уравнение криволинейной связи. Общий порядок регрессионного анализа для криволинейной зависимости следующий:

– преобразование исходных данных, "выпрямляющее" зависимость,

– расчет коэффициентов линейной регрессии преобразованных данных,

– проведение дисперсионного анализа, оценка значимости коэффициентов регрессии,

– обратное преобразование коэффициентов линейной регрессии для конструирования уравнения криволинейной регрессии.

Рассмотрим процесс поиска уравнения криволинейной регрессии на примере изучения зависимости веса печени прыткой ящерицы от длины ее тела (рис. 8.11).

Рассчитанное по исходным данным уравнение линейной регрессии имеет вид:

у = 107.9х– 404.2.

И хотя коэффициент регрессии досто­верен (T = 7.6, α<0.05) и коэффициент детерминации высок R² = 0.866, это уравнение весьма приблизительно описыва­ет зависимость признаков – для наимень­ших наблюдаемых значений длины тела оно дает абсурдное (отрицательное) значение массы печени (107.9∙3.4–404.2 = –37.3 мг). Итак, линейная модель не годится даже для интерполяции изучаемых данных. Гораздо успешнее справляется с подобной задачей степенная (аллометрическая) функция у = bxa.

x 3.07

Рис. 8.11. Зависимость веса печени (M, мг) от длины тела (L, мм) у ящериц

Для вычисления коэффициентов этого уравнения воспользуемся преобразованием: Y = lgy, X = lgx, B = lgb. После логарифмирования степенное уравнение приняло линейный вид: lgy = lgb + a∙lgx или Y = B + aX. Теперь остается отыс­кать коэффициенты уравнения B и a, используя алгоритм метода наименьших квадратов (табл. 8.7).

Таблица 8.7

х у X = lgx Y = lgy X² Y² X∙Y Y (Y’–Y y
3.4 0.531 1.60 0.282 2.567 0.85 1.517 0.00718
4.2 0.623 1.69 0.388 2.886 1.06 1.799 0.01009
5.2 0.716 2.18 0.513 4.735 1.56 2.085 0.00838
5.8 0.763 2.08 0.583 4.323 1.58 2.23 0.02284
7.1 0.851 2.38 0.725 5.665 2.03 2.5 0.01442
7.0 0.845 2.61 0.714 6.827 2.21 2.481 0.01728
7.4 0.869 2.57 0.756 6.596 2.23 2.556 0.00016
8.2 0.914 2.69 0.835 7.284 2.47 2.693 0.00004
8.5 0.929 2.78 0.864 7.758 2.59 2.741 0.00201
Σ 56.8 7.043 20.6 5.66 48.64 16.6   0.08239  

Для преобразования исходные данные (Y = lgy, X = lgx) можно воспользоваться функцией =log10(ячейка) среды Excel.

Далее рассчитаем суммы, необходимые промежуточные значения и коэффициенты (приведены округленные значения с листа Excel): ΣY = Σlgy = 20.6, ΣY² = Σ(lgy)² = 48.64, ΣX = Σlgx = 7.043,

ΣX² = Σ(lgx)² = 5.659, ΣXY = Σ(lgx∙lgy) = 16.577,

MY = ΣY/n = 20.6/9 = 2.289, MX = ΣX/n = 7.043/9 = 0.7826,

CXY = ΣXY–(ΣX)∙(ΣY)/n = 16.572–7.043∙20.602/9 = 0.45542,

CX = ΣX²–(ΣX)²/n = 5.655–(7.04)²/9 = 0.14816,

CY = ΣY²–(ΣY)²/n = 48.638–(20.601)²/9 = 1.4823,

= 0.4305,

= 0.1361,

= 0.9718,

a = CXY/CX = 0.45541/0.14815 = 3.0739,

B = MY – aMX = 2.289 – 3.0739∙0.7826 = –0.11643.

Линейное уравнение для преобразованных данных имеет вид:

lgy = 3.07∙lgx + lg(–0.116) или Y' = 3.07∙X – 0.116.

Оно дает возможность рассчитать теоретические значения признака Y' (теоретические значения логарифмов массы печени), а также квадраты отклонений прогнозных значений от реальных: (Y'Y)² и их сумму Σ(Y'’–Y)² = 0.08239.

Эта величина есть остаточная сумма квадратов; вместе с общей суммой квадратов Cy = Cобщ. = 1.4823 она позволяет сформировать таблицу дисперсионного анализа (табл. 8.8):

Смод. = Собщ. Состат. = 1.4823 – 0.08239 = 1.39993.

Таблица 8.8

Составляющие дисперсии С   df S² F
Наклон модельной линии Смод. = = Σ (Y'i – MY)2 1.39993 S2мод. = 0.39993 F = = = = 118.9377
Отклонения вариант от линии регрессии Состат. = = Σ (yi – Y'i)2 0.08239 S2остат. = 0.01177 F(0.05,1,7) = = 5.6
Общая (всего) Собщ. = = Σ (yi – MY)2 1.482322      

Полученное значение F = 118 больше табличного (5.6), следовательно, дисперсия, обусловленная регрессией, достоверно больше случайной, т. е. признак Y действительно зависит от признака X, и линия регрессии адекватна исходным данным. Коэффициент детерминации больше, чем у линейной регрессии, и составляет: R² = Смод./Собщ. = 1.39993/1.482322 = 0.944417.

Ошибка коэффициента криволинейной регрессии равна:

0.281,

а критерий Стьюдента, проверяющий гипотезу Но: a = 0, составляет

T = a/ ma = 3.0739/0.281 = 10.9.

Полученное значение больше табличного (T(0.05,8) = 2.31 для уровня значимости α = 0.05 и числа степеней свободы df = n–2 = 8) (α<<0.05), зависимость признака Y от X есть, причем очень тесная. Следует помнить, что при расчете ошибки коэффициента криволинейной регрессии используются стандартные отклонения для преобразованных (у нас – прологарифмированных) значений при­знаков.

В завершение выполним обратное преобразование второго коэффициента регрессии, свободный член равен:

b = 10B = 10–0.11643 = 0.764839.

Теперь уравнение регрессии принимает вид степенной зависимости:

у' = 0.765∙x3.07.

Теоретические значения у', рассчитанные по этому уравнению, гораздо ближе к исходным данным, что хорошо видно и на графике (рис. 8.11), и по большей величине коэффициента детерминации (0.94>0.87) (читателю несложно будет проделать все вычисления в среде Excel с помощью программы Регрессия – как для исходных, так и для преобразованных данных).

Аллометрическое уравнение (у' = 0.77х3.1) не только лучше описывает зависимость между сравниваемыми признаками в статистическом плане, но и придает ей более ясный биологический смысл (масса печени = 0.77∙длина тела3.1). Как известно, объемные величины (объем, масса тела) пропорциональны кубу линейных промеров (длина тела). В свою очередь, вес печени и вес тела связаны прямой пропорциональной зависимостью. Так становится понятной наблюдаемая пропорциональность веса печени кубу длины тела.

Когда зависимость между изучаемыми признаками имеет иную форму, чем может описать степенное уравнение, пользуются другими способами преобразования данных (табл. 8.9).

Выбрать, какой из видов описания лучше подходит к эмпирическим данным, можно ориентируясь на величину коэффициента детерминации или корреляции. Чем ближе линия проходит к эмпирическим точкам, тем меньше остаточная сумма квадратов, тем больше коэффициент детерминации. Существуют и другие уравнения для описания криволинейных зависимостей (например, очень интересна парабола).

 

Таблица 8.9

Название уравнения зависимости Линейный вид криволинейной зависимости Y = B+AX Необходимое преобразование исходных значений переменных x, y Обратное преобразование коэффициентов
Степенное у = a lgy = lgb + a∙lgx Y = lgy, X = lgx b = 10B
Гипербола у = аX + b X = 1/x
Показательное у = beax или у = bax   lgy = lgb + lgax Y = lgy a = 10A, b = 10B
Логистическая кривая = ах+b

Самый эффектный способ расчета уравнений регрессии в среде Excel реализуется программой Добавить линию тренда. Для того чтобы построить линию и рассчитать уравнение регрессии между двумя столбцами данных (x и y), следует сначала построить точечную диаграмму (чтобы получить зависимость y = f(x) столбец x должен быть первым, y – вторым). На построенной диаграмме должны присутствовать точки только одного цвета, наличие точек двух цветов говорит о том, что диаграмма построена неверно.

Далее нужно один раз щелкнуть мышкой по какой-либо точке (x, y) диаграммы. При этом точки ряда окрасятся другим цветом, а в главном меню появится новый пункт Диаграмма (справа от Сервис). Он позволяет построить линию регрессии с помощью команды Диаграмма\ Добавить линию тренда….

В открывшемся окне (вкладка Тип) будет предложено на выбор пять моделей (линейная, логарифмическая, полиномиальная, степенная, экспоненциальная) и сглаживание по средним, с помощью которых можно дать обобщенное описание данных. На вкладке Параметры следует поставить галочку, как минимум, в одном поле – Показывать уравнение на диаграмме, ОК. На диаграмме появится черная жирная линия регрессии. Изменить установки можно в окне настройки, которое появляется после двойного клика по линии.

Когда исходные данные содержат нулевые значения, их преобразование (логарифмирование) для "выпрямления" зависимости становится невозможным; в этом случае на вкладке Тип будут высвечиваться не все виды уравнений криволинейной регрессии. Ситуацию удается исправить, если нули исключить из рассмотрения или заменить правдоподобными малыми числами, следя за тем, чтобы основную роль в расчете уравнения играли реальные значения.

Регрессионный анализ в среде StatGraphics

Обширный список криволинейных функций предлагает пакет StatGraphics. Для выбора лучшего уравнения организуется таблица, сравнивающая результаты разных способов аппроксимации.

Сначала необходимо ввести данные на лист StatGraphics (один из простейших способов – простое копирование данных с листа Excel через буфер обмена). Для расчета разных видов парной регрессии нужно дать команду меню Relate\ Simple Regression…, выбрать переменные, выбрать все позиции Tabular options и Graphics options. Исходно в появившихся окнах будет рассчитана линейная регрессия. В окошке Comparison of Alternative Models будут отображены результаты 12 способов аппроксимаций, ранжированных по величине коэффициентов детерминации. Увидеть результаты расчетов для других видов уравнений можно, щелкнув правой кнопкой мыши и выбрав в окне Analysis Options нужный вид модели (Type of Model). Найти уравнение полиномиальной зависимости (параболы) можно, дав команду Relate\ Polynomial Regression…. Рассчитать линейную регрессию без свободного члена позволяет команда Relate\ Multiple Regression…, если в окне контекстного меню Analysis Options убрать галочку из рубрики Constant in Model.

успешнее справляется с подобной задачей степенная (аллометрическая) функция у = bxa.


Корреляционный анализ

Взаимная связь (взаимная зависимость) двух при­знаков при их изменчивости, т. е. сопряженность их вариации, называется корреляцией. Корреляция имеет место в тех случаях, когда признаки из­меняются не автономно, а согласованно. Если с уве­личением одного признака происходит со­ответствующее уве­личение другого, говорят о положительной корреляции, и коэффициент корреляции имеет в этом случае положительный знак (+). Если же по мере увеличения первого признака второй уменьшается, то это отрицательная корреляция, и коэффициент корреляции пишется со знаком минус (–).

Полная положительная корреляция выражается единицей r = 1, пол­ная отрицательная r = –1. В природе такая ситуация встречается редко, и степень связи выражается той или иной долей единицы. При этом о тесной (сильной) корреляции обычно говорят в тех случаях, когда коэффициент корреляции не ниже ±0.6; значения ниже ±0.6 указывают на среднюю связь, а ниже ±0.3 – на слабую.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.