Строим диаграмму рассеяния (корреляционное поле) и график линии регрессии.
Вычисляем коэффициент ковариации.
Коэффициент ковариации характеризует степень линейной зависимости двух случайных величин Х и Y и вычисляется по формуле:
cov(X,Y)
| =
|
|
| (xk-Mx)(yk-My) ( 1.1 ), где:
|
Mx
| =
|
|
| xk ,
| My
| =
|
|
| yk ( 1.2 ), - оценки математического ожидания случайных величин X и Y соответственно.
| То есть, ковариация, это математическое ожидание произведения центрированных случайных величин
1.1. Вычислим оценку математического ожидания случайной величины Х.
1.1.1. Сложим последовательно все элементы выборки X
x1 + x2 + … + x11 = 51.00000 + 50.00000 + ... + 56.00000 = 561.000000
1.1.2. Разделим полученную сумму на число элементов выборки
561.00000 / 11 = 51.00000
Mx = 51.000000
1.2. Аналогичным образом вычислим оценку математического ожидания случайной величины Y.
1.2.1. Сложим последовательно все элементы выборки Y
y1 + y2 + … + y11 = 13.00000 + 15.00000 + ... + 12.00000 = 145.000000
1.2.2. Разделим полученную сумму на число элементов выборки
145.000000 / 11 = 13.18182
My = 13.181818
1.3. Вычислим значения центрированных величин (xk-Mx) и (yk-My) для всех элементов выборки. Результаты занесем в таблицу 1.
1.4. Вычислим произведение центрированных величин (xk-Mx)•(yk-My). Результаты занесем в таблицу 1.
Таблица 1
k
| xk
| yk
| (хk-Mx)
| (yk-My)
| (хk-Mx)•(yk-My)
|
|
|
|
|
|
|
|
|
| 0.00000
| -0.18182
| 0.00000
|
|
|
| -1.00000
| 1.81818
| -1.81818
|
|
|
| -3.00000
| -0.18182
| 0.54545
|
|
|
| 0.00000
| 2.81818
| 0.00000
|
|
|
| -5.00000
| -1.18182
| 5.90909
|
|
|
| -4.00000
| 0.81818
| -3.27273
|
|
|
| -2.00000
| -1.18182
| 2.36364
|
|
|
| 9.00000
| -3.18182
| -28.63636
|
|
|
| 0.00000
| 4.81818
| 0.00000
|
|
|
| 1.00000
| -3.18182
| -3.18182
|
|
|
| 5.00000
| -1.18182
| -5.90909
|
1.5. Вычислим ковариацию cov(X,Y) как среднее значение элементов 6-го столбца таблицы 1.
1.5.1. Сложим последовательно все элементы 6-го столбца
y1 + y2 + … + y11 = 0.00000 + -1.81818 + ... + -5.90909 = -34.000000
1.5.2. Разделим полученную сумму на число элементов выборки
-34.000000 / 11= -3.09091
ОТВЕТ: cov(X,Y) = -3.090909
Вычисляем коэффициент корреляции.
Коэффициент корреляции — это показатель взаимного вероятностного влияния двух случайных величин. Коэффициент корреляции R может принимать значения от -1 до +1. Если абсолютное значение находится ближе к 1, то это свидетельство сильной связи между величинами, а если ближе к 0 — то, это говорит о слабой связи или ее отсутствии. Если абсолютное значение R равно единице, то можно говорить о функциональной связи между величинами, то есть одну величину можно выразить через другую посредством математической функции.
Вычислить коэффициент корреляции можно по следующим формулам:
cov( X,Y ) - ковариация случайных величин Х и Y
σx2
| =
|
|
| (xk-Mx)2 ,
| σy2
| =
|
|
| (yk-My)2 ( 2.2 ), - оценки дисперсий случайных величин X и Y соответственно.
|
Mx
| =
|
|
| xk ,
| My
| =
|
|
| yk ( 2.3 ), - оценки математического ожидания случайных величин X и Y соответственно.
| или по формуле
Mx
| =
|
|
| xk ,
| My
| =
|
|
| yk ,
| Mxy
| =
|
|
| xkyk ( 2.5 )
|
Sx2
| =
|
|
| xk2 - Mx2 ,
| Sy2
| =
|
|
| yk2 - My2 ( 2.6 )
| На практике, для вычисления коэффициента корреляции чаще используется формула ( 2.4 ) т.к. она требует меньше вычислений. Однако если предварительно была вычислена ковариация cov(X,Y), то выгоднее использовать формулу ( 2.1 ), т.к. кроме собственно значения ковариации можно воспользоваться и результатами промежуточных вычислений.
2.1 Вычислим коэффициент корреляции по формуле ( 2.1 ) для этого воспользуемся результатами представленными в таблице 1, дополнив последнюю двумя новыми столбцами в которые запишем (предварительно вычислив) значения квадратов центрированных случайных величин (xk-Mx)2 и (yk-My)2. Получим таблицу 2.
Таблица 2
k
| xk
| yk
| (хk-Mx)
| (хk-Mx)2
| (yk-My)
| (yk-My)2
|
|
|
|
|
|
|
|
|
|
| 0.00000
| 0.00000
| -0.18182
| 0.03306
|
|
|
| -1.00000
| 1.00000
| 1.81818
| 3.30579
|
|
|
| -3.00000
| 9.00000
| -0.18182
| 0.03306
|
|
|
| 0.00000
| 0.00000
| 2.81818
| 7.94215
|
|
|
| -5.00000
| 25.00000
| -1.18182
| 1.39669
|
|
|
| -4.00000
| 16.00000
| 0.81818
| 0.66942
|
|
|
| -2.00000
| 4.00000
| -1.18182
| 1.39669
|
|
|
| 9.00000
| 81.00000
| -3.18182
| 10.12397
|
|
|
| 0.00000
| 0.00000
| 4.81818
| 23.21488
|
|
|
| 1.00000
| 1.00000
| -3.18182
| 10.12397
|
|
|
| 5.00000
| 25.00000
| -1.18182
| 1.39669
|
2.2. Вычислим σx2 как среднее значение элементов 5-го столбца таблицы 2.
2.2.1. Сложим последовательно все элементы 5-го столбца
0.00000 + 1.00000 + ... + 25.00000 = 162.000000
2.2.2. Разделим полученную сумму на число элементов выборки
σx2 = 162.00000 / 11 = 14.727273
2.3. Вычислим σy2 как среднее значение элементов 7-го столбца таблицы 2.
2.3.1. Сложим последовательно все элементы 7-го столбца
0.03306 + 3.30579 + ... + 1.39669 = 59.636364
2.3.2. Разделим полученную сумму на число элементов выборки
σy2 = 59.636364 / 11 = 5.421488
2.4. Вычислим произведение σx2σy2.
σx2σy2 = 14.727273• 5.421488 = 79.843727
2.5. Извлечем из последнего числа квадратный корень, получим значение σxσy.
σxσy = 8.935532
2.5.Вычислим коэффициент корреляции по формуле ( 2.1 ).
Rx,y
| =
|
| = -3.090909 / 8.935532 = -0.345912
|
ОТВЕТ: Rx,y= -0.345912
Проверяем значимость коэффициента корреляции (проверяем гипотезу зависимости).
Поскольку оценка коэффициента корреляции вычислена на конечной выборке, и поэтому может отклоняться от своего генерального значения, необходимо проверить значимость коэффициента корреляции. Проверка производится с помощью t-критерия:
Случайная величина t следует t-распределению Стьюдента и по таблице t-распределения необходимо найти критическое значение критерия (tкр.α) при заданном уровне значимости α. Если вычисленное по формуле ( 3.1 ) t по модулю окажется меньше чем tкр.α, то зависимости между случайными величинами X и Y нет. В противном случае, экспериментальные данные не противоречат гипотезе о зависимости случайных величин.
3.1. Вычислим значение t-критерия по формуле ( 3.1 ) получим:
3.2. Определим по таблице t-распределения критическое значение параметра tкр.α
Искомое значение tкр.α располагается на пересечении строки соответствующей числу степеней свободы и столбца соответствующего заданному уровню значимости α. В нашем случае число степеней свободы есть n - 2 = 11 - 2 = 9 и α = 0.05 , что соответствует критическому значению критерия tкр.α = 2.262 (см. табл. 3)
Таблица 3 t-распределение
Число степеней свободы ( n - 2 )
| α= 0.1
| α= 0.05
| α= 0.02
| α= 0.01
| α= 0.002
| α= 0.001
|
| 6.314
| 12.706
| 31.821
| 63.657
| 318.31
| 636.62
|
| 2.920
| 4.303
| 6.965
| 9.925
| 22.327
| 31.598
|
| 2.353
| 3.182
| 4.541
| 5.841
| 10.214
| 12.924
|
| 2.132
| 2.776
| 3.747
| 4.604
| 7.173
| 8.610
|
| 2.015
| 2.571
| 3.365
| 4.032
| 5.893
| 6.869
|
| 1.943
| 2.447
| 3.143
| 3.707
| 5.208
| 5.959
|
| 1.895
| 2.365
| 2.998
| 3.499
| 4.785
| 5.408
|
| 1.860
| 2.306
| 2.896
| 3.355
| 4.501
| 5.041
|
| 1.833
| 2.262
| 2.821
| 3.250
| 4.297
| 4.781
|
| 1.812
| 2.228
| 2.764
| 3.169
| 4.144
| 4.587
|
| 1.796
| 2.201
| 2.718
| 3.106
| 4.025
| 4.437
|
| 1.782
| 2.179
| 2.681
| 3.055
| 3.930
| 4.318
|
| 1.771
| 2.160
| 2.650
| 3.012
| 3.852
| 4.221
|
| 1.761
| 2.145
| 2.624
| 2.977
| 3.787
| 4.140
|
| 1.753
| 2.131
| 2.602
| 2.947
| 3.733
| 4.073
|
| 1.746
| 2.120
| 2.583
| 2.921
| 3.686
| 4.015
|
| 1.740
| 2.110
| 2.567
| 2.898
| 3.646
| 3.965
|
| 1.734
| 2.101
| 2.552
| 2.878
| 3.610
| 3.922
|
| 1.729
| 2.093
| 2.539
| 2.861
| 3.579
| 3.883
|
| 1.725
| 2.086
| 2.528
| 2.845
| 3.552
| 3.850
|
| 1.721
| 2.080
| 2.518
| 2.831
| 3.527
| 3.819
|
| 1.717
| 2.074
| 2.508
| 2.819
| 3.505
| 3.792
|
| 1.714
| 2.069
| 2.500
| 2.807
| 3.485
| 3.767
|
| 1.711
| 2.064
| 2.492
| 2.797
| 3.467
| 3.745
|
| 1.708
| 2.060
| 2.485
| 2.787
| 3.450
| 3.725
|
| 1.706
| 2.056
| 2.479
| 2.779
| 3.435
| 3.707
|
| 1.703
| 2.052
| 2.473
| 2.771
| 3.421
| 3.690
|
| 1.701
| 2.048
| 2.467
| 2.763
| 3.408
| 3.674
|
| 1.699
| 2.045
| 2.462
| 2.756
| 3.396
| 3.659
|
| 1.697
| 2.042
| 2.457
| 2.750
| 3.385
| 3.646
|
| 1.684
| 2.021
| 2.423
| 2.704
| 3.307
| 3.551
|
| 1.671
| 2.000
| 2.390
| 2.660
| 3.232
| 3.460
|
| 1.658
| 1.980
| 2.358
| 2.617
| 3.160
| 3.373
| ∞
| 1.645
| 1.960
| 2.326
| 2.576
| 3.090
| 3.291
|
3.2. Сравним абсолютное значение t-критерия и tкр.α
Абсолютное значение t-критерия меньше критического 1.1060141716536 < 2.262, следовательно зависимости между случайными величинами X и Y нет.
Вычисляем коэффициенты уравнения линейной регрессии.
Уравнение линейной регрессии представляет собой уравнение прямой, аппроксимирующей (приблизительно описывающей) зависимость между случайными величинами X и Y. Если считать, что величина X свободная, а Y зависимая от Х, то уравнение регрессии запишется следующим образом
Y = a + b•X ( 4.1 ), где:
a = My - b•Mx ( 4.3 )
Рассчитанный по формуле ( 4.2 ) коэффициент b называют коэффициентом линейной регрессии. В некоторых источниках a называют постоянным коэффициентом регрессии и b соответственно переменным.
Погрешности предсказания Y по заданному значению X вычисляются по формулам :
σy/x = σy
|
| = Sy
|
| ( 4.4 )
| - абсолютная погрешность,
|
δy/x =
|
| 100% ( 4.5 ) - относительная погрешность
|
Величину σy/x (формула 4.4 ) еще называют остаточным средним квадратическим отклонением, оно характеризует уход величины Y от линии регрессии, описываемой уравнением ( 4.1 ), при фиксированном (заданном) значении X.
4.1. Вычислим отношение
|
| .
| σy2 / σx2 = 5.42149 / 14.72727 = 0.36813
4.2. Вычислим отношение
|
| .
| Извлечем из последнего числа квадратный корень - получим: σy / σx = 0.60673
4.3 Вычислим коэффициентb по формуле ( 4.2 )
b = -0.34591 • 0.60673 = -0.20988
4.4 Вычислим коэффициентa по формуле ( 4.3 )
a = 13.18182 - ( -0.20988 • 51.00000) = 23.88552
4.5 Оценим погрешности уравнения регрессии.
4.5.1 Извлечем из σy2 квадратный корень получим:
4.5.2 Возведем в квадрат Rx,y получим:
R2x,y = -0.345912 = 0.11966
4.5.3 Вычислим абсолютную погрешность (остаточное среднее квадратическое отклонение) по формуле ( 4.4 )
4.5.4 Вычислим относительную погрешность по формуле ( 4.5 )
δy/x = ( 2.18467 / 13.18182)100% = 16.57335%
ОТВЕТ:
| Уравнение линейной регрессии имеет вид: Y = 23.88552 -0.20988 X ( 4.6 )
|
| Погрешности уравнения: σy/x = 2.18467 ; δy/x = 16.57335%
|
Строим диаграмму рассеяния (корреляционное поле) и график линии регрессии.
Диаграмма рассеяния — это графическое изображение соответствующих пар (xk , yk ) в виде точек плоскости, в прямоугольных координатах с осями X и Y. Корреляционное поле является одним из графических представлений связанной (парной) выборки. В той же системе координат строится и график линии регрессии. Следует тщательно выбрать масштабы и начальные точки на осях, чтобы диаграмма была максимально наглядной.
5.1. Находим минимальный и максимальный элемент выборки X это 5-й и 8-й элементы соответственно, xmin = 46.00000 и xmax = 60.00000.
5.2. Находим минимальный и максимальный элемент выборки Y это 8-й и 9-й элементы соответственно, ymin = 10.00000 и ymax = 18.00000.
5.3. На оси абсцисс выбираем начальную точку чуть левее точки x5 = 46.00000, и такой масштаб, чтобы на оси поместилась точка x8 = 60.00000 и отчетливо различались остальные точки.
5.4. На оси ординат выбираем начальную точку чуть левее точки y8 = 10.00000, и такой масштаб, чтобы на оси поместилась точка y9 = 18.00000 и отчетливо различались остальные точки.
5.5. На оси абсцисс размещаем значения xk, а на оси ординат значения yk.
5.6. Наносим точки (x1, y1 ), (x2, y2 ),…,(x11, y11 ) на координатную плоскость. Получаем диаграмму рассеяния (корреляционное поле), изображенное на рисунке ниже.
5.7. Начертим линию регрессии.
Для этого найдем две различные точки с координатами (xr1 , yr1) и (xr2 , yr2) удовлетворяющие уравнению (4.6), нанесем их на координатную плоскость и проведем через них прямую. В качестве абсциссы первой точки возьмем значение xmin = 46.00000. Подставим значение xmin в уравнение (4.6), получим ординату первой точки. Таким образом имеем точку с координатами ( 46.00000, 14.23120 ). Аналогичным образом получим координаты второй точки, положив в качестве абсциссы значение xmax = 60.00000. Вторая точка будет: ( 60.00000, 11.29293 ).
Линия регрессии показана на рисунке ниже красным цветом
Обратите внимание, что линия регрессии всегда проходит через точку средних значений величин Х и Y, т.е. с координатами (Mx , My).
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|