Сделай Сам Свою Работу на 5

Социальная деятельность и социальные показатели 6 глава





Показатели колеблемости (вариации) значений признаков. Для характеристики рядов распределения оказывается недостаточным указание только средней величины данного признака, поскольку два ряда могут иметь, к примеру, одинаковые средние арифметиче­ские, но степень концентрации (или, наоборот, разброса) значений признаков вокруг средней будет совершенно различной. Характери­стикой такого разброса служат показатели колеблемости — разность между- максимальным и минимальным значениями признака в не­которой совокупности (вариационный размах), а также другие по­казатели: среднее абсолютное (линейное) отклонение, среднее квадратическое отклонение и т. п.

Дисперсия. Дисперсией называется величина, равная среднему значению квадрата отклонений отдельных значений признаков от средней арифметической. Обозначается дисперсия s2 и вычисляется по формуле

(6)

Корень квадратный из дисперсии называется средним квадратическим отклонением и обозначается.

Геометрически среднее квадратическое отклонение является по­казателем того, несколько в среднем кривая распределения размы­та относительно ее среднего арифметического. Измеряется в тех же единицах, что и изучаемый признак.



При ручном счете для упрощения вычислений дисперсию (s) рассчитывают по формуле методом отсчета от условного нуля. Для интервального ряда с равными интервалами процедура следующая. Сначала вычисляются центры интервалов. Относительно какого-либо отобранного серединного интервала ряда, например А, вверх и вниз выписывается натуральный ряд чисел i) соответственно со знаком «плюс» и «минус»: 0, +1, +2 и т. д.; -1,

-2 и т. д. (табл. 4).

Далее вычисляются величины . В качестве проме­жуточного результата по формуле (7) получаем среднее арифметическое. Величина дисперсии получается подстановкой промежу­точных величин из табл. 4 в формулу (8).

Среднее арифметическое находится по формуле[87]

(лет) (7)

Тогда дисперсия равна

(8)

(лет)

Приведенные вычисления показывают, что при среднем возрасте 40 лет все остальные члены совокупности имеют возраст, который в среднем отклоняется от 40 лет на 7,8 лет, т. е. примерно на 20%.

Таблица 4 . Пример вычисления дисперсии*



Центр возрастной группы xi Частота или относительная частота ni или mi
27,5 32,5 37,5 А = 42,5 -15 -10 -5 -3 -2 -1 -45 -74 -52
  47,5 52,5 57,5            
d = 5      

 

* Численные данные о распределении кандидатов наук по возрастным группам в отделении экономики, истории, философии и права АН УССР (Организация науки/ Под ред. Г. М. Доброва, М., 1970, с. 148—149).

 

 

Среднее абсолютное отклонение. Эта мера вариации представля­ет собой среднее арифметическое из абсолютных величин откло­нений отдельных значений признака от их среднего арифметического

(9)

где означает, что суммируются значения отклонений без учета знака этих отклонений; — объем совокупности.

.Вместо среднего арифметического в формуле 9 часто берут моду или медиану. Для симметричных распределений мода, медиана и среднее арифметическое совпадают и выбор средней не представля­ет труда. Для асимметричного распределения иногда отдают предпочтение медиане.

Величина среднего квадратического отклонения всегда больше d и для достаточно большой выборочной совокупности с распределением признака, близкого к нормальному, связана с соотношением

Например, для данных табл. 4 вреднее линейное отклонение, под­считанное по формуле 9, равно d = 6,3 года. Тогда

s = 1,25*6,3 = 7,87

что с учетом погрешности вычислений совпадаете найденным ра­нее средним квадратическим отклонением. Таким образом, для пред­варительного анализа можно заменить вычисление менее трудо­емким вычислением.

Коэффициент вариации. Среднее линейное и среднее квадратическое отклонение являются мерой абсолютной колеблемости при­знака и всегда выражаются в тех же единицах измерения, в кото­рых выражен изучаемый признак. Это не позволяет сопоставлять между собой средние отклонения различных признаков (в случае разных единиц измерения) в одной и той же совокупности, а так­же одного и того же признака в разных совокупностях с различ­ными средними. Чтобы иметь такую возможность, средние отклонения часто выражаются через соотнесение в процентах к среднему арифметическому, т.е. в виде относительных величий.



Отношение среднего линейного или среднего квадратического отклонения к среднему арифметическому называется коэффициен­том вариации (V):

(11)

(12)

Очевидно, что тот из рядов имеет большее рассеяние, у которого коэффициент вариации больше.

Рассмотренные выше показатели вариации применимы лишь к количественным признакам, а точнее к признакам, измеренным не ниже чем по интервальной шкале. Применение этих мер для низ­ших уровней, строго говоря, некорректно и требует тщательной ин­терпретации полученных результатов.

Вариации качественных признаков. Если признак имеет k взаимоисключающих градаций, то для вычисления индекса качествен­ной вариации применяется - процедура, поясняемая .следующим примером.

Пусть получено следующее распределение ответов (взаимоис­ключающих) на вопросы А, В и С (колонка 1):

 
A
B
C
 

 

 

Во вторую колонку запишем такие частоты, которые получи­лись бы при равномерном заполнении всех трех вопросов, т. е. 120/3 = 40. Теперь вычислим величину

(13)

Этот показатель называется индексом качественной вариации и указывает на степень неоднородности полученных ответов. Если бы все ответы попали лишь в одну градацию, то J=0, что означа­ло бы полное единство в ответах, хотя, конечно, индекс совершенно не учитывает того, в какую именно градацию попали все эти ответы.

Совершенно аналогично индекс вычисляется при любом числе градаций. Но для альтернативных признаков вариация обычно под­считывается по формуле (14). Она отличается от J на константу, называется дисперсией, выражается в абсолютных числах и обо­значается s2:

(14)

 

Другой мерой вариации признака (независимо от уровня изме­рения) может служить так называемая энтропия — мера неопреде­ленности, вычисляемая по формуле

. (15)

Логарифм в этой формуле может быть взят по любому основанию. Энтропия обладает следующими свойствами:

а) энтропия равна нулю лишь в том случае, если вероятность полу­чения одного из значения xi, признака x равна единице (вероятность остальных значений при этом равна нулю). Такой признак не обла­дает неопределенностью, так как достоверно известно одно един­ственно возможное его значение. Во всех остальных случаях, когда имеется та или иная неопределенность в значениях xi, энтропия является положительной величиной;

б) наибольшей энтропией обладает признак, когда все, значения xi равновероятны. Для признака с k градациями

Отсюда видно, что максимальная энтропия увеличивается с ростом числа градаций в признаке,

5. Нормальное распределение. Статистические гипотезы

Адекватное применение количественных методов, вошедших в практику социологических исследований, в той или иной степени опирается на предположение, что изучаемый признак (или сово­купность признаков) подчиняется определенному статистическому закону распределения. Таким наиболее часто встречающимся рас­пределением является нормальный закон, представление о котором дано здесь в очень кратной форме.

Вторая группа вопросов, рассмотренных в этом разделе, связана с проверкой гипотез. Можно выделить две функции статистических процедур: во-первых, это описание элементов совокупности, во-вто­рых, помощь исследователю в принятии некоторых решений о них. В предыдущих разделах этой главы их рассмотрение было связано с дескриптивной функцией статистики. Здесь же кратко описаны основные понятия и принципы статистического вывода.

Нормальное распределение. Наиболее широко известным теоре­тическим распределением является нормальное, или гауссовское, распределение. Нормальное распределение признака наблюдается в тех случаях, когда на величину его значений действует множество случайных независимых или слабозависимых факторов, каждый из которых играет в общей сумме примерно одинаковую и малую роль (т. е. отсутствуют доминирующие факторы), Функция плотности гауссовского распределения имеет вид

где 2 — дисперсия случайной величины (2 — это теоретическая дисперсия, отличающаяся от s2, вычисляемой по выборочным дан­ным); m — среднее значение (математическое ожидание) (рис. 7).

В практических расчетах часто используется так называемое правило трех сигм, которое заключается том, что лишь 0,26% всех значений нормально распределенного признака лежат вне ин­тервала m±3, т. е. почти все значения признака укладываются в интервалеиз шести сигм (рис. 8).

Статистические гипотезы. Статистической называют гипотезу о виде неизвестного распределения либо о параметрах известных рас­пределений[88]. Так, статистической будет гипотеза о том, что пере­менная в генеральной совокупности распределена по нормальному закону. Проверяемую гипотезу называют нулевой (основной) гипоте­зой и обозначают Но. Наряду с нулевой рассматривается конкури­рующая гипотеза /Л (альтернативная), которая ей противоречит.

Статистический критерий и проверка гипотез. Для проверки ну­левой гипотезы используется специально подобранная случайная величина, точное, либо приближенное распределение которой из­вестно и обычно сведено в таблицы. Эта величина называется ста­тистическим критерием. Обозначим его пока К.

Для критерия К фиксируется так называемая критическая об­ласть, т. е. совокупность значений критерия, при которых нулевую гипотезу отвергают. Точка Kкр называется критической, если она отделяет критическую область от области принятия гипотезы.

Различают правостороннюю, левостороннюю и двустороннюю критические области.

Принятие или отверженце гипотезы производится на основе со­ответствующего статистического- критерия с определенной вероятно­стью. Считают, что пулевая гипотеза справедлива, если вероятность того, что критерий К примет значение, большее Kкр, т. е. попадет в критическую область, равна выбранному значению вероятности a, т. е.

(для правосторонней области);

(для левосторонней области);

(для двусторонней области).

Принятая вероятность a называется уровнем значимости.

Практически принятие или отвержение нулевой гипотезы прово­дится следующим образом: выбирается соответствующий критерий (этот вопрос будет обсуждаться далее); вычисляется наблюдаемое значение критерия KH, исходя из эмпирического распределения; вы­бирается уровень статистической значимости (обычно 0,05 или 0,01).

По таблице распределения критерия К для данного уровня зна­чимости находят критическую точку Kкр. Если KH>Kкр, нулевую гипотезу отвергают, если же KH<Kкр, то ее отвергать нет основа­ния.

Делая такие выводы (т. е. принимая или отвергая гипотезу), можно совершить ошибки двух типов: отвергнуть гипотезу, когда она верна; принять ее, когда она неверна. Поэтому при принятии гипотезы было бы неверным считать, что она тем самым полно­стью доказана. Для большей уверенности необходимо ее проверять другими способами (например, увеличить объем выборки).

Отвергают гипотезу более категорично, чем принимают.

Примеры статистических гипотез: а) нормальное распределение имеет заданное среднее и дисперсию либо имеет заданное среднее (о дисперсии ничего не говорится); б) распределение нормальное либо два неизвестных распределения одинаковы.

В качестве критериев чаще всего используются случайные ве­личины, распределенные нормально (2—критерий), по закону Фи­шера (F — критерий Фишера), по закону Стьюдента (критерий Стьюдента), по закону хи-квадрат (критерий c2) и т. д.

В качестве конкретного примера рассмотрим применение крите­рия хи-квадрат для проверки гипотезы о виде распределения изу­чаемого признака.

Критерий хи-квадрат. Популярность критерия хи-квадрат обус­ловлена главным образом тем, что применение его не требует пред­варительного знания закона распределения изучаемого признака. Кроме того, признак может принимать как непрерывные, так и дискретные значения,, причем измеренные хотя бы на поминальном уровне.

Если закон распределения признака неизвестен, по есть основа­ния предположить, что он имеет определенный вид А, то критерий c2 позволяет проверить гипотезу: исследуемая совокупность распре­делена по закону А. Для проверки такой гипотезы сравниваются эмпирические (наблюдаемые) и теоретические (вычисленные в пред­положении определенного распределения А) частоты. Выпишем эти частоты:

 

Значения признака x1 x2 ..., xk
Эмпирические частоты n1 n2 ..., nk
Теоретические частоты ...,

 

Как правило, эмпирические и теоретические частоты будут раз­личаться. Возможно, что наблюдаемое различие случайно (стати­стически незначимо) и объясняется либо малым числом наблюде­ний, либо способом их группировки, либо иными причинами. Но возможно, что расхождение частот значимо и объясняется тем, что теоретические частоты вычислены исходя из неверной гипотезы о характере распределения значений рассматриваемых признаков, генеральной совокупности. Критерий c2 отвечает на вопрос, случай­но или нет такое расхождение частот. Как любой критерий, c2 не доказывает справедливость гипотезы, а лишь с определенной веро­ятностью а устанавливает ее согласие или несогласие с данными наблюдениями.

Критерий c2 имеет вид

(17)

Критическая точка распределения c2 находится; (см. табл. Б прило­жения) по заданному уровню значимости a, и числу степеней свободы df. Число степеней свободы находят по формуле

,

где k — число интервалов вариационного ряда; r — число парамет­ров предполагаемого распределения, которые оценены по данным выборки (например, для нормального распределения оценивают двапараметра: m и s2).

Рассмотрим пример, когда признак оценивался в терминах очень низкий, средний), очень высокий и был получен сле­дующий ряд распределения для этих трех категорий:

 

Очень низкий Средний Очень высокий  

 

Проверим гипотезу о том, что в генеральной совокупности зна­чения этого признака распределены равномерно.

Теоретическое распределение для этих групп получим,если предположим, что эти категории независимы, т. е. респондент с одинаковой вероятностью может попасть в любую группу. Очевид­но, ожидаемая (теоретическая) частота будет равна 24/3 = 8 че­ловек.

Таким образом, имеем следующие эмпирические и теоретические частоты:

 

 

Проверяется гипотеза, что число респондентов во всех трех катего­риях одинаково, т. е. отличие распределения от равномерного ста­тистически незначимо.

Вычислим величину по формуле (17):

По таблице распределения c2, например, для уровня значимости 0,05 и степени свободы, равном df = 3 – 1 = 2, находим критиче­скую точку . Таким образом, наблюдаемое значение c2 меньше , следовательно, данные наблюдений согласуются с нулевой гипотезой и не дают оснований ее отвергнуть.

Хи-квадрат-критерий применим и для проверки нулевой гипо­тезы об отсутствии связей между признаками в случае, если эмпи­рические данные сгруппированы не по одному, как выше, а по не­скольким признакам. Например, пусть имеется выборка в 190 чело­век, чье мнение относительно какого-то определенного вопроса ис­следовалось (табл. 5). Расчленим эту выборку па три независимых категории по возрасту. Рассмотрим следующие гипотезы: Н0 не существует различия мнений относительно этого вопроса среди раз­личных возрастных групп; Н1 существует различие. Проверим гипотезу для уровня значимости a = 0,05.

Таблица 5.Пример для вычисления c2

Ответ Возраст опрашиваемого Всего
более 40 25-40 менее 25
Категорически не согласен Не согласен Согласен Полностью согласен   Всего (а)18 (г)23 (а)11 (л)8   (б)13 (д)13 (и)14 (м)16   (в)10 (ж)12 (к)23 (н)29    

 

Для нахождения ожидаемой (теоретической) частоты в любой плетке таблицы необходимо просто перемножить соответствующие маргинальные частоты и разделить произведение на итоговую сум­му. Например, ожидаемая частота для клетки (а) равна

Процедуру вычисления представим в табл. 6. Число степеней свободы определяется по формуле

где r — число строк, а с — число столбцов в табл. 5.

Для нашего примера df = (4—1)(3—1) == 6. По табл. Б прило­жения находим, что c2 = 16,812. Следовательно, нужно отвергнуть гипотезу о том, что нет различий в мнении среди неодинаковых возрастных групп, т. е. можно предположить, что существует зна­чимая статистическая взаимосвязь между тем, к какой возрастной группе принадлежит респондент, и тем мнением, которое он выска­зывает. Однако величина c2 не говорит о силе связи между перемен­ными, а лишь указывает на вероятность существования такой свя­зи. Для определения интенсивности связи необходимо использо­вать соответствующие меры связи.

Для корректного применения методов, основанных на c2, иссле­дователь должен обеспечить выполнение следующих условий. Вы­борку необходимо получить из независимых наблюдений. Данные могут быть измерены на любом уровне, по ни одна из ожидаемых частот не должна быть слишком мала (минимум 5). Если же часто­ты оказываются менее 5, то необходимо либо уменьшить степень дробности группировки признаков, объединив соседние категории, либо обратиться к другому критерию[89].

Таблица 6.Схема вычисления c2

Ячейка (табл. 5) Частота Ожидаемая частота
а б в г д ж з и к л м н 12,9 12,1 16,0 15,2 14,1 18,7 15,2 14,1 18,7 16,7 15,6 20,6 5,1 0,9 6,0 7,8 1,1 6,7 4,2 0,1 4,3 8,7 0,4 8,4 26,01 0,81 36,00 60,84 1,21 44,89 17,64 0,01 18,49 75,69 0,16 70,56 2,016 0,067 2,250 4,003 0,086 2,400 1,160 0,001 0,989 4,532 0,010 3,425
         

 

6. Статистические взаимосвязи и их анализ

Понятие о статистической зависимости. Исходя из известного по­ложения исторического материализма о всеобщей взаимозависимо­сти и взаимообусловленности явлений общественной жизни, социо­лог-марксист не может ограничиться изучением отдельно взятого явления изолированно от других процессов и событий, а должен стремиться по возможности охватить весь комплекс явлений, отно­сящихся к тому или иному социальному процессу и изучить суще­ствующие между ними зависимости.

Различают два вида зависимостей: функциональные (примером которых могут служить законы Ньютона в классической физике) и статистические.

Закономерности массовых общественных явлений складываются под влиянием множества причин, которые действуют одновременно и взаимосвязанно. Изучение такого рода закономерностей в стати­стике и называется задачей о статистической зависимости. В этой задаче полезно различать два аспекта: изучение взаимозависимости между несколькими величинами и изучение зависимости одной или большего числа величин от остальных. В основном первый -аспект связан с теорией корреляций (корреляционный анализ), второй — с теорией регрессии (регрессионный анализ). Основное внимание в этом параграфе уделено изучению взаимозависимостей нескольких признаков, а основные принципы регрессионного анализа рассмотре­ны очень кратко.

В основе регрессионного анализа статистической зависимости ряда признаков лежит представление о форме, направлении и тес­ноте (плотности) взаимосвязи.

В табл. 7 приведено эмпирическое распределение заработной пла­ты рабочих в зависимости от общего стажа работы (условные данные) для выборки в 25 человек,

Таблица 7. Распределение заработной платы и общего стажа работы

Номер респондента Общий стаж работы ( ), лет Заработная плата , руб.
n = 25

 

а на рис. 9 эти численные данные представлены в виде так называемой диаграммы рассеяния, или разброса. Вообще говоря, визуально не всегда можно определить, су­ществует или нет значимая взаимосвязь между рассматриваемыми признаками и насколько она значима, хотя очень часто уже на диаграмме просматривается общая тенденция в, изменении значе­ний признаков и направление связи между изучаемыми признаками.

Уравнение регрессии. Статистическая зависимость одного или большего числа признаков от остальных выражается о помощью уравнений регрессии. Рассмотрим две величины х и y, такие, например, как на рис. 9. Зафиксируем какое-либо значение пере­менной х, тогда у принимает целый ряд значений. Обозначим среднюю величину этих значений у при данном фиксированном х. Уравнение, описывающее зависимость средней величины от х, называется уравнением регрессии у по х:

Аналогичным образом можно дать геометрическую интерпрета­цию регрессионному уравнению[90]

Уравнение регрессии описывает числовое соотношение между величинами, выраженное в виде тенденции к возрастанию (или убыванию) одной переменной величины при возрастании (убыва­нии) другой. Эта тенденция проявляется на основе некоторого чис­ла наблюдений, когда из общей массы выделяются, контролируют­ся, измеряются главные, решающие факторы.

Характер связи взаимодействующих признаков отражается в ее форме. В этом отношении полезно различать линейную и нелиней­ную, регрессии. На рис. 10, 11 приведены графики линейной и кри­волинейной форм линий регрессии и их диаграммы разброса для случая двух переменных величии.

Направление и плотность (теснота),линейной связи между двумя переменными измеряются с помощью коэффициента корреляции.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.