Сделай Сам Свою Работу на 5

Графическая интерпретация эмпирических зависимостей

Частотные распределения изображаются также в виде диаграмм и графиков. Главным достоинством графического изображения яв­ляется его наглядпость.

Графическая интерпретация эмпирических зависимостей осно­вана на знании технических правил построения рядов, типов и свойств теоретических распределений. Здесь мы рассмотрим графики вариационных рядов: гистограмму, полигон и кумуляту распреде­ления.

Гистограмма. Гистограмма это графическое изображение ин­тервального ряда. По оси абсцисс откладывают границы интервалов, на которых строят прямоугольники с высотой, пропорциональной: плотностям распределения соответствующих интервалов (пропор­циональной числу единиц совокупности, приходящейся на единицу длины интервала). При равных интервалах плотности распределе-

Рис. 1. Гистограмма распределения соотношопия брачпых возрастов разводя­щихся супругов

пия пропорциональны частотам, которые и откладываются по оси ординат (рис. 1, табл. 2).

На гистограмме общее число лиц в каждой категории выражает­ся площадью соответствующего прямоугольника, а общая площадь равна численности совокупности (так как гистограмма иа рис. i строится по относительным частотам, то площадь равна единице (100%)). Поэтому для интервалов 4—6, 6—8, 8—10 в табл. 2, ко-

Таблица 2. Распределение брачных возрастов разводящихся супругов ф
    Муж старше Шены (иа сколько лет)  
Показ ате ля мень­ше года 1—2 2-3 3—4 4—6 в-8 8—10 10 и более
Число людей И
% к общему числу 7,2 ii,5 1.4,2 22,9 W,9 8,4 1,2 15,7
Накопленная частота G IS G2
Накопленная отпоон-тельвая частота, % 7,2 21,7 34,9 57,8 74,7 83,1 84,3

Таблица 2. Распределение брачных возрастов разводящихся супругов *

Муж старше Шены (на сколько лет)

Показателя мснь- _

Ше 1—2 2-3 3-4 4-6 в-8 8-10 более

Года

Число людей в 12 И 19 14 7 1 13

% к общему числу 7,2 14,5 1.4,2 22,9 1Г>,9 8,4 1,2 15,7

Накопленная частота С IS 29 48 G2 09 70 83

Накопленная относи- 7,2 21,7 34,9 57,8 74,7 83,1 84,3 100
тельвая частота, %



* Социальные исследования. М., 1965, яып. 1, с. 163.

торые в 2 раза больше предыдущих, нужно брать высоты прямо­угольников в 2 раза меньшие. При нанесении на графике последне­го открытого интервала «10 лет и более» условно будем считать верхней его границей 40 лет. Тогда ширина интервала равна 30 го­дам, а плотность распределения — около 0,5% (15,7 : 30 » 0,5).

Полигон распределения. Для построения полигона величина при­знака откладывается на оси абсцисс, а частоты или относительные частоты на оси ординат. Из точек, соответствующих значениям признака, восстанавливаются перпендикуляры, равные по высоте частотам. Вершины перпендикуляров соединяются прямыми ли­ниями.

Для интервального ряда ординаты, пропорциональные частоте (или относительной частоте) интервала, восстанавливаются перпен­дикулярно оси абсцисс в точке, соответствующей середине даиного интервала.

Следующие данные распределения рабочих в возрасте до 24 лет по тарифным разрядам (высококвалифицированные рабочие сельхоз­машиностроения)" дают возможность построить полигон распределе­ния (рис. 2):

Разряд Т II Ш IV V VI

Численность, % к итогу 8,4 22,6 31,9 24,1 6,2 0,3

Накопленные частоты 8,4 31,0 62,3 87,0 93,2 93,5

Условно принято крайние ординаты признака соединять с сере-» динами примыкающих интервалов (на рис. 2 эти замыкающие линии нанесены пунктиром). Однако для распределения, где концентрация событий увеличивается на концах полигона, такое изображение мо­жет привести к ложным представлениям о существе явления.

Кумулята. Для графического изображения вариационных рядов используются также кумулятивные кривые. При построении куму-ляты, как и гистограммы, на оси абсцисс откладываются границы интервалов (либо значения дискретного признака), а на оси орди­нат накопленные частоты (либо относительные частоты), соответ­ствующие верхним границам интервалов. Таким образом, отяичие кумуляты от гистограммы в том, что на графике кумуляты столби­ки, пропорциональные частотам, последовательно накладываются один на другой, так что высота последнего столбика является сум­мой высот столбиков гистограммы.

Кумулята округляет индивидуальные значения признака в пре­делах интервала и представляет собой возрастающую ломаную линию.

Кумулята позволяет быстро определить процент лиц, находя­щихся ниже или выше заданной величины признака. Например, по данным табл. 3, процент семейств, в которых муж старше супру-» гц не более, чем на 5 лет, равен 65 (рис. 3, точка А),

13 Проблемы использования рабочей силы в условиях научно-технической ре-иолюции. М., 1973, с. 168. Сумма всех относительных частот не равиа 100%, поскольку опущена графа «вне разряда»,

Гие.2. Полигон распределения работающих по тарифным разрядам

Рис.3. Куыулята распределения соотношения брачных возрастов разводящих­ся супругов

Вид (форма) кривых распределений.Кривые, полученные вро. вультате графического представления эмпирических данных, могут иметь разнообразную форму. Среди пих можно выделить относи­тельно небольшое количество простых типов. Некоторые возможные формы распределений приведены на рис. 4. Анализ формы кривых иногда помогает в выявлении внутренней, скрытой структуры ис­следуемой совокупности. Например, можно предположить, что фор­ма кривой в обусловлена наложением двух кривых: а и б, иначе говоря, предположить, что существует третья скрытая перемепная (или группа переменных), детерминирующая расчленение совокуп­ности на две группы.

Существует множество конкретных примеров того, как графиче* ский анализ стимулирует дальнейшее развитие исследовательской мысли.

Теоретическое распределение. Сбор эмпирической информации может быть осуществлен двумя путями: исследованием всей сово­купности социальных объектов, которые являются предметом изу­чения в пределах, очерченных программой социологического иссле­дования, и изучением лишь части этих объектов. В первом случае исследование называется сплошным, а множество социальных объектов — генеральной совокупностью, во втором исследование на-«ывается выборочным, а выделенная часть объектов — выборкой "

Одна из основных, задач статистики состоит в том, чтобы по данным выборки оценить параметры генеральной совокупности.

Гистограмма и полигон распределения, построенные на основе эмпирических данных выборки, позволяют выявить лишь прибли*

u Методы построения выборки, подробно изложены в гл. б.

Тис.4. Различные формы кривыхрас- Рнс.5. Теоретическая кривая распре-
пределения деления

женную картину реального распределения в генеральной совокуп­ности.

При увеличении выборочной совокупности и все большем дроб­лении величины интервалов эмпирическое распределение в виде гистограммы или полигона все более приближается к некоторой кривой, называемой кривой распределения.

Если группировочпый признак является непрерывной величиной, то в предельном случае при постепенном уменьшении величиии интервала полигону и гистограмме будет соответствовать некоторая Гладкая кривая (рис. 5).

Эта кривая распределения, являющаяся предельным случаем полигона данного эмпирического распределения, называется по установившейся терминологии кривой плотности распределения. "Обозначим соответствующую функцию fix).

В терминах теории вероятностей плотность распределения мож­но трактовать следующим образом: вероятность (р) того, что слу­чайная величина (£) примет значение из достаточно малого интер­вала (XiXi+i), равна произведению длины интервала на высоту пря-агоугольника (/(#()), т. е.

p(xt < I < xi+i) ж /(*,)(*,+, - х„).

Для иптервала произвольной длины суммированием этих значе­ний получим, что

ь

p(a<t<b) = $f(x)dx.

a

Отсюда приходим к определению фундаментального понятия теории вероятностей — функции распределения (F) случайной вв-личины (£), которая но определению есть

Знание функции распределения дает исчерпывающее представление о поведении совокупности в отношении изучаемого признака, поэто­му определение типа распределения признаков представляет одну из задач исследования массовых явлений.

Л. Средние величины и характеристики рассеяния значений признака

Группировка и построение частотного распределения — лишь первый этап статистического анализа полученных данных. Следую­щим шагом обработки является получение некоторых обобщающих. >арактеристик, позволяющих глубже понять особенности объекта наблюдения. Сюда относится прежде всего среднее значение при­знака, вокруг которого варьируют остальные его значения, и степень колеблемости рассматриваемого признака. В математи­ческой статистике различают несколько'видов средних величин: среднее арифметическое, медиана, мода и т. д.; существует также несколько показателей колеблемости (мер рассеяния): вариацион­ный размах, среднее квадратическое отклонение, среднее абсолютное отклонение, дисперсия и т. п.17

Среднее значение признака. Среднее есть абстрактная типиче­ская характеристика всей совокупности. Оно уничтожает, погашает, сглаживает случайные и неслучайные колебания, влияние индиви-луальных особенностей и позволяет представить в одной величине некоторую общую характеристику реальной совокупности единиц. Основное условие научного использования средних заключается в том, чтобы каждое среднее характеризовало такую совокупность единиц, которая в существенном отношении, и в первую очередь- в отношении осредняемых значений признака, была бы качественно однородной. Среди всего многообразия средних практически наибо­лее часто используемой считается среднее арифметическое.

Среднее арифметическое. Среднее арифметическое есть частное от деления суммы всех- значений признака на их число. Обознача­ется оно х. Формула для вычисления имеет вид

п
X-------------------- _ _---- , (.!>

где х,, ..., хп — аначения признака, п — число наблюдений.

По следующим данным вычислим среднее число газет, читаемых ежедневно индивидами в выборке из 10 человек:

Покер опрошенного i 123456789 10

in

Число читаемых газет х{ 3445424553 2х; = 39

i=l

Ло формуле для х находим * = -^- = 3,9 (газеты).

" Здесь я далее в этой главе речь идет о так называемых выборочных харак­теристиках (средней, дисперсии н т. д.).

Формула (1) для сгруппированных данных преобразуется в слс-« дуюшую:

h

П ИАЧ- И« + • • • + "fc'

где nt — частота для i-ro значения признака.

Бели находят среднюю для интервального ряда распределения, то в качестве значения признака для каждого интервала условно принимают его середину.

Процедуру вычисления среднего по сгруппированным данным удобно выполнять по следующей схеме (табл. 3).

Таблица 3. Скеиа вычисления среднего арифметического

Середина ин- Частота (относи- Произведение
Интервал тервала /хЛ тельная) п. х.п

Последовательно высгнгы- xt n^ х^

ваются все интервалы Х| П| Х|П|

*

Существует ряд упрощенных приемов вычисления средних. На с. 163 как промежуточный этап рассмотрено вычисление средвего методом отсчета от условного нуля.

Пример. Вышеприведенные дапные о количестве прочитанных газет (см. с. 159) сгруппируем следующим образом:

Номер опрошенного ( С 110 2357 480

Число читаемых газет xL 2 33 4444 555

4
Частота л, 12 4 3 2"'= 10

Отсюда вычислим х:

2-1 + 3-2 + 4-4+5-3 „ „ , .

х =-------- ±------ ^------- ±------- = 3,9 (газеты).

Медиана. Медианой называется значение признака у той еди­ницы совокупности, которая расположена в середине ряда частот­ного распределения.

Бели в ряду четное число членов (2к), то медиана равна средне­му арифметическому из двух серединных значений признака. При нечетном числе членов (2к + 1) медианным будет значение призна--ка у (k + i) объекта.

Предположим, что в выборке из 10 человек респонденты про-ранжированы по стажу работы ыа данном предприятии:

Ранг опрошенного 1234 5 В 7 89 10

Стаж 15 13 10 91 7 6 5 4 3-1

Серединные ранги 5 и 6, поэтому медиана равна
1±^ = 6,5лет.

В интервальном ряду с различными значениями частот вычисле-пие медианы распадается на два этапа: сначала находят медиан­ный интервал, которому соответствует первая из накопленных ча­стот, превышающая половину всего объема совокупности, а затем находят значение медианы по формуле 1

Ме = хо + 8^—------ -, (2)

где х0 — начало (нижняя граница) медианного интервала; б — ве­личина медианного интервала; л = 2га( — сумма частот (относитель­ных частот) интервалов; пн — частота (относительная), накоплен­ная до медианного интервала; пи, — частота (относительная) меди­анного интервала.

Проведем вычисление по данным табл. 2, где в нижней строке приведены накопленные относительные частоты. Первая из них, превышающая половину совокупности (100/2 = 50%), равна 57,9%. Следовательно, медиана принадлежит интервалу 3—4 года. По­этому

^-35 Л/* = 3 + 1 2229 =3,7.

Таким образом, для данной выборки медиана, равная 3,7 года, показывает, что 50% семей имеют соотношение возрастов, меиьшее »1 ой величины, а другие 50%—большее. Медиана может быть легко определепа графически по кумуляте распределения (см. рис. 3).

Медиана может быть применена для дискретных переменных, хотя дробные значения часто не имеют непосредственной содержа­тельной иптерпретации.

По данным распределения рабочих по тарифным разрядам (см. с. 156) вычислим медиану этого распределения, используя приведенную выше формулу ". Получим

Л/е = 2,5 + 1 -^%=~ = 3,1.

Узпалп, что 50% рабочих имеют разряд, меньший 3,1, и 50% — больший.

" Предполагается, что медианный интервал разряда равен 2,5—3,5,

Медиана, как уже отмечалось, делит упорядоченный вариацион­ный ряд на две равные по численности группы.

Наряду с медианой можно рассматривать величины, называемы» квантилями, которые деляг ряд распределения на 4 равные частиг на 10 и т. д.

Квантили, которые делят ряд на 4 равные по объему совокупно­сти, называются квартилями. Различают нижний Q<t, и верхний. <?•/. квартили (рис. 6). Величина Q% является медианой. Вычисле­ние квартилей совершенно аналогично вычислепию медианы:

Qi/. = хо + о-------------- ;---------- ; w)

"Q

_ п "4~(2ni)-"H .

Q»ti = xo + 6 --------------- г---------- г (*>

nQ

где Хо — минимальная граница интервала, содержащего нижний (верхний) квартиль; пн — частота (относительная частота), накоп­ленная до квартильного интервала; nQ — частота (относительная частота) квартильного интервала; б — величина квартильного ин­тервала.

Процентили делят множество паблюдепий на 100 частей с рав­ным числом наблюдений в каждой. Децили делят множество наблю­дений на десять равных частей. Квантили легко вычисляются по распределению накопленных частот (по кумуляте).

Мода. Модой в статистике называется наиболее часто встречаю­щееся значение признака, т. е. значение, с которым наиболее веро­ятно можно встретиться в серии зарегистрированных наблюдений.

В дискретном ряду мода (Мо) — это значение с наибольшей частотой.

В интервальном ряду (с равными интервалами) модальным яв­ляется класс с наибольшим числом наблюдений. Значение моды находится в его пределах и вычисляется по формуле

Мо = х0 + 6 "Мо ~" , (5)

2пш~п

где ха — нижняя граница модального интервала; 6 — величина ин­тервала; п~ — частота интервала, предшествующего модальному; пмо — частота модального класса; п+ — частота интервала, следую­щего за модальным.

В совокупностях, в которых может быть произведена лишь опе­рация классификации объектов по какому-нибудь качественному признаку, вычисление моды является единственным способом ука­зать некий центр тяжести совокупности.

К недостаткам моды следует отнести следующие: невозможность совершать над ней алгебраические действия; зависимость ее величи­ны от интервала группировки; возможность существования в ряду

распределения нескольких модальных значений признака (см., на­пример, рис. 4, в).

С равнение средних. Целесообразность использования того или иного типа средней величины зависит по крайней мере от следую­щих условий: цели усреднения, вида распределения, уровня измере­ния признака, вычислительных соображений. Цель усреднения свя­зана с содержательной трактовкой рассматриваемой задачи. Однако форма распределения может существенно усложнить исследование средних. Если для симметричного распределения (см. рис. 4, а) мода, медиана и среднее арифметическое тождественны, то для асимметричного распределения это не так. На выбор средней мо­жет повлиять и вид распределения. Например, для ряда с откры­тыми конечными интервалами нельзя вычислять среднее арифмети­ческое, но если распределение близко к симметричному, можно под­считать тождественную ему в этом случае медиану.

Показателиколеблемости (вариация) значений признаков.Для характеристики рядов распределения оказывается недостаточным указание только средней величины данного признака, поскольку два ряда могут иметь, к примеру, одинаковые средние арифметиче­ские, но степень концентрации (или, наоборот, разброса) значений признаков вокруг средней будет совершенно различной. Характери­стикой такого разброса служат показатели колеблемости — разность между максимальным и минимальным значениями признака в не­которой совокупности (вариационный размах), а также другие по­казатели: среднее абсолютное (линейное) отклонение, среднее квад-ратическое отклонение и т. п.

Дисперсия. Дисперсией называется величипа, равная среднему значению квадрата отклонений отдельных значений признаков от средней арифметической. Обозначается дисперсия sl ивычисляется ло формуле

Корень квадратный из дисперсии называется средним квадратиче-ским отклонением и обозначается s.

Геометрически среднее квадратическое отклонение является по­казателем того, насколько в среднем кривая распределения размы­та относительно ее среднего арифметического. Измеряется в тех же единицах, что и изучаемый признак.

При ручном счете для упрощения вычислений дисперсию (s) рассчитывают по формуле методом отсчета от условного нуля. Для интервального ряда с равными интервалами процедура следующая. Сначала вычисляются центры интервалов. Относительно какого-либо отобранного серединного интервала ряда, например А, вверх и вниз выписывается натуральный ряд чисел (а<) соответственно со знаком «плюс» и «минус»: 0, +1, +2 и т. д.; —1, —2 и т. д. (табл. 4).

Далее вычисляются величины aj, а^, а%пх. В качестве проме­жуточного результата по формуле (7) получаем среднее арифмети-

ческое. Величина дисперсий получается подстановкой промежу* точных величин из табл. 4 в формулу (8).

Среднее арифметическое находится по формуле "

h

*=-^------ б + Л = ^|^_ + 42,5 = 40,1(лет). (7)

Тогда дисперсия равна

$2 = 1>ЬЧ §2 _ (- _ Л)2= 512 52 _ (40д _ 42)5)2 = 616 (8)

п — 1 1У1 — 1

s = /НТВ = 7,8 (лет).

Приведенные вычисления показывают, что при средпем возрасте-40 лет все остальные члены совокупности имеют возраст, который в среднем отклоняется от 40 лет на 7,8 лет, т. е. примерло на 20%.

Таблица 4 *. Пример вычисления дисперсии

* Численные данные о распределении кандидатов наук по возрастным группам в отделении 9Н0Н0МИНИ, истории, философии и права АН УССР (Организация науки/ Под ред. Г: М. Доброва, М., 1970, с. 148—149).

Среднее абсолютное отклонение. Эта мера вариации представля­ет собой среднее арифметическое из абсолютных величин откло­нений отдельных значений признака от их среднего арифметического * _

У\\х,—х\п.
п '

•» Необходимо отметить, что средние арифметические, подсчитанные по фор­мулам (7) и' (1), тождественны между собой так же, как и дисперсии, най­денные по формулам (6) и (8), Отличаются они лишь формой записи.

i64

Рие.в. Нижний и верх­ний квартили, медиана

Рис.7. Кривая нормаль­ного распределения

Рие.8. Кривая нормаль­ного распределения и доли частот под ней

где \xt — x\ означает, что суммируются значения отклонений без учета знака этих отклонений; л = 2л<— объем совокупности.

Вместо среднего арифметического в формуле 9 часто берут моду или медиану. Для симметричных распределений мода, медиана и среднее арифметическое совпадают и выбор средней не представля­ет труда. Для асимметричного распределения иногда отдают пред­почтение медиане.

Величина среднего квадратического отклонения всегда больше d и для достаточно большой выборочной совокупности с распределе­нием признака, близкого к нормальному, связана с 3. соотношением

*«1,25<J. (10)

Например, для данных табл. 4 вреднее линейное отклонение, под­считанное по формуле 9, равно d = 6,3 года. Тогда

« = 1,25-6,3 = 7,87,

что с учетом погрешности вычислений совпадает с найденным ра­нее средним квадратическим отклонением. Таким образом, для пред­варительного анализа можно заменить вычисление s менее трудо­емким вычислением 3.

Коэффициент вариации. Среднее линейное и среднее квадрати-ческое отклонение являются мерой абсолютной колеблемости при­знака и всегда выражаются в тех же единицах измерения, в кото­рых выражен изучаемый признак. Это не позволяет сопоставлять между собой" средние отклонения различных признаков (в случае разных единиц измерения) в одной и той же совокупности, а так­же одного и того же признака в разных совокупностях с различ­ными средними. Чтобы иметь такую возможность, средние откло-

пепия часто выражаются через соотнесение в процентах к средне­му арифметическому, т. е. в виде относительных величин.

Отношение среднего линейного или среднего квадратического отклонения к среднему арифметическому называется коэффициен­том вариации (V):

y; = -L.100%; (11)

X

V"d = 4--l00%. (12)

X

Очевидно, что тот из рядов имеет большее рассеяние, у которого коэффициент вариации больше.

Рассмотренные выше показатели вариации применимы лишь к количественным признакам, а точнее к признакам, измеренным не ниже чем по интервальной шкале. Применение этих мер для низ­ших уровней, строго говоря, некорректно и требует тщательной ин­терпретации полученных результатов.

Вариации качественных признаков. Если признак имеет к взаи­моисключающих градаций, то для вычисления индекса качествен­ной вариации применяется процедура, поясняемая следующим примером.

Пусть получено следующее распределение ответов (взаимоис­ключающих) на вопросы А, В и С (колонка 1):

1 2

А 30 40

В 20 40

С 70 40

Ш 120

Во вторую колонку запишем такие частоты, которые получи­лись бы при равномерном заполнении всех трех вопросов, т. е. 120/3 = 40. Теперь вычислим величину

Т (30-20)+(30-70)+ (20-70) ,m Rt- ,0/ .,„

J = (40-40)+ (40-40)+ (40-40) " 10° = 85-4% • (13)

Этот показатель называется индексом качественной вариации и указывает на степень неоднородности полученных ответов. Если бы все ответы попали лишь в одну градацию, то / *= 0, что означа­ло бы полное единство в ответах, хот», конечпо, индекс совершенно не учитывает того, в какую именно градацию попали все эти ответы.

Совершенно аналогично индекс вычисляется при любом числе градаций. Но для альтернативных признаков вариация обычно под-считывается по формуле (14). Опа отличается от J на константу, называется дисперсией, выражается в абсолютных числах и обо­значается s1:

("l + пг) п \ п ) v I

Другой мерой вариации признака (независимо от уровня изме­рения) может служить так называемая энтропия — мера неопреде­ленности, вычисляемая по формуле

H h

Н = — 2mJlogmi = logn--- ^-^Wjlogn;. (15)

i=l i=l

Логарифм в этой формуле может быть взят по любому основанию. Энтропия обладает следующими свойствами:

а) энтропия равна нулю лишь в том случае, если вероятность полу­
чения одного из значения х, признака х равна единице (вероятность
остальных значений йри этом равна нулю). Такой признак не обла­
дает неопределенностью, так как достоверно известно одно един­
ственно возможное его значение. Во всех остальных случаях, когда
имеется та или иная неопределенность в значениях хх, энтропия
является положительной величиной;

б) наибольшей энтропией обладает признак, когда все значения
Xi равновероятны. Для признака с к градациями

#т,х = log /С.

Отсюда видно, что максимальная энтропия увеличивается с ростом числа градаций в признаке.



©2015- 2021 stydopedia.ru Все материалы защищены законодательством РФ.