Сделай Сам Свою Работу на 5

Расчет характеристик простой случайной выборки.

Цель любого выборочного исследования состоит в том, чтобы, сформировав вы­борку, собрать по ней информацию и на основе этой информации оценить искомые характеристики генеральной совокупности.

Наиболее распространенной в социологических исследованиях задачей является оценка среднего значения признака (или доли в случае качественного признака) в генеральной совокупности.

Проиллюстрируем на примере нахождение выборочной оценки среднего генеральной совокупности. Предположим, что оценивается среднее число газет и общественно-политических журналов, выпи­сываемых сотрудниками некоторого производственного коллектива. Рассмотрим по порядку все необходимые операции и их результаты.

Составляется основа выборки, т. е. список всех единиц отбора. В качестве такой основы может быть взят алфавитный список всех сотрудников, пронумерованных последовательно (табл. 15). В целях наглядности вместе с основой выборки приводятся и все истинные значения единиц отбора, еще неизвестные исследователю. В дальнейшем сопоставим истинное значение искомого параметра и выборочную оценку.

Общая сумма выписываемых газет и журналов равна 150. Среднее число выписываемых газет и журналов на каждого сотрудника равно = 150/50 = 3.

Среднее квадратическое отклонение для генеральной совокупности равно

Сумма квадратов отклонений равна 146 при условии, что одно значение квадрата отклонения, а именно от единицы отбора 28, было исключено из суммы. Это значение, равное 49, резко увели­чивает сумму, будучи нетипичным для генеральной совокупности.

Такое «исключение» экстремального отклонения нередко применя­ется при обработке первичной социальной информации в том случае, когда предусмотрено возведение в квадрат, а само отклонение в 2—3 раза превышает среднее значение параметра.

Однако ни среднее значение параметра, ни среднее квадратическое отклонение перед началом исследования не известны. В про­тивном случае само исследование было бы излишним.

Естественно предположить при анализе вышеприведенного примера, что каждый респондент (единица отбора и единица наблюде­ния) выписывает несколько газет и журналов и что количество выписываемых газет и журналов не слишком сильно варьирует (если бы путем выборочного исследования потребовалось определить, скажем, объем личных библиотек, положение исследователя ослож­нилось бы). Исходя из этих соображений, полагаем достаточной вы­борку, состоящую из пяти респондентов. Проверить правильность определения объема выборки можно только после обработки резуль­татов пилотажного исследования.



Предположим, что случайный выбор из табл., 15 дал следующие результаты: выбраны номера 18, 4, 28, 39, 22; они соответствуют Значениям признаков 4, 0, 10, 4, 4.

Среднее арифметическое но выборке х = 22/5 = 4,4, дисперсия

Такое значительное отклонение от истинного значения средней объясняется тем, что в выборку попал респондент № 28, исключен­ный при подсчете дисперсии для генеральной совокупности как нетипичный. Однако при формировании выборки еще неизвестно, что данный респондент нетипичен. Но сам факт, что среднее квадратическое отклонение приближается по величине к средней, дол­жен насторожить исследователей.

Для большей наглядности выразим s в процентах от величины средней: (3,5:4,4) • 100%= 79%, т. е. среднее отклонение значений признака от выборочной средней арифметической величины «оставляет 79%. В таких случаях целесообразно увеличить объем выборки, например, в 2 раза. В результате были отобраны номера: 44, 2, 12, 26, 14, 27, 35, 9, 8, 49; значения признака 5, 2, 4, б, 1, -3,2,5,3, 4.

Среднее арифметическое — 3,6, дисперсия s2 = 2,26, среднее квадратическое отклонение s = 1,5. Теперь оно составляет прибли­зительно 40% от величины средней. При больших дисперсиях объем выборки увеличивают с учетом практических возможностей до тех пор, пока дисперсия не перестает уменьшаться. Дальнейшее увеличение объема выборки является нецелесообразным. Обычно исследователь приходит к некоторому компромиссному решению от­носительно объема выборки в зависимости от требуемой точности, атакже средств и времени, которыми он располагает.

Сводка необходимых формул для простой случайной выборки. В рассмотренном гипотетическом примере легко было оценить ка­чество выборочной оценки среднего (перед глазами была информация дня обо всей генеральной совокупности). Но как провести его оценку в реальном исследовании, когда имеется только информация, полученная из выборки?

На помощь приходит статистическая теория выборочного метода. Она позволяет при условии реализации случайного отбора достичь, по крайней мере, следующих двух целей:

1. По заданной априори необходимой степени точности выводов (формализуемой с помощью понятия доверительной вероятности) найти возможные интервалы, изменения характеристик генеральной; совокупности (доверительные интервалы). И наоборот, рассчитать доверительную вероятность отклонения характеристики генеральной совокупности от выборочной по заданной величине доверительного интервала.

2. Найти объем планируемой выборки, позволяющей достигнуть в пределах требуемой точности расчета выборочных характеристик необходимую доверительную вероятность.

Дадим сводку необходимых для достижения этих целей формул3. Чтобы уметь применять приведенные формулы при планирова­нии выборки в эмпирическом социологическом исследовании, позна­комимся несколько подробнее с основными понятиями выборочного метода— «доверительная вероятность» и «доверительный интервал».

Теоретико-вероятностные теоремы, восходящие к закону больших чисел, позволяют с определенной вероятностью, обозначаемой (1 —а), утверждать, что для изучаемого признака отклонения вы­борочной средней от генеральной не превысят некоторой величины D, называемой предельной ошибкой выборки.

В одной из формулировок это утверждение записывается сле­дующим образом:

Смысл приведенного соотношения следующий: с доверительной вероятностью (1-a) можно утверждать, что генеральное среднее лежит в интервале

 

который и называется доверительным интервалом, а определяет как бы степень доверия к данным, получаемым по рассчитанным с его помощью выборочным характеристикам. Отсюда и название а — уровень значимости.

Принятие того или иного уровня значимости, например 5%-ного (a = 0,05), зависит от целей данного социологического исследования, требований к степени гарантии его результатов. Социолог должен четко понимать, что, выбрав, скажем, уровень значимости, равный 5 %, и, рассчитав на основе его выборочные характеристики, мы будем утверждать наличие некоторого эффекта, который на самом деле может оказаться несправедливым приблизительно в пяти про­центах случаев.

Пример.При обследовании 900 человек — лиц трудоспособного возраста — определен их средний возраст. Для вероятности (1 — a) =0,90 необходимо найти доверительный интервал, в котором содер­жится генеральное среднее. Поскольку дисперсия признака неиз­вестна, оценим ее приблизительно по значению размаха для гене­ральной совокупности.

С этой целью воспользуемся соотношением связи среднего квад­ратичного отклонения с размахом

справедливым в предположении нормального характера распреде­ления. Здесь Хmax — Хmin — вариационный размах генеральной сово­купности, а V— величина, зависящая от объема выборки, значения которой можно найти в табл. 17.

Так как по всей генеральной совокупности верхняя граница трудоспособности в СССР — 60 лет, а нижняя — 16, то хmax — хmin=60—16 = 44, следовательно (для п>100 — последний столбец

табл. 17), получим приближенное значение среднеквадратичногоотклонения s=44:5= 8,8.

Величина Z находится по табл. А приложения при a/2. Таким образом, если 1 — a= 0,9, то Z = 1,64,

Подставляя найденные значения М и Z в формулу предельной ошибки, получаем D = ZM = 1,64 • 0,29 = 0,48.

Таким образом, округляя значение ошибки до половины года (0,5), можно утверждать, что с вероятностью 0,9 генеральное сред­нее не выйдет за пределы интервала х — 0,5 <М <х + 0,5, т. е. точность выборочной оценки среднего, рассчитанной по нашей вы­борке (если она организована методом простого случайного повтор­ного отбора), оказывается равной половине года. Утверждать это мы можем с вероятностью 0,9. Интервал (х — 0,5, х + 0,5) и задает доверительный, интервагй, рассчитанный по доверительной вероятности, равной 0,9.

Теперь рассмотрим методику нахождения доверительного интер­вала по заданной доверительной вероятности для качественного Признака.

Пример.Выборочное обследование 900 человек, организованное до способу простого случайного повторного отбора, показало, что 18 человек не информированы о крупном событии в стране. Для Доверительной вероятности 0,95 нужно найти доверительный интервал.

Пользуясь выражением для формулы средней ошибки (см.

табл. 16)

получаем

 

Далее по табл. А приложения, как уже описывалось выше, для a/2 находим Z= 1,96.

Теперь можно определить величину предельной ошибки (см табл. 16):

Таким образом, доверительные границы для доли не информированных в генеральной совокупности равны 0,02 ± 0,009, или от 1,1 до 2,9%.

Приведем иллюстративный пример определения объема простой повторной случайной выборки. Как видно из формул, чтобы опре­делить объем (см. табл. 16), для его оценки необходимо знать дис­персии генеральной средней или хотя бы ее оценки.

Для применения соответствующей формулы необходимо оценить значение дисперсии, что можно сделать (при отсутствии информа­ции о ней и о размахе значений признака в генеральной совокупно­сти) путем проведения одной-двух пилотажных (пробных) выборок.

Допустим, что в результате пилотажа выборочная оценка дис­персии равна 12,24. Определим каким должен быть объем выборки чтобы с вероятностью 0,95 предельное отклонение выборочной средней от генеральной не превышало одного экземпляра газет. При этих условиях получаем численность планируемой выборки

Таким образом, объем выборки должен составлять 24 человека.

 

3. 3.Систематическая и серийная выборки.

 

Систематический отбор.

В социологических исследованиях иногда применяется несколько, упрощенный вариант простого случайногоотбора, который носит название систематического. Основа выборки для него характеризуется теми же требованиями, что и для простого случайного отбора. Иными словами, основу выборки составляют раз­личные алфавитные списки, картотеки учреждений, домовые книги и т. п. При систематическом отборе выбор единиц наблюдения осу­ществляется через один и тот же интервал /г из исходного списка. Например, при А = 20 выбирается 3, 23, 43, 63 и т. д. единиц списка.

Таким образом, элементы выборочной, совокупности однозначно определяются при систематическом отборе номером первого элемен­та (тройки в нашем примере) и величиной интервала А.

В одной из схем систематического отбора в качестве первого элемента выбирается средний элемент списка или стоящий рядом с ним. Так, если список генеральной совокупности пронумерованот 1 до N, то номер первого элемента может быть определен по формулам (N+1)/2 если N—нечетное и N/2, если N- четное число.

Более распространен выбор первой единицы отбора случайным об­разом (например, по таблице случайных чисел).

Величина А зависит от характера поставленной проблемы, от разброса значений исследуемой характеристики генеральной сово­купности.

Если решен вопрос об объеме планируемой выборки, то число определяется, в зависимости от объема генеральной совокупности и объема выборки (и).

Если N — кратное числа n, то интервал определяется по формуле k=N/n. Если Nне кратно n, то реальный объем выборки npи планируемый объем nпл .при различных способах вычисления числа А связаны следующими соотношениями:

Здесь [ ] означает целую часть числа. Поясним сказанное на примере: пусть N=19 и n=5, чему равно k? Тогда k равно либо 3, либо 4.

При k= 3 в выборку попадает больше пяти элементов — в данном случае 6 пли 7. При k= 4 в выборку попадут пять или четыре элемента.

Расчет характеристик систематической выборки. В связи с тем что систематическая выборка определяется как разновидность про­стого случайного отбора, ее характеристики рассчитываются с по­мощью соответствующих формул табл. 16.

В примере с подписчиками газет и журналов (см. табл. 15) в систематическую выборку объемом 5 единиц попали номера респондентов 10, 20, 30, 40, 50, для которых соответствующее число вы­писываемых газет равно 3, 5, 5, .3, 2. Среднее по выборке равно 3,6, а дисперсия — 1,4.4 (s= 1,2).

Таким образом, с вероятностью 0,95 можно утверждать, что до­верительный интервал для генеральной средней имеет следующие границы: (3,6± 1,96-0,54) = (3,6 ±1,05) ==(2,55; 4,65).

Возможности и ограничения систематической выборки. Система­тическая выборка является экономным и удобным способом форми­рования выборочной совокупности. Однако при ее применении в социологических исследованиях необходимо следить за тем, чтобы список, используемый в качестве основы выборки, не обладал порядком, отражающим периодичность в значениях изучаемой харак­теристики. Проиллюстрируем это положение. При составлении основы выборки для опроса рабочих в одном из цехов завода выбранный интервал может совпасть с числом рабочих в бригаде, в списке который первым окажется бригадир. При систематическом отборе повышаются шансы попадания в выборку только одних бригадиров. При такой реализации выборки повышается вероятность получения значительных систематических ошибок.

Предварительное расположение элементов генеральной совокуп­ности по убыванию или возрастанию исследуемой характеристики дозволит избавиться отэтой опасности. Так, если в рассмотренном примере основа выборки организуется на базе платежной ведомости, в которой лица расположены в порядке возрастания их заработной платы, то опасность попадания только на одних бригадиров исклю­чается.

Систематическая выборка из-за простоты реализации получила широкое применение в социологических исследованиях.



©2015- 2019 stydopedia.ru Все материалы защищены законодательством РФ.