Различия между стратифицированной и кластерной выборкой.

Простая случайная выборка.

Можно без особого труда создать случайную выборку, если в распоряжении исследователя имеется полный список всех людей, мнением которых он интересуется. Множество таких людей называется изучаемой совокупностью, или генеральной совокупностью. Создание списка представителей совокупности возможно, когда, например, планируется проведение опроса на предприятии, руководство которого готово предоставить полный список своих сотрудников. В этом случае надо сначала решить, сколько человек будет опрошено, то есть определить размер выборки(иногда говорят “объем выборки”), а затем последовательно отобрать из списка нужное число людей. Для отбора необходимо использовать случайный механизм, обеспечивающий любому человеку из списка равную вероятность попасть в выборку. Полученная таким способом выборка называется простой случайной.

В качестве случайного механизма для отбора с равной вероятностью используют таблицы случайных чисел или датчики случайных чисел. Каждый человек в списке имеет свой порядковый номер: 1, 2, ..., N, где N равно общему числу людей в списке. Таблица или датчик случайных чисел выдает с равной вероятностью номера в интервале от 1 до N. Люди с соответствующими порядковыми номерами включаются в выборку. Если какойлибо порядковый номер выпал повторно, то его просто игнорируют, поскольку человек с этим номером уже есть в выборке и второй раз в отборе участвовать не должен. Такой способ отбора называют отбором без возвращения.

Чем хороша простая случайная выборка? Тем, что при достаточном размере n в ней будут представлены все категории людей, присутствующие в списке, из которого она отбиралась, и примерно в тех же самых пропорциях. А это значит, что исследователю не надо думать о том, сколько надо опросить мужчин и сколько женщин, сколько молодых и сколько пожилых, сколько богатых и сколько бедных. Все эти про порции будут с большой вероятностью выдержаны в простой случайной выборке. Например, если вся совокупность, которая насчитывает 10 тысяч человек, на 45% состоит из мужчин и на 55% – из женщин, то в выборке из 1000 человек пропорции мужчин и женщин будут примерно такие же. Конечно, нельзя рассчитывать на то, что мужчин будет ровно 450 чело век, а женщин – 550. Возможны случайные отклонения от точных пропорций, но они будут невелики. Величину отклонений можно вычислить по следующей формуле (1)

Кроме числа людей в выборке n и в совокупности N в формулу входит еще доля p мужчин (или женщин). Число 1,96 соответствует принятому в социологии уровню доверия 95%. Подставим в формулу числовые значения параметров, чтобы вычислить возможные случайные отклонения для доли мужчин в выборке.

Получилось, что доля мужчин в выборке может случайно отклоняться от правильного значения 0,45 в пределах ± 0,029, т. е. на ± 2,9%. Иными словами, доля мужчин в выборке может колебаться в интервале от 45% – 2,9% = 42,1% до 45% + 2,9% = 47,9%. Этот интервал называется доверительным интервалом (с уровнем доверия 95%), а величина Δ, равная ± 0,029 или ± 2,9%, называется статистической погрешностью.

Подведем итог. Простая случайная выборка, обладая несомненными достоинствами, такими как простота реализации, хорошее воспроизведение структуры совокупности, возможность вычисления доверительных интервалов, имеет так же ряд недостатков: для реализации выборки необходимо иметь список всех представителей совокупности; стоимость исследования сильно возрастает из-за удаленности респондентов друг от друга; статистическая погрешность возникает по всем параметрам выборки, даже по тем, для которых известны истинные пропорции (например, по полу или возрасту). Для устранения перечисленных недостатков используются два специальных приема формирования выборки – стратификация и кластеризация, к рассмотрению которых мы сейчас перейдем.

Стратификация.

Совокупность, из которой формируется выборка, обычно имеет свою структуру. В соответствии с этой структурой можно разделить совокупность на части по определенному признаку – территориальному, административному, производственному, социальному и т. п. Например, крупный город делится на административные районы, среди которых есть промышленные и спальные. Россия делится на федеральные округа, на субъекты Федерации (области, края, республики) или на населенные пункты – городские (с разной численностью населения) и сельские. При проектировании выборки бывает важно, чтобы основные части, из которых состоит совокупность, были представлены в выборке в нужных пропорциях.

Простая случайная выборка не может гарантировать отбор заданного числа людей из каждой части совокупности. Она хотя и дает в среднем пропорциональное представительство в выборке людей разных групп, однако эти пропорции подвержены случайным колебаниям. Иногда они могут заметно нарушаться.

Для обеспечения в выборке нужного соотношения между разными частями совокупности применяется стратификация. Она заключается в разбиении всей совокупности на непересекающиеся части, называемые стратами. Для каждой страты вычисляется приходящийся на нее размер выборки, а затем производится случайный отбор нужного числа респондентов. В результате в каждой страте отбирается ровно столько респондентов, сколько запланировал исследователь. Полученная таким способом выборка называется стратифицированной.Иногда вместо термина “страты” применяют названия “типические районы” или “слои”, а стратифицированную выборку называют районированной или расслоенной.

Чаще всего выборка распределяется по стратам пропорционально числу людей в них. Такое распределение называется пропорциональным.Оно позволяет выдержать в выборке те же пропорции между стратами, что и во всей совокупности. Наряду с пропорциональным применяется также равное размещение, размещение Неймана и оптимальное размещение.

При равномразмещении из каждой страты опрашивают одинаковое число людей, хотя число людей в стратах может заметно различаться. Равное размещение применяют, когда требуется сравнить между собой разные части совокупности. Например, сравнивается уровень доходов или состав потребительской корзины городского и сельского населения России. Равный размер выборки для города и для села обеспечивает одинаковый уровень погрешности в обеих группах, что позволяет сравнивать их между собой. При этом суммарная погрешность для всего населения будет больше, чем в случае пропорционального размещения выборки между городом и селом.

Размещение Неймана основано на том, что размер выборки делают больше в тех стратах, где труднее оценить интересующий исследователя параметр. Например, если целью исследования является оценка среднедушевого дохода по России в целом, то понятно, что основные погрешности будут возникать при оценке дохода в крупных городах, и особенно в Москве, так как здесь разница в доходах людей очень велика. Оценка среднедушевого дохода будет сильно зависеть от того, какие именно москвичи попадут в выборку при случайном отборе. Разброс в уровне дохода сельских жителей существенно меньше, а значит и погрешность при оценке дохода этой части населения будет меньше. Поэтому при размещении Неймана размер выборки в тех стратах, где разброс в доходах людей велик, будет больше, чем при пропорциональном размещении, а размер выборки в стратах с небольшим разбросом по доходам будет меньше.

При оптимальномразмещении учитывается не только разброс в стратах по оцениваемому параметру, но и разница в стоимости опроса. В тех стратах, где стоимость опроса выше (на пример, в труднодоступных районах), размер выборки уменьшается по сравнению с размещением Неймана. Там, где стоимость опроса ниже, размер выборки увеличивается. За счет экономии на “дорогих” стратах оптимальное размещение позволяет увеличить общий размер выборки при той же самой стоимости исследования.

Размещение Неймана применяют в тех случаях, когда нужно уменьшить статистическую погрешность по какому-то одному, наиболее важному для исследователя параметру. При этом погрешности по другим параметрам могут увеличиться по сравнению с пропорциональным размещением выборки. Оптимальное размещение позволяет еще больше уменьшить погрешность по этому параметру за счет увеличения общего размера выборки при сохранении ее стоимости. Но чтобы применить размещение Неймана, необходима информация о величине разброса параметра в стратах (т. е. о дисперсии), а для оптимального размещения требуется также информация о стоимости опроса в стратах.

Четыре рассмотренных способа распределения выборки между стратами являются типовыми. Каждый из них решает определенную задачу. Можно применять и другие способы размещения выборки в зависимости от преследуемой цели. Но только один из способов обеспечивает пропорциональное представительство в выборке людей из каждой страты, а именно – пропорциональное размещение. Означает ли это, что все другие способы размещения приводят к ошибкам?

Никаких ошибок не возникнет, если при вычислениях учитывается число людей в каждой страте. Предположим, что вся совокупность разделена на M страт и что число представителей совокупности в стратах равно соответственно N1, N2, …, NM . Пусть требуется оценить по выборке некоторый параметр, например средний доход за последний месяц. Сначала посчитаем средний доход в каждой страте обычным способом, как среднее арифметическое доходов респондентов из этой страты. Общий средний доход для всех страт считается по следующей формуле (2)

где —ystr – средний доход по всей стратифицированной выборке, —yi – средний доход в iой страте, Ni – число людей в iой страте, N – число людей во всей совокупности. Несмотря на то, что правильные пропорции между стратами в выборке могут не соблюдаться, использование множителей Ni /N восстанавливает эти пропорции.

Например, если население России разделено на две страты – на городское и сельское население – и из каждой страты опрошено по 500 человек (т. е. применено равное размещение выборки), то для вычисления среднего всероссийского дохода надо знать истинную долю населения каждой страты. По данным переписи 2002 г., население России в возрасте от 18 лет и старше составляло 113,8 млн человек, в том числе городское население – 84,7 млн человек, сельское население – 29,1 млн человек. Таким образом, доли городского и сельского населения соответственно равны (3)

Средний доход для России считается по формуле (4)

Получается, что доход городского населения будет учтен с коэффициентом 0,74, а доход сельского населения – с коэффициентом 0,26, т. е. несмотря на равные размеры выборки в городе и на селе, правильные пропорции между стратами будут восстановлены.

Конечно, на практике редко удается провести такую идеальную стратификацию, какая была в рассмотренном примере. Для создания страт надо иметь точные данные о числе людей в каждой страте. Эти данные обычно имеются по не большому числу социальнодемографических параметров, таких как пол, возраст, тип места жительства и некоторым другим. Но даже из этих параметров не все можно использовать для стратификации, так как при случайном отборе люди из одной страты должны быть отделены от людей из другой. Поэтому страты чаще всего формируются по территориальным признакам или по признакам, с ними связанным, например, по типам населенных пунктов.

Стратификация устраняет только один из недостатков простой случайной выборки – она позволяет выдержать в выборке точные пропорции всей совокупности, если они известны. Но два других недостатка остаются. Для проведения случайного отбора надо иметь список людей каждой страты. Отобранные в стратах респонденты будут по-прежнему удалены друг от друга, что увеличивает стоимость опроса. Избавиться от этих недостатков позволяет другой метод формирования выборки – кластеризация.

Кластеризация.

Кластеризация позволяет включать в выборку респондентов, проживающих на небольшом рас стоянии друг от друга, сохраняя при этом случайный механизм их отбора. Это достигается путем объединения людей в группы, которые участвуют в отборе как самостоятельные единицы. Такие группы называются кластерами. Чаще всего в качестве кластеров используют различные территориальные образования. Это могут быть административные районы, населенные пункты, городские микрорайоны, городские кварталы, территории избирательных округов или избирательных участков и т. п. В роли кластеров могут также выступать предприятия при опросе рабочих и служащих, учебные заведения при опросе учащихся, магазины при опросе продавцов.

Для получения выборки надо сначала отобрать нужное число кластеров, а затем в каждом из отобранных кластеров отобрать нужное число респондентов, т. е. отбор надо проводить в два этапа. На первом этапе в отборе участвуют кластеры, на втором – люди.

Прежде чем приступить к отбору кластеров, надо составить их полный список. Каждый человек, входящий в изучаемую совокупность, должен быть отнесен к какому-либо кластеру, причем только к одному. Составление полного списка кластеров представляет гораздо меньше проблем, чем составление полного списка людей. Особенно тогда, когда кластерами служат единицы административнотерриториального деления. Например, списки всех административных районов, а также всех городов и поселков городского типа России (с указанием числа жителей) ежегодно публикуются Федеральной службой госстатистики. Их вполне можно использовать в качестве кластеров при опросе населения.

Одна из задач кластеризации состоит в том, чтобы сократить время и затраты на перемещение интервьюера от респондента к респонденту в пределах кластера. Желательно, чтобы это время не превышало 10–15 минут. Если отобранные кластеры имеют слишком большую территорию и не обеспечивают выполнения данного требования, приходится проводить еще один этап или ступень отбора. При этом кластеры, которые отбираются сначала, на первой ступени, называются первичными единицами отбора (ПЕО). Внутри них формируются более мелкие кластеры, которые называются единицами отбора второй ступени или вторичными единицами отбора (ВЕО)2. Вторая ступень отбора проводится только в тех кластерах, которые были отобраны на первой ступени. Например, если на первой ступени проводился отбор административных районов России, то на второй ступени могут отбираться населенные пункты районов, попавших в выборку.

В кластерах, отобранных на второй ступени, можно провести отбор еще более мелких кластеров. Например, в городах можно провести отбор микрорайонов, кварталов или избирательных участков. Это будет третья ступень отбора. На последней ступени отбираются люди (или другие элементы, из которых состоит изучаемая совокупность и которые являются объектом исследования). В зависимости от числа ступеней отбора выборка будет называться двухступенчатой, трехступенчатой и т.д.

Выборка, в которой на начальных этапах отбираются кластеры, а на последнем этапе – люди (представители совокупности), называется многоступенчатой или кластерной3. В некоторых изданиях на русском языке кластеры называются гнездами, а кластерная выборка – гнездовой.

Кластеризация уменьшает стоимость выборочного исследования, позволяя отбирать респондентов, проживающих на не большом расстоянии друг от друга. При этом увеличивается статистическая погрешность. При изучении общественного мнения больших масс населения, проживающих на обширной территории, это единственный способ создать случайную выборку.

Различия между стратифицированной и кластерной выборкой.

Нами были рассмотрены два приема, используемые для создания случайной выборки, – стратификация и кластеризация. Между ними есть существенные различия.

Статистическая погрешность кластерной выборки тем больше, чем сильнее зависимость в ответах респондентов внутри кластеров, т. е. чем более похожи по своим взглядам люди, входящие в кластер. И наоборот, чем более не похожи друг на друга люди внутри кластера, тем погрешность будет меньше.

Поэтому при формировании кластерной выборки лучше использовать такие единицы отбора, которые содержат более разнородные элементы совокупности. В этом состоит одно из отличий кластеров от страт. Страты должны содержать как можно более однородные элементы, кластеры – как можно более разнородные.

Это различие между стратами и кластерами вполне объяснимо. В стратифицированную выборку обязательно входят элементы из каждой страты. Каждый отобранный элемент представляет в выборке элементы только своей страты, чем лучше он их репрезентирует, тем точнее выборка. Если каждая страта будет состоять из очень похожих элементов, то страты будут представлены с минимальной погрешностью, а значит, будет минимальна и статистическая погрешность всей выборки.

В кластерной выборке, в отличие от стратифицированной, каждый отобранный кластер должен репрезентировать все элементы совокупности. Чем больше отдельные кластеры похожи на всю совокупность, тем точнее кластерная выборка. Если каждый кластер будет являться маленькой копией всей совокупности, в которой, как в капле воды, отражается все многообразие имеющихся мнений, то результат исследования будет мало зависеть от того, какие именно кластеры попадут в выборку, в этом случае погрешность кластерной выборки будет минимальной. На погрешность стратифицированной выборки влияет только погрешность измерения внутри страт, степень различия страт между собой на погрешности не отражается.

На погрешность кластерной выборки больше всего влияют различия между кластерами, результат сильно зависит от того, какие именно кластеры попали в выборку. Погрешность измерения внутри кластеров тоже влияет на общую погрешность, но значительно меньше.

Еще одно различие между стратифицированной и кластерной выборками состоит в том, что стратификация уменьшает статистическую погрешность, а кластеризация – увеличивает. Поэтому дизайн-эффект стратифицированной выборки всегда меньше или равен единице (если страты в выборке представлены пропорционально), а дизайнэффект кластерной выборки всегда больше единицы.

Неслучайные выборки

В категорию неслучайных попадают все выборки, для которых невозможно вычислить вероятность отбора людей. Классификацию неслучайных выборок можно встретить во многих работах, но разные авторы по-разному их группируют и порой используют для одного и того же типа выборки разные названия. Поэтому, не претендуя на полноту и однозначность списка, рас смотрим несколько наиболее распространенных видов неслучайных выборок.

Выборка добровольцев, или стихийная выборка, характеризуется тем, что исследователь обращается с предложением принять участие в опросе ко всем желающим, а люди сами решают, стоит им откликнуться или нет. Призыв высказать свое мнение может прозвучать в эфире теле- или радиопередачи, а также быть опубликованным в газете или журнале в виде анкеты. Инициатор такого опроса обычно не знает, сколько людей услышали его призыв. А среди услышавших далеко не каждый надумает отозваться. Отреагирует, скорее всего, специфическая часть аудитории, не очень-то похожая на большинство зрителей, слушателей или читателей.

Квотная выборка состоит в том, что исследователь задает определенные пропорции между разными категориями респондентов, которые необходимо выдержать. Обычно требуется воспроизвести в выборке известные из статистики пропорции всей совокупности по некоторым параметрам, например, по полу и возрасту респондентов, по уровню образования, по типу места жительства и т. п. Эти пропорции называются квотами. Интервьюеру предоставляется определенная свобода при отборе людей, лишь бы они удовлетворяли заданным квотам. Эта свобода может в большей или меньшей степени ограничиваться правилами, которые он должен соблюдать. Например, интервьюер может проводить опрос во всем населенном пункте или только на его части (на указанной улице или в указанном квартале), в любом месте (на улице, в магазинах, в транспорте) или только по месту жительства респондентов и т. п. Но в пределах заданных ограничений интервьюер сам решает, кого ему опросить. (В этом отличие квотной выборки от случайной стратифицированной, при которой интервьюер должен опросить определенных, заранее отобранных людей.)

Целевая (экспертная) выборка строится по принципу принадлежности респондентов к группе людей, интересующих исследователя. Эти люди часто называются целевой группой. Примерами целевых групп могут служить владельцы автомобилей определенных марок, покупатели корма для собак, слушатели радио “Эхо Москвы”, читатели “Коммерсанта”, служащие банков и т. п. У исследователя обычно нет надежных статистических данных о составе и структуре целевой группы, поэтому он не может задать точные квоты. Интервьюер может опросить любого человека, удовлетворяющего заданному критерию принадлежности к целевой группе. Где и как искать таких людей, интервьюер, как правило, решает самостоятельно, он проводит целенаправленный отбор. Поиск представителей малочисленных целевых групп проще всего проводить там, где они чаще бывают, в местах скопления. Автовладельцев можно опрашивать на бензозаправках, покупателей корма для собак – у специальных магазинов, служащих банков – на месте их работы.

Доступная выборка получается тогда, когда опрашиваются только те представители совокупности, которые легко доступны для исследования. Например, изучение заболеваемости про водится на тех людях, которые обратились к врачу, изучение преступности – только по жертвам зарегистрированных преступлений, в выборку руководителей предприятий попадают только те, чьи предприятия включены в справочник, изданный два года назад, мнение родителей учеников выясняют у тех, кто пришел на родительское собрание, и т. д. Различие между доступной и целевой выборками весьма условно. О доступной выборке можно говорить в тех случаях, когда отсутствует четкое описание изучаемой совокупности и исследователь не озабочен вопросом, кого именно представляют опрошенные им люди.

Особой разновидностью целевой выборки является выборка типичных единиц. В нее входят “типичные” представители совокупности. Например, типичный город и типичное село каждого региона, типичные представители разных социальных групп и т. д. Выбор типичных представителей проводится на основе экспертных оценок или с применением специальных математических методов. Но и эксперты, и мат. методы опираются на имеющуюся информацию о совокупности, которая либо получена в предыдущих исследованиях, либо основана на данных статистики. Будут ли типичные по этим данным элементы оставаться типичными для вновь изучаемых параметров, еще большой вопрос.

Выборка методом “снежного кома” служит еще одной разновидностью целевой выборки. Она применяется тогда, когда представителей изучаемой совокупности трудно отобрать другими методами. Трудности возникают либо из-за малочисленности самой совокупности, либо из-за сложности выявления тех, кто в нее входит. Вот несколько примеров таких совокупностей: эксперты в некоторой области (по демографическим проблемам, по утилизации ядерных отходов), представители сексуальных меньшинств, люди определенной национальности (грузины, евреи, китайцы), люди с очень высоким уровнем доходов. Метод получения выборки основан на том, что почти каждый представитель целевой группы может назвать еще одного или нескольких человек, которые в эту группу входят. Поэтому сначала интервьюеры любыми методами ищут первых респондентов, часто среди своих знакомых, а те, в свою очередь, подсказывают, кого еще можно опросить. В результате число опрошенных растет, как снежный ком.

Мы уже отмечали, что неслучайные выборки применяются на практике гораздо чаще, чем случайные. Это связано с тем, что они, как правило, проще и дешевле. Преимущество неслучайных типов выборки особенно сильно проявляется при исследовании малочисленных и трудно выделяемых целевых групп. Хотя и для таких групп можно применять случайные методы отбора.

Общей чертой всех неслучайных выборок является то, что состав отбираемых респондентов существенно зависит от пристрастий и предпочтений отдельных людей. Решение о том, кто именно будет опрошен, принимают либо исследователи (выборка типичных единиц), либо интервьюеры в рамках заданных исследователем ограничений (квотная, целевая и доступная выборки), либо сами респонденты (выборка добровольцев и “снежный ком”). Пристрастия и предпочтения людей обычно вносят в выборку неслучайные искажения. Интервьюеры вольно или невольно отбирают более симпатичных и приятных для себя респондентов, избегая людей угрюмых, озлобленных, неопрятно одетых. Исследователи при отборе типичных представителей руководствуются своими научными гипотезами, для проверки которых как раз и проводится опрос. О существенных различиях между добровольными участниками опросов и остальными людьми уже говорилось раньше.

Искажения, возникающие из-за влияния неслучайных факторов отбора, могут иметь хаотический характер и в значительной степени компенсировать друг друга. Но иногда они направлены в одну и ту же сторону, их влияние складывается. В этом случае возникают систематические смещения.

Не нашли, что искали? Воспользуйтесь поиском по сайту: