Надежность измерения социальных характеристик
Описанные выше способы построения шкал не дают полного представления о свойствах полученных оценок. Для этого необходимы дополнительные процедуры, результаты которых будем описывать в терминах ошибок измерения. Назовем это проблемой надежности измерения. Рассмотрим ее решение на пути выявления правильности измерения, его устойчивости и обоснованности.
Компоненты надежного измерения. При изучении правильности устанавливается общая приемлемость данного способа измерения. Непосредственно понятие правильности связано с возможностью учета в результате измерения различного рода систематических ошибок. Систематические ошибки имеют некоторую стабильную природу возникновения: либо они являются постоянными, либо меняются по определенному закону.
Устойчивость характеризует степень совпадения результатов измерения при повторных применениях измерительной процедуры и описывается величиной случайной ошибки. Наиболее сложный вопрос надежности измерения — его обоснованность. Обоснованность связана с доказательством того, что измерено вполне определенное заданное свойство объекта, а пе некоторое другое, более или менее на пего похожее.
При установлении надежности следует иметь в виду, что в процессе измерения участвуют три составляющие: объект измерения, измеряющие средства, с помощью которых производится отображение свойств объекта на числовую систему, и субъект, производящий измерение. Предпосылки надежного измерения кроются в каждой отдельной составляющей.
Прежде всего сам объект в отношении измеряемого свойства может обладать значительной степенью неопределенности. Так, зачастую у индивида нет четкой иерархии жизненных ценностей, а следовательно, нельзя получить и абсолютно точные данные, характеризующие важность для него тех или иных явлепий.
Но может быть и так, что способ получения оценки не обеспечивает максимально точных значений измеряемого свойства. Например, у респондента существует определенная иерархия ценностей, а для получения информации используется поминальная оценка с вариациями ответов от «очень важпо» до «совсем неважно». Как правило, из приведенного набора все ценности помечаются ответами «очень важно», «важно», хотя реально у респондента имеется большее число уровней значимости,
25!
Наконец, при паличии высокой точпости первых двух составляющих измерения субъект, производящий измерение, допускает грубые ошибки. Например, в процессе клинического интервью, в ходе которого должна быть выявлена система ценностей опрашиваемого, интервьюер не смог довести до респондента суть беседы,. не смог добиться доброжелательного отношения к исследованию и пр.
Каждая составляющая процесса измерения может быть источником ошибки, связанной либо с устойчивостью, либо с правильностью, либо с обоснованностью. Однако, как правило, исследователь не в состоянии разделить эти ошибки по источникам их происхождения и поэтому изучает ошибки устойчивости, правильности и обоснованности всего измерительного комплекса в совокупности. При этом правильность (как отсутствие систематических ошибок) и устойчивость информации — элементарные предпосылки надежности. Наличие существенной ошибки в -этом отношении уже сводит на нет проверку данных измерения на обоснованность.
В отличие от правильности и устойчивости, которые могут быть измерены достаточно строго и выражены в форме числового показателя, критерии обоснованности определяются либо на основе логических рассуждений, либо на основе косвенных показателей. В смежных с социологией науках, например в психологии, проблема обоснованности теста решается путем сопоставления его результатов с результатами внешнего критерия — с известной группой или с данными реального поведения. В социологии такой прием, как правило, не удается использовать, поэтому обычно применяется сравнение данных одной методики с данными других методик или исследований, т. е. обоснованность устанавливается более косвенным путем. При этом, разумеется, не обязательно до-бив.аться полного соответствия результатов. Достаточным будет установление общих тенденций, что зависит и от соотносительной значимости самих критериев, и от их функции в общем замысле исследования.
Правильность измерения — выявление систематических ошибок. Прежде чем приступать к изучению таких компонентов надежности, как устойчивость и обоснованность, необходимо убедиться в правильности выбранного инструмента измерения (шкалы или системы шкал).
Возможно, что последующие этапы окажутся излишними, если в самом начале выяснится полная неспособность данного инструмента на требуемом уровне дифференцировать изучаемую совокупность, или может оказаться, что систематически не используется какая-то часть шкалы или ее отдельная градация. Прежде всего» нужно ликвидировать или уменьшить такого рода недостатки шкалы и только затем использовать ее в исследовании.
Отсутствие разброса ответов по значениям шкалы. Попадание ответов в один пункт свидетельствует о полной непригодности измерительного инструмента — шкалы. Такая ситуация может возникнуть или из-за «нормативного» давления в сторону общепри-
пятого мнения, или из-за того, что градации (значения) шкалы п& имеют отношения к определению данного свойства у рассматриваемых объектов (нерелевантны).
Например, если все опрашиваемые респонденты согласны с утверждением «хорошо, когда работа или задание требуют универсальных знаний», нет ни одного ответа «не согласен», остается только зафиксировать этот факт, однако подобная шкала не поможет дифференцировать изучаемую совокупность по отношению респондентов к работе.
Часто примером перелевантности являются многие исходпые шкалы методики семантического дифференциала Осгуда. Так, в частности, при изучении установок инженера в работе измерения респондентов по шкалам «мужской—женский», «горячий—холодный» и др. давали оценку только в середине шкалы, в нейтральной точке. Уточнение позволило сделать вывод, что эти шкалы, по мнению респондентов, не имеют отношения к изучаемым установкам.
Использование части шкалы. Довольно часто обнаруживается, что практически работает лишь какая-то часть шкалы, какой-то один из ее полюсов с прилегающей более или менее обширной зоной.
Так, если респондентам для оценки предлагается шкала, имеющая Положительный и отрицательный полюса, в частности от +3 до —3, то при оценивании какой-то заведомо положительной ситуации респонденты не используют отрицательные оценки, а дифференцируют свое мнепие лишь с помощью положительных. Для того чтобы вычислить значение относительной ошибки измерения, исследователь должен знать определенно, какой же метрикой пользуется респондент — всеми семью градациями шкалы или только четырьмя положительными. Так, ошибка измерения в 1 балл мало о чем говорит, если мы не знаем, какова действительная вариация мнений.
Пример13. Девятнадцати испытуемым было предложено высказать отношение к трем понятиям по семи шкалам к каждому. Шкалы имели по 21 градации с крайними полюсами +10 и —10 и средней точкой 0. В целом получено 399 (19 -3-7) оценок со следующим распределением:
Балл /а.\ 10 9 8 7654 3210—1... —3-4 , , . —6—7 , , . — 1»
Частота /лД 145 33 30 37 25 24 25 10 12 8 39 3 3 5
Поскольку значения а,- < 0 использовались всего лишь 11 раз (3 + 3 + 5) из 399,. т. е. в 2,8% случаев, то возникает вопрос, действует ли отрицательная часть этой шкалы. Возможно, что попадание в эту часть шкалы — явление чисто случайное. Проверим предположение.
Будем считать, что если вероятность р попадания в конец шкалы не превышает 5% при достаточно малом уровне значимости (а =»
13 Все примеры взяты из исследовательского проекта «Ценностные ориента-тации». Руководитель В. А. Ядов.
= 0,05 или о^=0,01), то наблюдаемые попадания ответов являются случайными и соответствующая часть шкалы «пе работает». Для этого границы доверительного интервала, построенного по имеющейся частоте для вероятности попадания в конец шкалы, сравним «о значением 5%. Если значение 5% оказывается выше границ «того интервала, то следует признать, что проверяемая часть шкалы «не работает».
Для расчета границ доверительного интервала воспользуемся ■формулами u
mn + -j- Z\a -Zia ]/m (1 - m) n + -j-Z^
"+/i!______________________ (1)
_ mn + -\- Z\a+Zia у m (1 - m) n + -j- Z^
Здесь m — доля попаданий в проверяемую часть шкалы; п — •объем выборочной совокупности данных; Z — коэффициент доверия, соответствующий 2а (о доверительном оценивании см. с. 211).
Для рассматриваемого примера та — 0,0276; га — 399; Za = l,9G для а = 0,05. Подставляя эти значения в формулы, получим pt = = 0,016, />2 = 0,049. То же самое в процентах: pt = 1,6%; р2 = 4,9%. Поскольку значение 5% не принадлежит интервалу (1,6%; 4,9%), то считаем, что отрицательная часть шкалы (а(<0) «не работает», •следовательно, 21-балльная оценка функционирует лишь в области ют +10 до 0.
Для вопросов, имеющих качественные градации ответов, можно применять подобное требование в отношении каждого пункта шкалы: каждый из них должен набирать не менее 5% ответов, в противном случае считаем этот пункт шкалы неработающим.
Требование 5%-го уровня наполнения в двух рассмотренных задачах не следует рассматривать как строго обязательное; в зависимости от задач исследования могут быть выдвинуты большие или меньшие значения этих уровней.
Неравномерное использование отдельных пунктов шкалы. Случается, особенно при использовании упорядоченных шкал, градации которых сопровождаются словесными описаниями, что некоторое значение переменной (признака) систематически выпадает из поля зрения респондентов, хотя соседние градации, характеризующие более низкую и более высокую степень выраженности признака, имеют существенное паполнепие.
Так, если конфигурация распределения ответов на вопрос с четырьмя упорядоченными градациями такая, как на рис. 14, то, видимо, шкала неудачно сформулирована. Значительное наполненио
14 Формулы для оцепки границ доверительного интервала можпо найти в кв.; Варден Ван дер. Математическая статистика. М., I960, с. 46,
T
двух соседпих пунктов (1 и 3) свиде- I I
тельствует о «захвате» части голосов ___„
из плохо сформулированного пункта 2. /УУ//
Аналогичная картина наблюдается 6 'У//'
и в том случае, когда респонденту | v>% %%
предлагают шкалу, имеющую слишком »g уу/\ %/ у//Л большую дробность: будучи не в со- ^% Ул//У///
стоянии оперировать всеми градация- У/У/ ,,,, у/У/ уУ/.
ми шкалы, респондент выбирает лишь ранг градации
несколько базовых. Например, зачастую
десятибалльную шкалу респонденты рис. 14. Пример неравномер-расценивают как некоторую модифи- ного распределения ответов по нацию пятибалльной, предполагая, что шкале «десять» соответствует «пяти», «восемь» — «четырем», «пять» — «трем» и т. д. При этом базовые оценки используются значительно чаще, чем другие.
Для выявления указанных аномалий равномерного распределения по шкале можно предложить следующее правило: для достаточно большой доверительной вероятности (1 — а > 0,99) и, следовательно, в достаточно широких границах наполнение каждого значения не должно существенно отличаться от среднего из соседних наполнений.
Соответствующий статистический критерий таков:
(ni + Zi)(2n-ni-ni) '
Эта величипа имеет хи-квадрат распределение с одной степенью свободы (dj = 1).
Здесь i — номер значения признака, который подвергается анализу; nt — наблюдаемая частота для этого значения;
Ш = ■*~1 »—— — ожидаемая частота, как средняя из двух соседних,
Пример. Рассмотрим случай измерения в десятибалльной шкале ряда ценностей типа «любимая работа», «материальный достаток», «здоровье» и т. д. При 45 испытуемых и 14 предложенных ценностях получепы 623 оценки, распределение которых выглядит так
Д{ iO 987654321 _ у _ fi2q
п{ 167 67 90 60 45 81 33 35 28 17 ^ * '
Поскольку предполагается, что шкала должна «работать» равномерно, то, возможно, пункты шкалы 9, 7, 5 не удовлетворяют этому требованию.
Для оценки at = 9 наблюдаемая частота п, — 67, ожидаемая —
и _ 167 + 90 _4оо г
Подставим данные значения в формулу у? и получим расчетпую ■величину х1 = 22,93. Поскольку у,2 = 22,93 > tip = 6,63 (а = 0,01), то следует признать различие между наблюдаемой и ожидаемой частотами значимым. Следовательно, частота 67 для оценки а <= 9 слишком мала по сравнению с соседними.
Аналогичные расчеты проводятся для пунктов шкалы а = 7 и а = 5; частота пункта 7 (п7 = 60) не противоречит выдвинутому требованию равномерности; частота оценки 5 (га5 — 81) слишком велика по сравнению с соседними и, таким образом, противоречит требованию равномерности.
Определение грубых ошибок. В процессе измерения иногда возникают грубые ошибки, причиной которых могут быть неправильные записи исходных данных, плохие расчеты, неквалифицированное использование измерительных средств и т. п. Это проявляется в том, что в рядах измерений попадаются данные, резко отличающиеся от совокупности всех остальных значений. Чтобы выяснить, нужно ли эти значения признать грубыми ошибками, устанавливают критическую границу так, чтобы вероятность превышения ее крайними значениями была достаточно малой и соответствовала некоторому уровню значимости а. Это правило основано на том, что появление в выборке чрезмерно больших значений хотя и возможно как следствие естественной вариабельности значений, но маловероятно.
Если окажетбя, что какие-то крайние значения совокупности принадлежат ей с очень малой вероятностью, то такие значения признаются грубыми ошибками и исключаются из дальнейшего рас--смотрения. Выявление грубых ошибок особенно важно проводить для выборок малых объемов: не будучи исключенными из анализа, они существенно искажают параметры выборки.
Статистический критерий т определения грубых ошибок таков (т>т„р, где в качестве т выступает либо Xmai, либо тти)1|У;
_ дтах ~х. _ х ~ ут1п ,9v
Ттах------------------ ~ < Tmin — - . \6)
Здесь xmin и хтах являются крайними членами некоторой совокупности значений {х).
В табл. XII, приводимой В. 10. Урбахом ", даны критические ■значения т, соответствующие различным объемам выборки для доверительных уровней: а = 0,05 и а = 0,01.
Например, при выборке в 50 единиц значение т для уровня ■а = 0,05 будет 3,16.
Если т расчетное окажется больше т критического, то соответствующее х считается маловероятным и отбрасывается как грубая ошибка.
Пример.Представим; что получены распределения по признаку -с такими выборочными параметрами: х = 0,012; s = 0,160 (при объ-
15 Урбах Ю. В. Биометрические методы. М., 1964, с. 284. 1(1 Там же, табл. XII.
.256
еме выборки п = 29 респондентов). В этом распределении крайними значениями оказались такие: хшщ = —0,500; хты ■= 0,250. Существенное подозрение вызывает значение, равное —0,500, поскольку среднее значение этого признака близко к 0 (0,012), а вариация его значений невелика U = 0,160).
0,012-(-0,500) о 2Q 29,.
0.250 — 0,012 wq^-oq/ Tmai = ----- o^gQ1-------- = 1,49 < 2,94.
Так как для п = 29 и а = 0,05 т„р = 2,94, то с вероятностью 0,95 можно признать, что значение признака х = —0,500 слишком мало для данной совокупности и поэтому является грубой ошибкой, а х = 0,250 не относится к резко выделяющимся значениям.
Итак, дифференцирующая способность шкалы как первая существенная характеристика ее надежности предполагает: обеспечение достаточного разброса данных, выявление фактического использования респондентом предложенной протяженности шкалы; анализ отдельных «выпадающих» значений, исключение грубых ошибок. После того как установлена относительная приемлемость используемых шкал в указанных аспектах, следует переходить к выявлению устойчивости измерения по этой шкале.
Устойчивость измерения. О высокой надежности шкалы можно говорить лишь в том случае, если повторные измерения при ее помощи одних и тех же объектов дают сходные результаты. Устойчивость проверяется на одной и той же выборке исследуемых объектов (респондентов). Сравнение же средних оценок разных выборок ничего не говорит об устойчивости измерения как таковом, а только лишь о репрезентативности выборок и их соответствии одной и той же совокупности. Обычно устойчивость проверяют проведением двух последовательных замеров с определенным временным интервалом — таким, чтобы этот промежуток не был слишком велик, чтобы сказалось изменение самого объекта, но не слишком лгал, чтобы респондент мог по памяти «подтягивать» данные второго замера к предыдущему (т. е. его протяженность зависит от объекта изучения и колеблется от двух до трех недель).
Осуществление более двух измерений связано с трудностями организации эксперимента и накапливанием ошибок другой природы, не связанпой с устойчивостью.
Пусть х — изучаемый на устойчивость признак, а отдельные его значения — х,, хг, х„ ,.., хк. Каждый респондент I (.1 = 1, ..., п) и при первом и при втором опросах получает некоторую оценку по изучаемому признаку — х) и х}1 соответственно.
Результаты двух опросов п респондентов заносятся в таблицу сопряженности (табл. 30), которая служит основой для дальнейшего изучения вопросов устойчивости.
Здесь пц — число респондентов, выбравших в первом опросе ответ Xi и заменивших его при втором опросе на ответ Xj.
Существует традиция изучать устойчивость с помощью анализа корреляций между ответами проб J и II. Однако этот подход недостаточно эффективен, поскольку не учитывает многих аспектов устойчивости.
Таблица 30
Опрос И ' j
Опрос т т~. | ~ i : I
I
| .
rl "()••• "У--- "iA nh
xh "hi--- "k--- nhh "ft.
"j1 «.,... n.j.-. ™.A j n
Остановимся на более результативных показателях.
1. Показателем абсолютной устойчивости шкалы назовем вели-мину, показывающую долю совпадающих ответов в последовательных пробах k
W = <-^1"° = яп+"«+•••+"*» (ГЛ
п п '
Этот показатель использует не всю информацию, содержащуюся в соотношении ответов проб I и II, а базируется лишь па" частотах совпадающих ответов. Однако он хорош, например, для характеристики устойчивости качественных признаков.
Для описания устойчивости количественных признаков его недостаточно, поскольку при большом числе градаций доля совпадающих ответов будет чрезвычайно мала и значение W мало информативно. Здесь пригодны показатели неустойчивости, т. е. величины ошибки, учитывающие не просто факт несовпадения ответов, а степень этого несовпадения. Ошибки рассчитываются по крайней мере для порядковых признаков.
Линейной мерой несовпадения оценок является средняя арифметическая ошибка, показывающая средний сдвиг в ответах в расчете на одну пару последовательных наблюдений:
|д|=4-21*"-*'1' (4)
г=1
Здесь х1 и х11 — ответы ио анализируемому вопросу £-го респондента в I и II пробах соответственно.
Пример.Пусть ответы па вопрос в пятибалльной шкале для выборки 50 человек распределились, как в табл. 31.
Таким образом, в I пробе оценку «1» дали 9 респондентов, из них только трое повторили ее в пробе II, пятеро отметили «2», один дал оценку «3» и т. д.
Таблица 31. Распределение ответов в двух пробах
Проба II
Проба I i i ! Сумма
1 I 2 | 3 I 4 5
13 5 1 — — 9
2-31 1-5
3 — 7 6 2 2 17
4 1 3 4 6 1 15 5-1-12 4
2- 4 19 12 10 5 50
Ошибка такого соотношения ответов:
I Д | = 3|1-1|+5-11-2| + 1-|*-3|+... + 2[5-5| = «. в о>82>
Данный показатель использует всю информацию, содержащуюся в распределении, хорошо интерпретируется как средний сдвиг в ответах одного респондента, однако имеет определенные ограничения аналитического характера и поэтому обычно редко используется в статистических расчетах.
Средняя квадратическая ошибка для последовательных данных " в расчете на одну пару наблюдений выглядит так:
*.-"/■£ 2 («"-«О*- (5)
Для данных табл. 31 эта ошибка будет равна
£* = >^щ(3.02 + 5.12 + 1.22+... + 1-12 + 2.02) = 0,82.
(совпадение Sx и |Д| в этом примере чисто случайное).
До сих пор речь шла об абсолютных ошибках, размер которых выражался в тех же единицах, что и сама измеряемая величина, например 0,82 балла в пятибалльной шкале. Это не позволяет сравнивать ошибки измерения разных признаков по разным шкалам. Следовательно, помимо абсолютных, нужны относительные показатели ошибок измерения.
В качестве показателя для нормирования абсолютной ошибки можно использовать максимально возможную ошибку в рассматриваемой ШКале (Amai).
17 Линник Ю. В. Метод наименьших квадратов и основы теории обработки наблюдений. М., 1962, с. 114.
2 59
Если число делений шкалы к, тогда Дга„ равио разнице между крайними значениями шкалы (хтя1 — хт\п), т. е. к — 1, и относительная ошибка имеет вид
Л - JAL- 1Д1
атах * — 1
(здесь |Д| — средняя арифметическая ошибка измерения).
Однако зачастую этот показатель «плохо работает» из-за того, что шкала не используется на всей ее протяженности. Поэтому более показательными являются относительные ошибки, рассчитанные по фактически используемой части шкалы, как было рассмотрено выше. Если число градаций в «работающей» части шкалы обозначить к', то тогда более надежной будет такая оценка ошибки:
д' - 1Д1 - JAL (6\
Лотн--^7 k,_v \V>
"max
Если в качестве абсолютной ошибки использовалась средняя квадратическая ошибка S, то показатель относительной ошибки
«JOTH — ■ £/ ____ j . (')
Пример.Допустим, что шкала имеет 7 градаций. При определении «работающей» части этой шкалы анализируется распределение полученных в I пробе оценок:
Оценка 12 3 4 5 6 7
Частота 233 106 59 78 4 6 1 2 = 487
i=i
Здесь на оценки «5», «6», «7» приходится лишь 11 наблюдений, т. е. 2,26%. Проверка согласно критерию (формула (1)) устанавливает, что эта часть шкалы «не работает», т. е,-используются лишь градации 1, 2, 3, 4, поэтому Дта1 = 4—1 = 3. На основании соотношения ответов в I и II пробах находим сдвиги в ответах (ошибки). Распределение ошибок по этой шкале оказалось следующим:
Значение ошибки —4—3—2—1 0 1 2 3
а
Частота 3 14 19 54 284 88 15 10 2 ==487
t=i
Таким образом, |Д I = 0,60 и относительная ошибка А0Тн = '3 ~ = 0,20, или 20%, и Аотн = i'_a — 0,10 — явно завышенная точность
измерения. Однако оценка по к' также является довольно грубой и не использует всю информацию, содержащуюся в ответах I пробы, ведь реально не все оценки могут дать максимальный сдвиг, а только крайние на шкале.
Оценим для приведенного распределения максимальный сдвиг по реально работающей части шкалы: только крайние значения. (233, 78+11) могут дать сдвиг в 3 балла, 106 и 59 ответов могут
дать максимальный сдвиг в 2 балла. Таким образом, возможный едвиг для данного исходного распределения может быть равен-средней в 2,6 балла четырехбалльной шкалы, т. е. фактическая
ошибка еще больше: 2' -= 0,23.
Повышение устойчивости измерения. Для решения этой задачи необходимо выяснить различительные возможности пунктов иополь-зуемой шкалы, что предполагает четкую фиксацию респондентами отдельных значений: каждая оценка должна быть строго отделена от соседней. На практике это означает, что в последовательных пробах респонденты практически повторяют свои оценки. Следовательно, высокой различимости, делений шкалы должна соответствовать малая ошибка.
Эту же задачу можно описать в терминах чувствительности шкалы, которая характеризуется количеством делений, приходящихся па одну и ту же разность в значениях измеряемой величины, т. е. чем больше градаций в шкале, тем больше ее чувствительность. Однако чувствительность нельзя повышать простым увеличением дробности, ибо высокая чувствительность при низкой устойчивости является излишней (например, шкала в 100 баллов, а ошибка измерения ±10 баллов).
Но и при малом числе градаций, т. е. при низкой чувствительности, может быть низкая устойчивость, и тогда следует увеличить дробность шкалы. Так бывает, когда респонденту навязывают категорические ответы «да», «нет», а он предпочел бы менее жесткие оценки. И потому он выбирает в повторных испытаниях иногда «да», иногда «нет» для характеристики своего нейтрального положения.
Итак, следует найти некоторое оптимальное соотношение между чувствительностью и устойчивостью. Введем правило: использовать столько градаций в шкале, чтобы ее ошибка была меньше 0,5 балла.
Если ошибка меньше 0,5 балла, то в последовательных опросах ответы в среднем будут совпадать. При |Д I 5s 0,5 балла ответы в последовательных опросах будут в среднем отличаться на 1 балл (и выше).
Существуют способы, позволяющие добиться требуемой чувствительности.
Пример. В исследовании каждый испытуемый дает 8 оценок некоторым профессиональным качествам инженеров. Значение оценок варьирует от +3 до —3. Проведено два измерения. Рассмотрим суммарное распределение оценок по четырем качествам (самостоятельность, творчество, инициативность, опытность), данных тринадцати респондентов (табл. 32).
Всего в табл 32 представлено 416 пар наблюдений: 13 респондентов X 8 оценок X 4 качества. Из них в первой пробе 226 оценок имели значение «3»; во второй пробе из них только 170 были повторены, 47 оценок получили значение «2», 6 оценок — значение «1» и 3 оценки — значение «О».
Таблица 32. Распределение ответов в двух пробах
__^______ Проба х1__________________ V и о
ПР°Са" 3 1 2 | 1 | 0 |-l|-l|-8|' " Xi ^ <>i+i
3 170 47 6 3 226 2,70 0,3383 |ЗТО1|
2 51 31 7 1 90 2,47 0,4547 1,96
1 39 22 7 5 1 74 2,18 1,3962 |з,39|
0 3 3 6 3 11 17 1,06 1,8175 1^5
—12 1 3 2,67 0,2044
—2 2 11 4 0,25 0,6875
—3 1 1________ 2 —1,50 0,2500_______
". = 2 nU 265 104 W 8 8 3 ° 416 2М
Таким образом, для исходной оценки «3» средняя оценка во второй пробе стала равной
_и 170-3 + 47-2 + 6-1 „7П
#а=з =-------------- 221------------ = ' Д*
На основании этого соотношения оценок получим распределение ошибок:
Значения ошибок —3 —2 —10 12 3 4
Частоты ошибок 4 13 55 211 81 44 6 ^ 2=41S
Рассчитаем среднюю арифметическую ошибку ГД 1=0,69.
Поскольку |Д| >0,5, ищем неразличающиеся градации.
Средние оценки по каждой строке сравниваем с помощью критерия Стыодента. Если окажется, что х, и xi+, отличаются незначимо (t < („рит), то далее пужно сравнивать х{ в х<+1 и т. д. до значимого отличия средних U(| (+1 записаны в последнем столбце табл. 32, а значимые значения выделены).
Таким образом, оценки «3» и «2» отличаются между собой существенно, поскольку критерий Стьюдента фиксирует значимое различие между 2,70 и 2,47; оценки «2» и «1» несущественно отличаются друг от друга и т. д. Представим результаты сравнения исходных оценок при помощи схемы разбиения совокупности оценок на классы эквивалентности:
Т | 2 1 I II Hi ~2 ИэГ[
Здесь все оценки попадают в три непересекающихся класса: оценка «3» отличается от «2»; «2» и «1» не отличаются друг от друга, но отличаются от соседних оценок; последние четыре значения взаимно неразличимы.
Следовательно, респонденты различают лишь три уровня вместо семи предложенных, и шкала должна быть преобразована в трехбалльную, где высокой оценке соответствует исходная оценка
в 3 балла, средней — 2 и 1 балл; низкой — 0, —1, —2, —3. При своим описанным уровням новые баллы — соответственно 3, 2, 1
В итоге имеем следующее соотношение оценок (табл. 33).
Это распределение характеризуется ошибкой |Д 1=0,43 балла т. е. уже меньше 0,5 градации, и потому такая шкала устойчива Таблица 33. Итоговое распределение оценок
Проба II
Проба I -------------- i j 2
__________ 3 I 2 I 1_________
3 170 53 3 226 2 90 67 7 164
1 5 12 9 26
2 265 132 19 416
В общем случае возможны два варианта соотношения исходных оценок: 1) классы неразличимости оценок не пересекаются (например, как это было в только что рассмотренном случае):
Т| I 2 3 I 4 5 6 7
2) классы неразличимости оценок пересекаются, например, так!
/ 2 3 '4 5 6 7
В первом случае можно подобрать для шкалы числовую серию, т. е. упорядоченный ряд чисел, в котором большее число характеризует более высокий уровень качества.
Во втором случае имеется полуупорядоченная система оценок, н ее можно отобразить лишь на полуупорядоченную числовую си стему. В рассматриваемом примере возможно, в частности, такое числовое представление: ь
1 1 ~Т\ Ч 5 6 7
\° V/lWx S'/j W^/g\ I I I I III
Там, где между исходными оценками пет существенного различия, разница между значениями числового представления (нижний ряд чисел) меньше 1; при значимом различии разница больше 1.
Однако часто желательно иметь преобразованные оценки, выраженные целыми числами. В таком случае можно предложить следующую систему понижения дробности шкалы; ближайшим исход-
ным значениям, существенно отличающимся друг от друга, присваивают ранги последовательна I, II, III и т, д. В рассматриваемом примере это будет выглядеть так:
1 DlZI v 5 Г^~~^~1 i i i i tit
\i \ \ir\ ш \ \лг\ I I I I III
Для промежуточных значений, несущественно отличающихся от соседних (например, исходную оценку «2» можно отнести в любые классы — ив I, и во II), следует предложить дополнительные критерии отнесения их в один из двух соседних классов. Можно в качестве критерия использовать меру относительной близости промежуточной оценки к тому или иному соседнему классу и путем перебора всех возможных схем объединения искать схему с наименьшей ошибкой.
В конечном итоге порядок действия может быть таким. На основе данных двух последовательных проб определяем пороги раз-личаемости градаций шкалы. В том случае, если обнаружено смешение градаций, применяют один из двух способов.
Первый способ. В итоговом варианте уменьшают дробность шкалы (например, из шкалы в 7 интервалов нереходят на шкалу в 3 интервала).
Второй способ. Для предъявления респонденту сохраняют прежнюю дробность шкалы и только при обработке укрупняют соответствующие ее пункты (как это было показано выше).
Второй способ кажется предпочтительнее, поскольку, как правило, большая дробность шкалы побуждает респондента и к более активной реакции. При обработке данных информацию следует перекодировать в соответствии с проведенным анализом различительной способности исходной шкалы.
Итак, предложенные способы анализа целесообразны при отработке окончательного варианта методики. Анализ устойчивости отдельных вопросов шкалы позволяет: а) выявить плохо сформулированные вопросы, их неадекватное понимание разными респондентами; б) уточнить интерпретацию шкалы, предложенной для оценки того или иного явления, выявить более оптимальный вариант дробности значения шкалы.
Изучение устойчивости окончательного варианта методики даст представление о надежности данных (связанной с устойчивостью), которые будут получены в основном исследовании.
Обоснованность измерения.Проверка обоснованности шкалы предпринимается лишь после того, как установлены достаточные правильность и устойчивость измерения исходных данных. Как уже отмечалось, проверка обоснованности — достаточно сложный процесс и, как правило, не до конца разрешимый. И поэтому нецеле-
сообразно сначала применять трудоемкую технику для выявления обоснованности, а после этого убеждаться в неприемлемости данных вследствие их низкой устойчивости.
Обоснованность данных измерения — это доказательство соответствия между тем, что измерено, и тем, что должно было быть измерено. Некоторые исследователи предпочитают исходить из так называемой наличной обоснованности, т. е. обоснованности в понятиях использованной процедуры. Например, считают, что удовлетворенность работой — это то свойство, которое содержится в ответах на вопрос: «Удовлетворены ли Вы работой?» В серьезном социологическом исследовании, имеющем целью проверку некоторых теоретических гипотез, такой сугубо эмпирический подход неприемлем.
Остановимся ва возможных формальных подходах к выяснению уровня обоснованности методики. Их можно разделить на три группы: 1) конструирование типологии в соответствии с целями исследования на базе нескольких признаков; 2) использование параллельных данных; 3) судейские процедуры.
Первый вариант нельзя считать формальным методом — это всего лишь некоторая схематизация логических рассуждений, начало процедуры обоснования, которая может быть на этом и закопчена, а может быть подкреплена более мощными средствами.
Второй, вариант требует использования по крайней мере двух источников для выявления одного и того же свойства. Обоснованность определяется степенью согласованности соответствующих данных.
В последнем случае мы полагаемся на компетентность судей, которым предлагается определить, измеряем ли мы нужное нам свойство или что-то иное.
Рассмотрим предложенные варианты последовательно.
Конструированная типология. Один из способов — использование контрольных вопросов, которые в совокупности с основными дают большее приближение к содержанию изучаемого свойства, раскрывая различные его стороны.
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|