Сделай Сам Свою Работу на 5

Надежность измерения социальных характеристик





Описанные выше способы построения шкал не дают полного представления о свойствах полученных оценок. Для этого необхо­димы дополнительные процедуры, результаты которых будем опи­сывать в терминах ошибок измерения. Назовем это проблемой на­дежности измерения. Рассмотрим ее решение на пути выявления правильности измерения, его устойчивости и обоснованности.

Компоненты надежного измерения. При изучении правильности устанавливается общая приемлемость данного способа измерения. Непосредственно понятие правильности связано с возможностью учета в результате измерения различного рода систематических оши­бок. Систематические ошибки имеют некоторую стабильную приро­ду возникновения: либо они являются постоянными, либо меняются по определенному закону.

Устойчивость характеризует степень совпадения результатов измерения при повторных применениях измерительной процедуры и описывается величиной случайной ошибки. Наиболее сложный вопрос надежности измерения — его обоснованность. Обоснованность связана с доказательством того, что измерено вполне определенное заданное свойство объекта, а пе некоторое другое, более или менее на пего похожее.



При установлении надежности следует иметь в виду, что в процессе измерения участвуют три составляющие: объект измере­ния, измеряющие средства, с помощью которых производится ото­бражение свойств объекта на числовую систему, и субъект, произ­водящий измерение. Предпосылки надежного измерения кроются в каждой отдельной составляющей.

Прежде всего сам объект в отношении измеряемого свойства может обладать значительной степенью неопределенности. Так, за­частую у индивида нет четкой иерархии жизненных ценностей, а следовательно, нельзя получить и абсолютно точные данные, ха­рактеризующие важность для него тех или иных явлепий.

Но может быть и так, что способ получения оценки не обеспе­чивает максимально точных значений измеряемого свойства. Напри­мер, у респондента существует определенная иерархия ценностей, а для получения информации используется поминальная оценка с вариациями ответов от «очень важпо» до «совсем неважно». Как правило, из приведенного набора все ценности помечаются ответами «очень важно», «важно», хотя реально у респондента имеется боль­шее число уровней значимости,



25!

Наконец, при паличии высокой точпости первых двух состав­ляющих измерения субъект, производящий измерение, допускает грубые ошибки. Например, в процессе клинического интервью, в хо­де которого должна быть выявлена система ценностей опрашивае­мого, интервьюер не смог довести до респондента суть беседы,. не смог добиться доброжелательного отношения к исследова­нию и пр.

Каждая составляющая процесса измерения может быть источ­ником ошибки, связанной либо с устойчивостью, либо с правиль­ностью, либо с обоснованностью. Однако, как правило, исследова­тель не в состоянии разделить эти ошибки по источникам их про­исхождения и поэтому изучает ошибки устойчивости, правильности и обоснованности всего измерительного комплекса в совокупности. При этом правильность (как отсутствие систематических ошибок) и устойчивость информации — элементарные предпосылки надеж­ности. Наличие существенной ошибки в -этом отношении уже сво­дит на нет проверку данных измерения на обоснованность.

В отличие от правильности и устойчивости, которые могут быть измерены достаточно строго и выражены в форме числового пока­зателя, критерии обоснованности определяются либо на основе ло­гических рассуждений, либо на основе косвенных показателей. В смежных с социологией науках, например в психологии, проб­лема обоснованности теста решается путем сопоставления его ре­зультатов с результатами внешнего критерия — с известной груп­пой или с данными реального поведения. В социологии такой при­ем, как правило, не удается использовать, поэтому обычно при­меняется сравнение данных одной методики с данными других методик или исследований, т. е. обоснованность устанавливается более косвенным путем. При этом, разумеется, не обязательно до-бив.аться полного соответствия результатов. Достаточным будет уста­новление общих тенденций, что зависит и от соотносительной зна­чимости самих критериев, и от их функции в общем замысле ис­следования.



Правильность измерения — выявление систематических ошибок. Прежде чем приступать к изучению таких компонентов надежно­сти, как устойчивость и обоснованность, необходимо убедиться в правильности выбранного инструмента измерения (шкалы или си­стемы шкал).

Возможно, что последующие этапы окажутся излишними, если в самом начале выяснится полная неспособность данного инстру­мента на требуемом уровне дифференцировать изучаемую совокуп­ность, или может оказаться, что систематически не используется какая-то часть шкалы или ее отдельная градация. Прежде всего» нужно ликвидировать или уменьшить такого рода недостатки шкалы и только затем использовать ее в исследовании.

Отсутствие разброса ответов по значениям шкалы. Попадание ответов в один пункт свидетельствует о полной непригодности из­мерительного инструмента — шкалы. Такая ситуация может воз­никнуть или из-за «нормативного» давления в сторону общепри-

пятого мнения, или из-за того, что градации (значения) шкалы п& имеют отношения к определению данного свойства у рассматривае­мых объектов (нерелевантны).

Например, если все опрашиваемые респонденты согласны с ут­верждением «хорошо, когда работа или задание требуют универ­сальных знаний», нет ни одного ответа «не согласен», остается только зафиксировать этот факт, однако подобная шкала не по­может дифференцировать изучаемую совокупность по отношению респондентов к работе.

Часто примером перелевантности являются многие исходпые шкалы методики семантического дифференциала Осгуда. Так, в ча­стности, при изучении установок инженера в работе измерения респондентов по шкалам «мужской—женский», «горячий—холод­ный» и др. давали оценку только в середине шкалы, в нейтральной точке. Уточнение позволило сделать вывод, что эти шкалы, по мне­нию респондентов, не имеют отношения к изучаемым установкам.

Использование части шкалы. Довольно часто обнаруживается, что практически работает лишь какая-то часть шкалы, какой-то один из ее полюсов с прилегающей более или менее обшир­ной зоной.

Так, если респондентам для оценки предлагается шкала, имею­щая Положительный и отрицательный полюса, в частности от +3 до —3, то при оценивании какой-то заведомо положительной ситуа­ции респонденты не используют отрицательные оценки, а диффе­ренцируют свое мнепие лишь с помощью положительных. Для того чтобы вычислить значение относительной ошибки измерения, ис­следователь должен знать определенно, какой же метрикой поль­зуется респондент — всеми семью градациями шкалы или только четырьмя положительными. Так, ошибка измерения в 1 балл мало о чем говорит, если мы не знаем, какова действительная вариация мнений.

Пример13. Девятнадцати испытуемым было предложено выска­зать отношение к трем понятиям по семи шкалам к каждому. Шкалы имели по 21 градации с крайними полюсами +10 и —10 и средней точкой 0. В целом получено 399 (19 -3-7) оценок со следующим распределением:

Балл /а.\ 10 9 8 7654 3210—1... —3-4 , , . —6—7 , , . — 1»

Частота /лД 145 33 30 37 25 24 25 10 12 8 39 3 3 5

Поскольку значения а,- < 0 использовались всего лишь 11 раз (3 + 3 + 5) из 399,. т. е. в 2,8% случаев, то возникает вопрос, дей­ствует ли отрицательная часть этой шкалы. Возможно, что попа­дание в эту часть шкалы — явление чисто случайное. Проверим предположение.

Будем считать, что если вероятность р попадания в конец шкалы не превышает 5% при достаточно малом уровне значимости (а =»

13 Все примеры взяты из исследовательского проекта «Ценностные ориента-тации». Руководитель В. А. Ядов.

= 0,05 или о^=0,01), то наблюдаемые попадания ответов являются случайными и соответствующая часть шкалы «пе работает». Для этого границы доверительного интервала, построенного по имею­щейся частоте для вероятности попадания в конец шкалы, сравним «о значением 5%. Если значение 5% оказывается выше границ «того интервала, то следует признать, что проверяемая часть шкалы «не работает».

Для расчета границ доверительного интервала воспользуемся ■формулами u

mn + -j- Z\a -Zia ]/m (1 - m) n + -j-Z^

"+/i!______________________ (1)

_ mn + -\- Z\a+Zia у m (1 - m) n + -j- Z^

Здесь m — доля попаданий в проверяемую часть шкалы; п — •объем выборочной совокупности данных; Z — коэффициент доверия, соответствующий 2а (о доверительном оценивании см. с. 211).

Для рассматриваемого примера та — 0,0276; га — 399; Za = l,9G для а = 0,05. Подставляя эти значения в формулы, получим pt = = 0,016, />2 = 0,049. То же самое в процентах: pt = 1,6%; р2 = 4,9%. Поскольку значение 5% не принадлежит интервалу (1,6%; 4,9%), то считаем, что отрицательная часть шкалы (а(<0) «не работает», •следовательно, 21-балльная оценка функционирует лишь в области ют +10 до 0.

Для вопросов, имеющих качественные градации ответов, можно применять подобное требование в отношении каждого пункта шка­лы: каждый из них должен набирать не менее 5% ответов, в про­тивном случае считаем этот пункт шкалы неработающим.

Требование 5%-го уровня наполнения в двух рассмотренных задачах не следует рассматривать как строго обязательное; в за­висимости от задач исследования могут быть выдвинуты большие или меньшие значения этих уровней.

Неравномерное использование отдельных пунктов шкалы. Слу­чается, особенно при использовании упорядоченных шкал, града­ции которых сопровождаются словесными описаниями, что некото­рое значение переменной (признака) систематически выпадает из поля зрения респондентов, хотя соседние градации, характеризую­щие более низкую и более высокую степень выраженности при­знака, имеют существенное паполнепие.

Так, если конфигурация распределения ответов на вопрос с четырьмя упорядоченными градациями такая, как на рис. 14, то, видимо, шкала неудачно сформулирована. Значительное наполненио

14 Формулы для оцепки границ доверительного интервала можпо найти в кв.; Варден Ван дер. Математическая статистика. М., I960, с. 46,

T

двух соседпих пунктов (1 и 3) свиде- I I

тельствует о «захвате» части голосов ___„

из плохо сформулированного пункта 2. /УУ//

Аналогичная картина наблюдается 6 'У//'

и в том случае, когда респонденту | v>% %%

предлагают шкалу, имеющую слишком »g уу/\ %/ у//Л
большую дробность: будучи не в со- ^% Ул//У///

стоянии оперировать всеми градация- У/У/ ,,,, у/У/ уУ/.

ми шкалы, респондент выбирает лишь ранг градации

несколько базовых. Например, зачастую

десятибалльную шкалу респонденты рис. 14. Пример неравномер-расценивают как некоторую модифи- ного распределения ответов по нацию пятибалльной, предполагая, что шкале «десять» соответствует «пяти», «во­семь» — «четырем», «пять» — «трем» и т. д. При этом базовые оценки используются значительно чаще, чем другие.

Для выявления указанных аномалий равномерного распределе­ния по шкале можно предложить следующее правило: для достаточ­но большой доверительной вероятности (1 — а > 0,99) и, следова­тельно, в достаточно широких границах наполнение каждого зна­чения не должно существенно отличаться от среднего из соседних наполнений.

Соответствующий статистический критерий таков:

(ni + Zi)(2n-ni-ni) '

Эта величипа имеет хи-квадрат распределение с одной степенью свободы (dj = 1).

Здесь i — номер значения признака, который подвергается ана­лизу; nt — наблюдаемая частота для этого значения;

Ш = ■*~1 »—— — ожидаемая частота, как средняя из двух соседних,

Пример. Рассмотрим случай измерения в десятибалльной шкале ряда ценностей типа «любимая работа», «материальный достаток», «здоровье» и т. д. При 45 испытуемых и 14 предложенных ценно­стях получепы 623 оценки, распределение которых выглядит так

Д{ iO 987654321 _ у _ fi2q

п{ 167 67 90 60 45 81 33 35 28 17 ^ * '

Поскольку предполагается, что шкала должна «работать» равно­мерно, то, возможно, пункты шкалы 9, 7, 5 не удовлетворяют этому требованию.

Для оценки at = 9 наблюдаемая частота п, — 67, ожидаемая —

и _ 167 + 90 _4оо г

Подставим данные значения в формулу у? и получим расчетпую ■величину х1 = 22,93. Поскольку у,2 = 22,93 > tip = 6,63 (а = 0,01), то следует признать различие между наблюдаемой и ожидаемой частотами значимым. Следовательно, частота 67 для оценки а <= 9 слишком мала по сравнению с соседними.

Аналогичные расчеты проводятся для пунктов шкалы а = 7 и а = 5; частота пункта 7 (п7 = 60) не противоречит выдвинутому требованию равномерности; частота оценки 5 (га5 — 81) слишком велика по сравнению с соседними и, таким образом, противоречит требованию равномерности.

Определение грубых ошибок. В процессе измерения иногда воз­никают грубые ошибки, причиной которых могут быть неправиль­ные записи исходных данных, плохие расчеты, неквалифицирован­ное использование измерительных средств и т. п. Это проявляется в том, что в рядах измерений попадаются данные, резко отличаю­щиеся от совокупности всех остальных значений. Чтобы выяснить, нужно ли эти значения признать грубыми ошибками, устанавли­вают критическую границу так, чтобы вероятность превышения ее крайними значениями была достаточно малой и соответствовала не­которому уровню значимости а. Это правило основано на том, что появление в выборке чрезмерно больших значений хотя и возмож­но как следствие естественной вариабельности значений, но мало­вероятно.

Если окажетбя, что какие-то крайние значения совокупности принадлежат ей с очень малой вероятностью, то такие значения признаются грубыми ошибками и исключаются из дальнейшего рас--смотрения. Выявление грубых ошибок особенно важно проводить для выборок малых объемов: не будучи исключенными из анализа, они существенно искажают параметры выборки.

Статистический критерий т определения грубых ошибок таков (т>т„р, где в качестве т выступает либо Xmai, либо тти)1|У;

_ дтах ~х. _ х ~ ут1п ,9v

Ттах------------------ ~ < Tmin — - . \6)

Здесь xmin и хтах являются крайними членами некоторой совокуп­ности значений {х).

В табл. XII, приводимой В. 10. Урбахом ", даны критические ■значения т, соответствующие различным объемам выборки для до­верительных уровней: а = 0,05 и а = 0,01.

Например, при выборке в 50 единиц значение т для уровня ■а = 0,05 будет 3,16.

Если т расчетное окажется больше т критического, то соответ­ствующее х считается маловероятным и отбрасывается как грубая ошибка.

Пример.Представим; что получены распределения по признаку такими выборочными параметрами: х = 0,012; s = 0,160 (при объ-

15 Урбах Ю. В. Биометрические методы. М., 1964, с. 284. 1(1 Там же, табл. XII.

.256

еме выборки п = 29 респондентов). В этом распределении край­ними значениями оказались такие: хшщ = —0,500; хты ■= 0,250. Су­щественное подозрение вызывает значение, равное —0,500, посколь­ку среднее значение этого признака близко к 0 (0,012), а вариация его значений невелика U = 0,160).

0,012-(-0,500) о 2Q 29,.

0.250 — 0,012 wq^-oq/
Tmai = ----- o^gQ1-------- = 1,49 < 2,94.

Так как для п = 29 и а = 0,05 т„р = 2,94, то с вероятностью 0,95 можно признать, что значение признака х = —0,500 слишком мало для данной совокупности и поэтому является грубой ошибкой, а х = 0,250 не относится к резко выделяющимся значениям.

Итак, дифференцирующая способность шкалы как первая су­щественная характеристика ее надежности предполагает: обеспече­ние достаточного разброса данных, выявление фактического исполь­зования респондентом предложенной протяженности шкалы; ана­лиз отдельных «выпадающих» значений, исключение грубых оши­бок. После того как установлена относительная приемлемость ис­пользуемых шкал в указанных аспектах, следует переходить к вы­явлению устойчивости измерения по этой шкале.

Устойчивость измерения. О высокой надежности шкалы можно говорить лишь в том случае, если повторные измерения при ее помощи одних и тех же объектов дают сходные результаты. Устой­чивость проверяется на одной и той же выборке исследуемых объ­ектов (респондентов). Сравнение же средних оценок разных выборок ничего не говорит об устойчивости измерения как таковом, а толь­ко лишь о репрезентативности выборок и их соответствии одной и той же совокупности. Обычно устойчивость проверяют проведе­нием двух последовательных замеров с определенным временным интервалом — таким, чтобы этот промежуток не был слишком ве­лик, чтобы сказалось изменение самого объекта, но не слишком лгал, чтобы респондент мог по памяти «подтягивать» данные вто­рого замера к предыдущему (т. е. его протяженность зависит от объекта изучения и колеблется от двух до трех недель).

Осуществление более двух измерений связано с трудностями организации эксперимента и накапливанием ошибок другой при­роды, не связанпой с устойчивостью.

Пусть х — изучаемый на устойчивость признак, а отдельные его значения — х,, хг, х„ ,.., хк. Каждый респондент I (.1 = 1, ..., п) и при первом и при втором опросах получает некоторую оценку по изучаемому признаку — х) и х}1 соответственно.

Результаты двух опросов п респондентов заносятся в таблицу сопряженности (табл. 30), которая служит основой для дальней­шего изучения вопросов устойчивости.

Здесь пц — число респондентов, выбравших в первом опросе ответ Xi и заменивших его при втором опросе на ответ Xj.

Существует традиция изучать устойчивость с помощью анализа корреляций между ответами проб J и II. Однако этот подход не­достаточно эффективен, поскольку не учитывает многих аспектов устойчивости.

Таблица 30

Опрос И ' j

Опрос т т~. | ~ i : I

I

| .

rl "()••• "У--- "iA nh

xh "hi--- "k--- nhh "ft.

"j1 «.,... n.j.-. ™.A j n

Остановимся на более результативных показателях.

1. Показателем абсолютной устойчивости шкалы назовем вели-мину, показывающую долю совпадающих ответов в последователь­ных пробах k

W = <-^1 = яп+"«+•••+"*» Л

п п '

Этот показатель использует не всю информацию, содержащуюся в соотношении ответов проб I и II, а базируется лишь па" частотах совпадающих ответов. Однако он хорош, например, для характе­ристики устойчивости качественных признаков.

Для описания устойчивости количественных признаков его не­достаточно, поскольку при большом числе градаций доля совпада­ющих ответов будет чрезвычайно мала и значение W мало инфор­мативно. Здесь пригодны показатели неустойчивости, т. е. величи­ны ошибки, учитывающие не просто факт несовпадения ответов, а степень этого несовпадения. Ошибки рассчитываются по край­ней мере для порядковых признаков.

Линейной мерой несовпадения оценок является средняя ариф­метическая ошибка, показывающая средний сдвиг в ответах в рас­чете на одну пару последовательных наблюдений:

|д|=4-21*"-*'1' (4)

г=1

Здесь х1 и х11 — ответы ио анализируемому вопросу £-го рес­пондента в I и II пробах соответственно.

Пример.Пусть ответы па вопрос в пятибалльной шкале для выборки 50 человек распределились, как в табл. 31.

Таким образом, в I пробе оценку «1» дали 9 респондентов, из них только трое повторили ее в пробе II, пятеро отметили «2», один дал оценку «3» и т. д.

Таблица 31. Распределение ответов в двух пробах

Проба II

Проба I i i ! Сумма

1 I 2 | 3 I 4 5

13 5 1 — — 9

2-31 1-5

3 — 7 6 2 2 17

4 1 3 4 6 1 15
5-1-12 4

2- 4 19 12 10 5 50

Ошибка такого соотношения ответов:

I Д | = 3|1-1|+5-11-2| + 1-|*-3|+... + 2[5-5| = «. в о>82>

Данный показатель использует всю информацию, содержащуюся в распределении, хорошо интерпретируется как средний сдвиг в ответах одного респондента, однако имеет определенные ограниче­ния аналитического характера и поэтому обычно редко использу­ется в статистических расчетах.

Средняя квадратическая ошибка для последовательных дан­ных " в расчете на одну пару наблюдений выглядит так:

*.-"/■£ 2 («"-«О*- (5)

Для данных табл. 31 эта ошибка будет равна

£* = >^щ(3.02 + 5.12 + 1.22+... + 1-12 + 2.02) = 0,82.

(совпадение Sx и |Д| в этом примере чисто случайное).

До сих пор речь шла об абсолютных ошибках, размер которых выражался в тех же единицах, что и сама измеряемая величина, например 0,82 балла в пятибалльной шкале. Это не позволяет срав­нивать ошибки измерения разных признаков по разным шкалам. Следовательно, помимо абсолютных, нужны относительные показа­тели ошибок измерения.

В качестве показателя для нормирования абсолютной ошибки можно использовать максимально возможную ошибку в рассмат­риваемой ШКале (Amai).

17 Линник Ю. В. Метод наименьших квадратов и основы теории обработки наблюдений. М., 1962, с. 114.

2 59

Если число делений шкалы к, тогда Дга„ равио разнице между крайними значениями шкалы тя1 — хт\п), т. е. к — 1, и относи­тельная ошибка имеет вид

Л - JAL- 1Д1

атах * — 1

(здесь |Д| — средняя арифметическая ошибка измерения).

Однако зачастую этот показатель «плохо работает» из-за того, что шкала не используется на всей ее протяженности. Поэтому бо­лее показательными являются относительные ошибки, рассчитан­ные по фактически используемой части шкалы, как было рассмот­рено выше. Если число градаций в «работающей» части шкалы обозначить к', то тогда более надежной будет такая оценка ошибки:

д' - 1Д1 - JAL (6\

Лотн--^7 k,_v \V>

"max

Если в качестве абсолютной ошибки использовалась средняя квадратическая ошибка S, то показатель относительной ошибки

«JOTH — ■ £/ ____ j . (')

Пример.Допустим, что шкала имеет 7 градаций. При опреде­лении «работающей» части этой шкалы анализируется распреде­ление полученных в I пробе оценок:

Оценка 12 3 4 5 6 7

Частота 233 106 59 78 4 6 1 2 = 487

i=i

Здесь на оценки «5», «6», «7» приходится лишь 11 наблюдений, т. е. 2,26%. Проверка согласно критерию (формула (1)) устанав­ливает, что эта часть шкалы «не работает», т. е,-используются лишь градации 1, 2, 3, 4, поэтому Дта1 = 4—1 = 3. На основании соот­ношения ответов в I и II пробах находим сдвиги в ответах (ошиб­ки). Распределение ошибок по этой шкале оказалось следующим:

Значение ошибки —4—3—2—1 0 1 2 3

а

Частота 3 14 19 54 284 88 15 10 2 ==487

t=i

Таким образом, |Д I = 0,60 и относительная ошибка Ан = '3 ~ = 0,20, или 20%, и Аотн = i'_a0,10 — явно завышенная точность

измерения. Однако оценка по к' также является довольно грубой и не использует всю информацию, содержащуюся в ответах I про­бы, ведь реально не все оценки могут дать максимальный сдвиг, а только крайние на шкале.

Оценим для приведенного распределения максимальный сдвиг по реально работающей части шкалы: только крайние значения. (233, 78+11) могут дать сдвиг в 3 балла, 106 и 59 ответов могут

дать максимальный сдвиг в 2 балла. Таким образом, возможный едвиг для данного исходного распределения может быть равен-средней в 2,6 балла четырехбалльной шкалы, т. е. фактическая

ошибка еще больше: 2' -= 0,23.

Повышение устойчивости измерения. Для решения этой задачи необходимо выяснить различительные возможности пунктов иополь-зуемой шкалы, что предполагает четкую фиксацию респондентами отдельных значений: каждая оценка должна быть строго отделена от соседней. На практике это означает, что в последовательных про­бах респонденты практически повторяют свои оценки. Следователь­но, высокой различимости, делений шкалы должна соответствовать малая ошибка.

Эту же задачу можно описать в терминах чувствительности шка­лы, которая характеризуется количеством делений, приходящихся па одну и ту же разность в значениях измеряемой величины, т. е. чем больше градаций в шкале, тем больше ее чувствительность. Однако чувствительность нельзя повышать простым увеличением дробности, ибо высокая чувствительность при низкой устойчивости является излишней (например, шкала в 100 баллов, а ошибка из­мерения ±10 баллов).

Но и при малом числе градаций, т. е. при низкой чувствитель­ности, может быть низкая устойчивость, и тогда следует увеличить дробность шкалы. Так бывает, когда респонденту навязывают кате­горические ответы «да», «нет», а он предпочел бы менее жесткие оценки. И потому он выбирает в повторных испытаниях иногда «да», иногда «нет» для характеристики своего нейтрального поло­жения.

Итак, следует найти некоторое оптимальное соотношение меж­ду чувствительностью и устойчивостью. Введем правило: исполь­зовать столько градаций в шкале, чтобы ее ошибка была меньше 0,5 балла.

Если ошибка меньше 0,5 балла, то в последовательных опросах ответы в среднем будут совпадать. При |Д I 5s 0,5 балла ответы в последовательных опросах будут в среднем отличаться на 1 балл (и выше).

Существуют способы, позволяющие добиться требуемой чувстви­тельности.

Пример. В исследовании каждый испытуемый дает 8 оценок некоторым профессиональным качествам инженеров. Значение оце­нок варьирует от +3 до —3. Проведено два измерения. Рассмотрим суммарное распределение оценок по четырем качествам (самостоя­тельность, творчество, инициативность, опытность), данных тринад­цати респондентов (табл. 32).

Всего в табл 32 представлено 416 пар наблюдений: 13 респон­дентов X 8 оценок X 4 качества. Из них в первой пробе 226 оценок имели значение «3»; во второй пробе из них только 170 были по­вторены, 47 оценок получили значение «2», 6 оценок — значение «1» и 3 оценки — значение «О».

Таблица 32. Распределение ответов в двух пробах

__^______ Проба х1__________________ V и о

ПР°Са" 3 1 2 | 1 | 0 |-l|-l|-8|' " Xi ^ <>i+i

3 170 47 6 3 226 2,70 0,3383 |ЗТО1|

2 51 31 7 1 90 2,47 0,4547 1,96

1 39 22 7 5 1 74 2,18 1,3962 |з,39|

0 3 3 6 3 11 17 1,06 1,8175 1^5

—12 1 3 2,67 0,2044

—2 2 11 4 0,25 0,6875

—3 1 1________ 2 —1,50 0,2500_______

". = 2 nU 265 104 W 8 8 3 ° 416

Таким образом, для исходной оценки «3» средняя оценка во второй пробе стала равной

170-3 + 47-2 + 6-1

#а=з =-------------- 221------------ = ' Д*

На основании этого соотношения оценок получим распределение ошибок:

Значения ошибок —3 —2 —10 12 3 4

Частоты ошибок 4 13 55 211 81 44 6 ^ 2=41S

Рассчитаем среднюю арифметическую ошибку ГД 1=0,69.

Поскольку |Д| >0,5, ищем неразличающиеся градации.

Средние оценки по каждой строке сравниваем с помощью кри­терия Стыодента. Если окажется, что х, и xi+, отличаются незна­чимо (t < („рит), то далее пужно сравнивать х{ в х<+1 и т. д. до значимого отличия средних U(| (+1 записаны в последнем столбце табл. 32, а значимые значения выделены).

Таким образом, оценки «3» и «2» отличаются между собой су­щественно, поскольку критерий Стьюдента фиксирует значимое раз­личие между 2,70 и 2,47; оценки «2» и «1» несущественно отлича­ются друг от друга и т. д. Представим результаты сравнения ис­ходных оценок при помощи схемы разбиения совокупности оце­нок на классы эквивалентности:

Т | 2 1 I II Hi ~2 ИэГ[

Здесь все оценки попадают в три непересекающихся класса: оценка «3» отличается от «2»; «2» и «1» не отличаются друг от друга, но отличаются от соседних оценок; последние четыре значе­ния взаимно неразличимы.

Следовательно, респонденты различают лишь три уровня вме­сто семи предложенных, и шкала должна быть преобразована в трехбалльную, где высокой оценке соответствует исходная оценка

в 3 балла, средней — 2 и 1 балл; низкой — 0, —1, —2, —3. При своим описанным уровням новые баллы — соответственно 3, 2, 1

В итоге имеем следующее соотношение оценок (табл. 33).

Это распределение характеризуется ошибкой |Д 1=0,43 балла т. е. уже меньше 0,5 градации, и потому такая шкала устойчива Таблица 33. Итоговое распределение оценок

Проба II

Проба I -------------- i j 2

__________ 3 I 2 I 1_________

3 170 53 3 226 2 90 67 7 164

1 5 12 9 26

2 265 132 19 416

В общем случае возможны два варианта соотношения исходных оценок: 1) классы неразличимости оценок не пересекаются (на­пример, как это было в только что рассмотренном случае):

Т| I 2 3 I 4 5 6 7

2) классы неразличимости оценок пересекаются, например, так!

/ 2 3 '4 5 6 7

В первом случае можно подобрать для шкалы числовую серию, т. е. упорядоченный ряд чисел, в котором большее число характе­ризует более высокий уровень качества.

Во втором случае имеется полуупорядоченная система оценок,
н ее можно отобразить лишь на полуупорядоченную числовую си­
стему. В рассматриваемом примере возможно, в частности, такое
числовое представление: ь

1 1 ~Т\ Ч 5 6 7

\° V/lWx S'/j W^/g\
I I I I III

Там, где между исходными оценками пет существенного раз­личия, разница между значениями числового представления (ниж­ний ряд чисел) меньше 1; при значимом различии разница боль­ше 1.

Однако часто желательно иметь преобразованные оценки, вы­раженные целыми числами. В таком случае можно предложить сле­дующую систему понижения дробности шкалы; ближайшим исход-

ным значениям, существенно отличающимся друг от друга, при­сваивают ранги последовательна I, II, III и т, д. В рассматривае­мом примере это будет выглядеть так:

1 DlZI v 5 Г^~~^~1 i i i i tit

\i \ \ir\ ш \ \лг\
I I I I III

Для промежуточных значений, несущественно отличающихся от соседних (например, исходную оценку «2» можно отнести в любые классы — ив I, и во II), следует предложить дополнительные кри­терии отнесения их в один из двух соседних классов. Можно в качестве критерия использовать меру относительной близости про­межуточной оценки к тому или иному соседнему классу и путем перебора всех возможных схем объединения искать схему с наи­меньшей ошибкой.

В конечном итоге порядок действия может быть таким. На ос­нове данных двух последовательных проб определяем пороги раз-личаемости градаций шкалы. В том случае, если обнаружено сме­шение градаций, применяют один из двух способов.

Первый способ. В итоговом варианте уменьшают дробность шкалы (например, из шкалы в 7 интервалов нереходят на шкалу в 3 интервала).

Второй способ. Для предъявления респонденту сохраняют преж­нюю дробность шкалы и только при обработке укрупняют соот­ветствующие ее пункты (как это было показано выше).

Второй способ кажется предпочтительнее, поскольку, как пра­вило, большая дробность шкалы побуждает респондента и к более активной реакции. При обработке данных информацию следует перекодировать в соответствии с проведенным анализом различи­тельной способности исходной шкалы.

Итак, предложенные способы анализа целесообразны при отра­ботке окончательного варианта методики. Анализ устойчивости от­дельных вопросов шкалы позволяет: а) выявить плохо сформулиро­ванные вопросы, их неадекватное понимание разными респонден­тами; б) уточнить интерпретацию шкалы, предложенной для оценки того или иного явления, выявить более оптимальный вариант дроб­ности значения шкалы.

Изучение устойчивости окончательного варианта методики даст представление о надежности данных (связанной с устойчивостью), которые будут получены в основном исследовании.

Обоснованность измерения.Проверка обоснованности шкалы предпринимается лишь после того, как установлены достаточные правильность и устойчивость измерения исходных данных. Как уже отмечалось, проверка обоснованности — достаточно сложный про­цесс и, как правило, не до конца разрешимый. И поэтому нецеле-

сообразно сначала применять трудоемкую технику для выявления обоснованности, а после этого убеждаться в неприемлемости дан­ных вследствие их низкой устойчивости.

Обоснованность данных измерения — это доказательство соответ­ствия между тем, что измерено, и тем, что должно было быть измерено. Некоторые исследователи предпочитают исходить из так называемой наличной обоснованности, т. е. обоснованности в поня­тиях использованной процедуры. Например, считают, что удовлет­воренность работой — это то свойство, которое содержится в от­ветах на вопрос: «Удовлетворены ли Вы работой?» В серьезном социологическом исследовании, имеющем целью проверку некото­рых теоретических гипотез, такой сугубо эмпирический подход не­приемлем.

Остановимся ва возможных формальных подходах к выяснению уровня обоснованности методики. Их можно разделить на три груп­пы: 1) конструирование типологии в соответствии с целями иссле­дования на базе нескольких признаков; 2) использование парал­лельных данных; 3) судейские процедуры.

Первый вариант нельзя считать формальным методом — это все­го лишь некоторая схематизация логических рассуждений, начало процедуры обоснования, которая может быть на этом и закопчена, а может быть подкреплена более мощными средствами.

Второй, вариант требует использования по крайней мере двух источников для выявления одного и того же свойства. Обоснован­ность определяется степенью согласованности соответствующих данных.

В последнем случае мы полагаемся на компетентность судей, которым предлагается определить, измеряем ли мы нужное нам свойство или что-то иное.

Рассмотрим предложенные варианты последовательно.

Конструированная типология. Один из способов — использова­ние контрольных вопросов, которые в совокупности с основными дают большее приближение к содержанию изучаемого свойства, раскрывая различные его стороны.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.