Сделай Сам Свою Работу на 5

В результате введения разнородных пунктов и субшкал (субтестов) мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся повышения валидности.





Следовательно, для расширения области применения теста психодиагност должен избегать излишнего повышения внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (как это уже упоминалось ранее) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Рассматривая понятие валидности, следует иметь в виду, что про валидность нельзя говорить обобщенно (к примеру, нельзя сказать, что тест имеет высокую или низкую валидность), давая определение валидности всегда следует указать конкретное предназначение теста.

Существует две стратегии, при помощи которых можно доказать наличие связи между тестом и тем, что он должен измерять: теоретическая и эмпирическая валидизация. Процедура проверки валидности называется валидизацией.

Теоретическая валидизация имеет отношение к самой методике – это валидность измерительного инструмента (теста).

Эмпирическая валидизация относится не столько к самой методике, сколько к цели ее использования [6, 18].



Рассмотрим основные типы валидности и соответствующие им процедуры валидизации.

1. Эмпирическая валидность. Эмпирическая валидность измеряется всегда с помощью статистического коррелирования: подсчитывается корреляция двух рядов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности. Эмпирическая валидность теста соотносится, как правило, с какими-либо внешними для психологии социально-прагматическими критериями. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных областей практики [6, 15].

Например, в области педагогической психологии это "успеваемость" (которую надо повысить), в психологии труда это "производительность труда" и "текучесть кадров", в медицине - "состояние здоровья пациента", в психологии управления - "совместимость", в юридической психологии - "преступность" (которую надо понизить) и т. п.

Ориентируясь непосредственно на эти категории, психолог, пытающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагностической программы. Если получен значимый коэффициент корреляции, то можно считать, что решены с позитивным результатом сразу две эти задачи. Но если корреляции не обнаружено, то остается неопределенность: либо невалидна сама процедура (тестовый балл не отражает например, стрессоустойчивости оператора), либо неверна гипотеза о наличии причинно-следственной связи между психическим свойством и социально значимым показателем.



Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно [15].

2. Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия.

Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании достаточно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию. В результате применяется метод экстремальных (контрастных) групп.

Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента корреляции (см. стр. 199). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности.

Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышенный риск соматических заболеваний (гипертония, язва, астма и т. п.).



Пусть на основании эпидемиологических исследований известно, что в течении трех лет из 1000 здоровых людей этими болезнями заболевают, например, 57 человек. Это означает, что превентивной (предупреждающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность "высокой" группы (заболевших) порядка 100.

Проспективная валидизация выявляет прогностическую эффективность диагностической процедуры. Высокая прогностическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач [15].

Например, если для исследования личностной предрасположенности к совершению краж проведено обследование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт "тревожности", "агрессивности" и т.п. еще не может интерпретироваться как свидетельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, угрызения совести и т.п.

3. Понятия "Содержательная" и "Конструктная" валидность. Их соотношение.

Содержательная валидность (внут­ренняя, логическая) - это комплекс сведе­ний о том, насколько задания теста репрезентируют измеряемые свойства и особенности. Одним из основных требо­ваний при установлении содержательной валидности методики является отражение в содер­жании теста ключевых сторон изучаемо­го психологического феномена.

Если об­ласть поведения или особенность очень сложна, то содержательная валидность требует представления в заданиях теста всех важ­нейших составных элементов исследуемо­го явления. Так, при разработке теста «вербального интеллекта» необходимо ввести группы заданий (субтестов) для проверки довольно разнородных по свое­му операциональному составу навыков письма и чтения.

Конструктная валидность. Это один из основных типов валидности, от­ражающий степень представленности (репрезентации) иссле­дуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вер­бальный интеллект, эмоциональная неус­тойчивость, интроверсия, понимание ре­чи, переключаемость и т. д. Иначе говоря, конструктная валидность определяет область те­оретической структуры психологических явлений, измеряемых тестом.

Поскольку проявления таких конст­руктов, как, например, интеллект в деятельно­сти человека многообразны и неоднознач­ны с точки зрения их выделения, процедура уста­новления конструктной валидности по сравнению с валидностью критериальной или содержательной более сложна.

При объяснении связи полученных тестовых результатов с теоретическим конструктом необходимо постепенное на­копление разнообразной информации о динамике развития измеряемого свой­ства, а также о его взаимодействии с дру­гими психическими явлениями.

Среди конкретных методов характери­стики конструктной валидности, в первую очередь, необходимо назвать сопоставление исследуемого на предмет конструктной валидности теста с другими методиками, конструктное содержание которых известно. Наличие корреляции между новым и аналогичным по конструкту тестом ука­зывает на то, что разрабатываемый тест «измеряет» примерно ту же сферу поведе­ния, способность, личностное качество, что и эталонная методика. Такая процеду­ра валидизации напоминает определение критериальной валидности в том смысле, что эталонный тест, валидность которого определена, выступает в качестве незави­симого критерия [3].

Следует, однако, заметить, что, в отли­чие от критериальной валидизации, при анализе конструктной валидности не требуется высокой степе­ни связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с точки зрения создания параллельной формы теста. Смысл процедуры конструктной валидности со­стоит в установлении одновременно как сходства, так и различия психологичес­ких феноменов, измеряемых новым тес­том по сравнению с известным.

При анализе конструктной валидности методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направ­ленных на конструкты, находящиеся в те­оретически известной или предполагае­мой связи с исследуемыми. При этом конструктная валидность характеризуется не только связями про­веряемого теста с близкородственными показателями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно.

Подтвержде­ние совокупности теоретически ожидае­мых связей составляет важный круг све­дений конструктной валидности. В англоязычной психодиагностике такое операциональное определе­ние конструктной валидности обозначается как "предполагае­мая валидность" (assumed validity).

Прямое отношение к характеристике конструктной валидности имеет факторный анализ, позволя­ющий строго статистически проанализи­ровать структуру связей показателей ис­следуемого теста с другими известными и латентными факторами, выявить общие и специфические для группы сопоставляе­мых тестов факторы, степень их представленности в результатах, т. е. определить факторный состав и факторные нагрузки результата теста. Исключительная важ­ность такой процедуры является основа­нием для выделения ее в особый вид конструктной валидности - факторную валидность.

Важным аспектом конструктной валидности является внутренняя согласованность, отражаю­щая то, насколько определенные пункты (задания, вопросы), составляющие мате­риал теста, подчинены основному направ­лению теста как целого, ориентированы на изучение одних и тех же конструктов. Как уже было отмечено, анализ внутренней согласованности осу­ществляется путем коррелирования отве­тов на каждое задание с общим результа­том теста. Следует отметить, что крите­рий внутренней согласованности указы­вает лишь на меру связи всего содержа­ния теста с измеряемым конструктом, да­вая лишь косвенную информацию о при­роде измеряемого свойства.

При определении конструктной валидности важное место принадлежит изучению динамики измеря­емого конструкта. При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д. Одним из та­ких подходов является применение крите­рия возрастной дифференциации, что предусматривает согласование результатов теста с ожидаемыми измене­ниями, которые претерпевает изучаемое психическое свойство в возрастной динамике при переходе на новый этап разви­тия. Этот метод конструктной валидности особенно важен для валидизации тестов интеллекта, дос­тижений в обучении.

В комплекс сведений о конструктной валидности методики входят также данные, относящиеся к сфе­ре критериальной и содержательной валидности. Так, критерии, используемые при валидизации, несут информацию, по­зволяющую раскрыть область поведения, качества, представленные в тесте в виде конструкта. Для характеристики конструктной валидности не­обходимы связь с практическими форма­ми деятельности, достоверность прогноза реального поведения.

Однако конструктная валидность являет­ся качественно более высоким и комплек­сным уровнем описания теста, характери­зуя область измеряемого поведения в ши­роких психологических понятиях. Благо­даря данным конструктной валидности мы можем с психологи­ческих позиций закономерно объяснить результаты теста и их дисперсию, обосно­вать диагноз, введя измеряемое свойство в систему психологических категорий, прогнозировать поведение в более широ­ких пределах, чем это задается областью деятельности, для которой определялась содержательная валидность.

Следует учитывать, что понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретических представлений автора теста об измеряемом свойстве. Для иллюстрации приведем пример взаимоотношений между двумя популярными тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка [15]. Многочисленные корреляционные исследования, проведенные на репрезентативных выборках, показали, что шкала (МАS) "тревожность" Тейлор положительно коррелирует со шкалой "нейротизм" Айзенка и отрицательно со шкалой "экстраверсия" Айзенка.

Эти соотношения можно проиллюстрировать геометрически (гр. 9): вектор MAS оказывается расположенным в квадрате "нейротизм - интроверсия", образованном системой из ортогональных (статистически независимых) факторов EPI.

 

 

График 9.

 

С точки зрения концепции Г. Айзенка, эти данные можно рассматривать как свидетельства низкой валидности шкалы Тейлор: МАS коррелирует не только с релевантным фактором "нейротизм", но и с иррелевантым фактором "интроверсия". С этой точки зрения опросник Тейлор оказывается просто нечувствительным к особой разновидности "нейротизма" - к нейротизму (тревожности) экстравертов: в перечне пунктов МАS отсутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения того теоретического смысла, который приписывают показателям МАS Ж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактом - следствием дефекта их диагностического средства, поскольку МАS измеряет общий уровень драйва - неспециализированного побуждения, которое как раз достигает максимума при сочетании нейротизма (специфическая активация по Г. Айзенку) и интроверсии (неспецифическая активация).

Таким образом, не всегда краткие названия тестов однозначно выражают теоретический статус диагностического конструкта - понятия об измеряемом свойстве.

4. Конвергентная и дискриминантная валидность. Известно [1, 6, 15, 16], что от того, как психолог определяет диагностический конструкт, зависит стратегия включения в тест определенных пунктов. Если Айзенк определяет свойство "нейротизм" как независимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты.

Если же на практике окажется, что в тесте будут преобладать пункты из квадранта "нейротизм-интроверсия", то, с точки зрения теории Айзенка, это означает, что шкала "нейротизм" оказывается нагруженной иррелевантным фактором - "интроверсией". (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невротичных интровертов, чем невротичных экстравертов).

Чтобы избежать таких сложностей, желательно иметь дело с такими эмпирическими показателями (пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: всякий эмпирический показатель оказывается детерминированным не только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения.

Поэтому основная задача состоит в специальном подборе пунктов так, чтобы все потенциальные иррелевантные факторы были уравновешены: ни один из них не встречался бы чаще других на множестве пунктов, включенных в тест. В связи с этим, можно дать следующее определение конвергентной и дискриминантной валидности.

Конвергентная валидностьтестаэтосоответствие пунктов измеряемому фактору.

Дискриминантная валидностьтеста – этосбалансированность пунктов относительно иррелевантных факторов.

Эмпирически она выражается в отсутствии значимой корреляции с тестом, измеряющим концептуально независимое свойство. С точки зрения теории Айзенка, тест Тейлор не обладает дискриминантной валидностью по отношению к фактору "экстраверсия-интроверсия", хотя и обладает определенной конвергентной валидностью по отношению к релевантному фактору - "нейротизм".

5. Экспертная эмпирическая валидизация. В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность, психодиагност оказывается перед необходимостью привлечения к валидизации теста экспертов [1, 15].

В отличие от экспертного анализа содержания теста эмпирическая экспертная валидизация предполагает работу экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации.

Экспертам следует обеспечить стандартные условия для наблюдения за испытуемыми. Но не всегда такое стандартизованное наблюдение удается организовать. Даже если мы предприняли серьезные усилия по организации наблюдения за поведением испытуемых в какой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности "полевому" наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта личности - как диспозиция к инвариантному поведению в широком спектре ситуаций, то и отдельного полевого наблюдения окажется недостаточно для получения полноценного экспертного критерия валидности.

Поэтому на практике часто прибегают к оценкам особого типа, к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним [15]. С учетом этого процедура оценивания приспосабливается к обычным людям, не являющимися психологами. На психолога падает большая нагрузка по составлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общающихся между собой, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу.

В отечественной литературе эта процедура получила сокращенное обозначение ГОЛ - "групповая оценка личности"[1, 15]. Для того, чтобы групповая оценка была источником действительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согласованности, то это означает, что либо оцениваемое свойство не проявилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию.

Для измерения согласованности должна быть построена таблица с оценками (табл. 5). Методы анализа данных, содержащихся в такой таблице, формально совершенно эквивалентны тем методам, которые применяются для обработки таблиц "испытуемые - пункты". В частности, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех К оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли теста. Рассчитывая попарные корреляции между различными столбцами таблицы 5 можно получить коэффициенты согласованности для отдельных пар оценщиков. Глобальной мерой согласованности оценщиков может служить тот же коэффициент надежности α Кронбаха.

 

Таблица 5.

 

Если сама групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности теста.

Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений - тестовыми баллами и суммарными баллами экспертной оценки [1, 15].

6. Анализ пунктов по критерию валидности. Известно [1, 6, 15, 16], что валидность целого теста зависит от валидности входящих в него пунктов, причем максимальная валидность по критерию достигается за счет отбора таких пунктов из теста, которые, обладая значимой корреляцией с критериальным показателем, минимально коррелируют между собой.

Следует напомнить, что отбор пунктов именно по критерию валидности обеспечивает максимальную прагматическую эффективность теста.

Реально такой отбор можно произвести, рассчитывая бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи.

Таким образом, еще раз подчеркнем, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемого свойства.

На основании содержательного анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое понимание измеряемого свойства [1, 15].

7. Порядок работы психолога при проверке валидности. Очень трудно выделить универсальный алгоритм работы психолога по проверке валидности, ибо существуют различные подходы к обеспечению валидности, обусловленные теоретико-методологическими различиями определенных психологических школ.

Для прагматически ориентированных тестологов (какими традиционно являлись до недавнего времени почти все англо-американские специалисты) главный момент - поиск операционально строго заданного социально-прагматического критерия валидности по отношению к которому диагностические тесты и их составные части (пункты) подбираются как бы "автоматически" - в ходе эмпирико-статистических процедур сбора и корреляционного анализа результатов.

Но, конечно, неверно было бы приписывать этому подходу "бездумность в опоре на статистику": ведь статистика только тогда позволяет выявить валидное подмножество тестов (пунктов), когда исходное множество подобрано не случайно, а с использованием априорных корректных содержательно-психологических представлений.

Современные методологи психологического тестирования фактически единодушно приходят к признанию (как наиболее оптимальной) рационально-эмпирической стратегии конструирования теста и проверки валидности [15].

1. Прогнозирование результатов корреляционных экспериментов по проверке конструктной валидности.Провести теоретический анализ диагностического конструкта, разработать теоретическую концепцию тестируемого психического свойства. Выявить (с использованием литературы) системы взаимосвязанных диагностических конструктов, внутри которых новый диагностический конструкт характеризуется определенными структурно-функциональными связями и отношениями.

2. Конструирование пунктов теста.Выявить составные части теоретического конструкта, сформулировать системы "эмпирических индикаторов" - операционально однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях.

3. Формулирование релевантного социально-прагматического критериядля проверки валидности - эффективности методики.

4. Оценка валидности эмпирических индикаторов.Спланировать и провести корреляционное исследование (или квазиэксперимент) на специально подобранной выборке испытуемых, для которых известно значение (или будет известно) критериального показателя, а также результаты по родственным психологическим тестам. При необходимости на этих испытуемых провести дополнительные тесты с целью - получить возможность корреляционной проверки конструктной валидности теста (экспертные оценки в данном случае рассматриваются в статусе одной из возможных параллельных процедур получения критериальной или психологической информации).

5. Оценка достоверности* эмпирических индикаторов.Провести исследование достоверности результатов, если используется самоотчет и диагностическая ситуация может быть воспринята испытуемыми с настороженностью.

6. Отсев пунктов (индикаторов), не удовлетворяющих критериям валидности и достоверности. Измерить надежность для сокращенной шкалы, состоящей только из валидных пунктов. Если надежность оказывается невысокой, то психолог снова возвращается к этапу 1 и уточняет теоретические представления.

-----------------

*О достоверности см. §9.

Контрольные вопросы для самопроверки: §7, 8. Дискриминативность теста.Валидность теста.

1. Что понимается под дискриминативностью теста?

2. Как рассчитать дискриминативность отдельных заданий теста?

3. Что понимается под валидностью теста?

4. С чем больше связано понятие валидности - с предметом или объектом измерения?

5. Что понимается под термином "эмпирическая валидность"?

6. Что включает в себя процедура экспертной валидизации?

7. Что понимается под проспективной валидностью теста?

8. Что понимается под ретроспективной валидностью теста?

9. Какие задачи решаются с помощью доказательства проспективной и ретроспективной валидности теста?

10. Что понимается под содержательной валидностью теста?

11. Что понимается под конструктной валидностью теста?

12. Дайте определение конвергентной валидности теста.

13. Дайте определение дискриминативной валидности теста.

14. Какова суть процедуры экспертной эмпирической валидизации?

15. Что из себя представляет процедура ГОЛ "групповая оценка личности"?

16. Какие действия последовательно должен произвести психолог при доказательстве валидности теста?

 

Литература к теме.

1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982.

2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с.

3. Корниенко А.Ф. Теория и практика психологического исследования. Учебное пособие. Казанский пед. университет, Казань, 2000. -258 с.

4. Клайн П. Справочное руководство по конструированию тестов. - Киев: ПАН Лтд, 1994.

5. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987.

6. Основы психодиагностики / Под ред. А. Г. Шмелева. Ростов-на-Дону., 1996.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.