В результате введения разнородных пунктов и субшкал (субтестов) мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся повышения валидности.

Предыдущая 1 2 3 4 5 6 7 8 9 10 11 121314 15 16 Следующая

Следовательно, для расширения области применения теста психодиагност должен избегать излишнего повышения внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (как это уже упоминалось ранее) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Рассматривая понятие валидности, следует иметь в виду, что про валидность нельзя говорить обобщенно (к примеру, нельзя сказать, что тест имеет высокую или низкую валидность), давая определение валидности всегда следует указать конкретное предназначение теста.

Существует две стратегии, при помощи которых можно доказать наличие связи между тестом и тем, что он должен измерять: теоретическая и эмпирическая валидизация. Процедура проверки валидности называется валидизацией.

Теоретическая валидизация имеет отношение к самой методике – это валидность измерительного инструмента (теста).

Эмпирическая валидизация относится не столько к самой методике, сколько к цели ее использования [6, 18].

Рассмотрим основные типы валидности и соответствующие им процедуры валидизации.

1. Эмпирическая валидность. Эмпирическая валидность измеряется всегда с помощью статистического коррелирования: подсчитывается корреляция двух рядов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности. Эмпирическая валидность теста соотносится, как правило, с какими-либо внешними для психологии социально-прагматическими критериями. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных областей практики [6, 15].

Например, в области педагогической психологии это "успеваемость" (которую надо повысить), в психологии труда это "производительность труда" и "текучесть кадров", в медицине - "состояние здоровья пациента", в психологии управления - "совместимость", в юридической психологии - "преступность" (которую надо понизить) и т. п.

Ориентируясь непосредственно на эти категории, психолог, пытающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагностической программы. Если получен значимый коэффициент корреляции, то можно считать, что решены с позитивным результатом сразу две эти задачи. Но если корреляции не обнаружено, то остается неопределенность: либо невалидна сама процедура (тестовый балл не отражает например, стрессоустойчивости оператора), либо неверна гипотеза о наличии причинно-следственной связи между психическим свойством и социально значимым показателем.

Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно [15].

2. Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия.

Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании достаточно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию. В результате применяется метод экстремальных (контрастных) групп.

Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента корреляции (см. стр. 199). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности.

Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышенный риск соматических заболеваний (гипертония, язва, астма и т. п.).

Пусть на основании эпидемиологических исследований известно, что в течении трех лет из 1000 здоровых людей этими болезнями заболевают, например, 57 человек. Это означает, что превентивной (предупреждающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность "высокой" группы (заболевших) порядка 100.

Проспективная валидизация выявляет прогностическую эффективность диагностической процедуры. Высокая прогностическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач [15].

Например, если для исследования личностной предрасположенности к совершению краж проведено обследование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт "тревожности", "агрессивности" и т.п. еще не может интерпретироваться как свидетельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, угрызения совести и т.п.

3. Понятия "Содержательная" и "Конструктная" валидность. Их соотношение.

Содержательная валидность (внутренняя, логическая) - это комплекс сведений о том, насколько задания теста репрезентируют измеряемые свойства и особенности. Одним из основных требований при установлении содержательной валидности методики является отражение в содержании теста ключевых сторон изучаемого психологического феномена.

Если область поведения или особенность очень сложна, то содержательная валидность требует представления в заданиях теста всех важнейших составных элементов исследуемого явления. Так, при разработке теста «вербального интеллекта» необходимо ввести группы заданий (субтестов) для проверки довольно разнородных по своему операциональному составу навыков письма и чтения.

Конструктная валидность. Это один из основных типов валидности, отражающий степень представленности (репрезентации) исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость и т. д. Иначе говоря, конструктная валидность определяет область теоретической структуры психологических явлений, измеряемых тестом.

Поскольку проявления таких конструктов, как, например, интеллект в деятельности человека многообразны и неоднозначны с точки зрения их выделения, процедура установления конструктной валидности по сравнению с валидностью критериальной или содержательной более сложна.

При объяснении связи полученных тестовых результатов с теоретическим конструктом необходимо постепенное накопление разнообразной информации о динамике развития измеряемого свойства, а также о его взаимодействии с другими психическими явлениями.

Среди конкретных методов характеристики конструктной валидности, в первую очередь, необходимо назвать сопоставление исследуемого на предмет конструктной валидности теста с другими методиками, конструктное содержание которых известно. Наличие корреляции между новым и аналогичным по конструкту тестом указывает на то, что разрабатываемый тест «измеряет» примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика. Такая процедура валидизации напоминает определение критериальной валидности в том смысле, что эталонный тест, валидность которого определена, выступает в качестве независимого критерия [3].

Следует, однако, заметить, что, в отличие от критериальной валидизации, при анализе конструктной валидности не требуется высокой степени связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с точки зрения создания параллельной формы теста. Смысл процедуры конструктной валидности состоит в установлении одновременно как сходства, так и различия психологических феноменов, измеряемых новым тестом по сравнению с известным.

При анализе конструктной валидности методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. При этом конструктная валидность характеризуется не только связями проверяемого теста с близкородственными показателями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно.

Подтверждение совокупности теоретически ожидаемых связей составляет важный круг сведений конструктной валидности. В англоязычной психодиагностике такое операциональное определение конструктной валидности обозначается как "предполагаемая валидность" (assumed validity).

Прямое отношение к характеристике конструктной валидности имеет факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными факторами, выявить общие и специфические для группы сопоставляемых тестов факторы, степень их представленности в результатах, т. е. определить факторный состав и факторные нагрузки результата теста. Исключительная важность такой процедуры является основанием для выделения ее в особый вид конструктной валидности - факторную валидность.

Важным аспектом конструктной валидности является внутренняя согласованность, отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Как уже было отмечено, анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом теста. Следует отметить, что критерий внутренней согласованности указывает лишь на меру связи всего содержания теста с измеряемым конструктом, давая лишь косвенную информацию о природе измеряемого свойства.

При определении конструктной валидности важное место принадлежит изучению динамики измеряемого конструкта. При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д. Одним из таких подходов является применение критерия возрастной дифференциации, что предусматривает согласование результатов теста с ожидаемыми изменениями, которые претерпевает изучаемое психическое свойство в возрастной динамике при переходе на новый этап развития. Этот метод конструктной валидности особенно важен для валидизации тестов интеллекта, достижений в обучении.

В комплекс сведений о конструктной валидности методики входят также данные, относящиеся к сфере критериальной и содержательной валидности. Так, критерии, используемые при валидизации, несут информацию, позволяющую раскрыть область поведения, качества, представленные в тесте в виде конструкта. Для характеристики конструктной валидности необходимы связь с практическими формами деятельности, достоверность прогноза реального поведения.

Однако конструктная валидность является качественно более высоким и комплексным уровнем описания теста, характеризуя область измеряемого поведения в широких психологических понятиях. Благодаря данным конструктной валидности мы можем с психологических позиций закономерно объяснить результаты теста и их дисперсию, обосновать диагноз, введя измеряемое свойство в систему психологических категорий, прогнозировать поведение в более широких пределах, чем это задается областью деятельности, для которой определялась содержательная валидность.

Следует учитывать, что понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретических представлений автора теста об измеряемом свойстве. Для иллюстрации приведем пример взаимоотношений между двумя популярными тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка [15]. Многочисленные корреляционные исследования, проведенные на репрезентативных выборках, показали, что шкала (МАS) "тревожность" Тейлор положительно коррелирует со шкалой "нейротизм" Айзенка и отрицательно со шкалой "экстраверсия" Айзенка.

Эти соотношения можно проиллюстрировать геометрически (гр. 9): вектор MAS оказывается расположенным в квадрате "нейротизм - интроверсия", образованном системой из ортогональных (статистически независимых) факторов EPI.

График 9.

С точки зрения концепции Г. Айзенка, эти данные можно рассматривать как свидетельства низкой валидности шкалы Тейлор: МАS коррелирует не только с релевантным фактором "нейротизм", но и с иррелевантым фактором "интроверсия". С этой точки зрения опросник Тейлор оказывается просто нечувствительным к особой разновидности "нейротизма" - к нейротизму (тревожности) экстравертов: в перечне пунктов МАS отсутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения того теоретического смысла, который приписывают показателям МАS Ж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактом - следствием дефекта их диагностического средства, поскольку МАS измеряет общий уровень драйва - неспециализированного побуждения, которое как раз достигает максимума при сочетании нейротизма (специфическая активация по Г. Айзенку) и интроверсии (неспецифическая активация).

Таким образом, не всегда краткие названия тестов однозначно выражают теоретический статус диагностического конструкта - понятия об измеряемом свойстве.

4. Конвергентная и дискриминантная валидность. Известно [1, 6, 15, 16], что от того, как психолог определяет диагностический конструкт, зависит стратегия включения в тест определенных пунктов. Если Айзенк определяет свойство "нейротизм" как независимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты.

Если же на практике окажется, что в тесте будут преобладать пункты из квадранта "нейротизм-интроверсия", то, с точки зрения теории Айзенка, это означает, что шкала "нейротизм" оказывается нагруженной иррелевантным фактором - "интроверсией". (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невротичных интровертов, чем невротичных экстравертов).

Чтобы избежать таких сложностей, желательно иметь дело с такими эмпирическими показателями (пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: всякий эмпирический показатель оказывается детерминированным не только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения.

Поэтому основная задача состоит в специальном подборе пунктов так, чтобы все потенциальные иррелевантные факторы были уравновешены: ни один из них не встречался бы чаще других на множестве пунктов, включенных в тест. В связи с этим, можно дать следующее определение конвергентной и дискриминантной валидности.

Конвергентная валидностьтеста–этосоответствие пунктов измеряемому фактору.

Дискриминантная валидностьтеста – этосбалансированность пунктов относительно иррелевантных факторов.

Эмпирически она выражается в отсутствии значимой корреляции с тестом, измеряющим концептуально независимое свойство. С точки зрения теории Айзенка, тест Тейлор не обладает дискриминантной валидностью по отношению к фактору "экстраверсия-интроверсия", хотя и обладает определенной конвергентной валидностью по отношению к релевантному фактору - "нейротизм".

5. Экспертная эмпирическая валидизация. В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность, психодиагност оказывается перед необходимостью привлечения к валидизации теста экспертов [1, 15].

В отличие от экспертного анализа содержания теста эмпирическая экспертная валидизация предполагает работу экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации.

Экспертам следует обеспечить стандартные условия для наблюдения за испытуемыми. Но не всегда такое стандартизованное наблюдение удается организовать. Даже если мы предприняли серьезные усилия по организации наблюдения за поведением испытуемых в какой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности "полевому" наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта личности - как диспозиция к инвариантному поведению в широком спектре ситуаций, то и отдельного полевого наблюдения окажется недостаточно для получения полноценного экспертного критерия валидности.

Поэтому на практике часто прибегают к оценкам особого типа, к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним [15]. С учетом этого процедура оценивания приспосабливается к обычным людям, не являющимися психологами. На психолога падает большая нагрузка по составлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общающихся между собой, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу.

В отечественной литературе эта процедура получила сокращенное обозначение ГОЛ - "групповая оценка личности"[1, 15]. Для того, чтобы групповая оценка была источником действительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согласованности, то это означает, что либо оцениваемое свойство не проявилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию.

Для измерения согласованности должна быть построена таблица с оценками (табл. 5). Методы анализа данных, содержащихся в такой таблице, формально совершенно эквивалентны тем методам, которые применяются для обработки таблиц "испытуемые - пункты". В частности, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех К оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли теста. Рассчитывая попарные корреляции между различными столбцами таблицы 5 можно получить коэффициенты согласованности для отдельных пар оценщиков. Глобальной мерой согласованности оценщиков может служить тот же коэффициент надежности α Кронбаха.

Таблица 5.

Если сама групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности теста.

Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений - тестовыми баллами и суммарными баллами экспертной оценки [1, 15].

6. Анализ пунктов по критерию валидности. Известно [1, 6, 15, 16], что валидность целого теста зависит от валидности входящих в него пунктов, причем максимальная валидность по критерию достигается за счет отбора таких пунктов из теста, которые, обладая значимой корреляцией с критериальным показателем, минимально коррелируют между собой.

Следует напомнить, что отбор пунктов именно по критерию валидности обеспечивает максимальную прагматическую эффективность теста.

Реально такой отбор можно произвести, рассчитывая бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи.

Таким образом, еще раз подчеркнем, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемого свойства.

На основании содержательного анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое понимание измеряемого свойства [1, 15].

7. Порядок работы психолога при проверке валидности. Очень трудно выделить универсальный алгоритм работы психолога по проверке валидности, ибо существуют различные подходы к обеспечению валидности, обусловленные теоретико-методологическими различиями определенных психологических школ.

Для прагматически ориентированных тестологов (какими традиционно являлись до недавнего времени почти все англо-американские специалисты) главный момент - поиск операционально строго заданного социально-прагматического критерия валидности по отношению к которому диагностические тесты и их составные части (пункты) подбираются как бы "автоматически" - в ходе эмпирико-статистических процедур сбора и корреляционного анализа результатов.

Но, конечно, неверно было бы приписывать этому подходу "бездумность в опоре на статистику": ведь статистика только тогда позволяет выявить валидное подмножество тестов (пунктов), когда исходное множество подобрано не случайно, а с использованием априорных корректных содержательно-психологических представлений.

Современные методологи психологического тестирования фактически единодушно приходят к признанию (как наиболее оптимальной) рационально-эмпирической стратегии конструирования теста и проверки валидности [15].

1. Прогнозирование результатов корреляционных экспериментов по проверке конструктной валидности.Провести теоретический анализ диагностического конструкта, разработать теоретическую концепцию тестируемого психического свойства. Выявить (с использованием литературы) системы взаимосвязанных диагностических конструктов, внутри которых новый диагностический конструкт характеризуется определенными структурно-функциональными связями и отношениями.

2. Конструирование пунктов теста.Выявить составные части теоретического конструкта, сформулировать системы "эмпирических индикаторов" - операционально однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях.

3. Формулирование релевантного социально-прагматического критериядля проверки валидности - эффективности методики.

4. Оценка валидности эмпирических индикаторов.Спланировать и провести корреляционное исследование (или квазиэксперимент) на специально подобранной выборке испытуемых, для которых известно значение (или будет известно) критериального показателя, а также результаты по родственным психологическим тестам. При необходимости на этих испытуемых провести дополнительные тесты с целью - получить возможность корреляционной проверки конструктной валидности теста (экспертные оценки в данном случае рассматриваются в статусе одной из возможных параллельных процедур получения критериальной или психологической информации).

5. Оценка достоверности* эмпирических индикаторов.Провести исследование достоверности результатов, если используется самоотчет и диагностическая ситуация может быть воспринята испытуемыми с настороженностью.

6. Отсев пунктов (индикаторов), не удовлетворяющих критериям валидности и достоверности. Измерить надежность для сокращенной шкалы, состоящей только из валидных пунктов. Если надежность оказывается невысокой, то психолог снова возвращается к этапу 1 и уточняет теоретические представления.

-----------------

*О достоверности см. §9.

Контрольные вопросы для самопроверки: §7, 8. Дискриминативность теста.Валидность теста.

1. Что понимается под дискриминативностью теста?

2. Как рассчитать дискриминативность отдельных заданий теста?

3. Что понимается под валидностью теста?

4. С чем больше связано понятие валидности - с предметом или объектом измерения?

5. Что понимается под термином "эмпирическая валидность"?

6. Что включает в себя процедура экспертной валидизации?

7. Что понимается под проспективной валидностью теста?

8. Что понимается под ретроспективной валидностью теста?

9. Какие задачи решаются с помощью доказательства проспективной и ретроспективной валидности теста?

10. Что понимается под содержательной валидностью теста?

11. Что понимается под конструктной валидностью теста?

12. Дайте определение конвергентной валидности теста.

13. Дайте определение дискриминативной валидности теста.

14. Какова суть процедуры экспертной эмпирической валидизации?

15. Что из себя представляет процедура ГОЛ "групповая оценка личности"?

16. Какие действия последовательно должен произвести психолог при доказательстве валидности теста?

Литература к теме.

1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982.

2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с.

3. Корниенко А.Ф. Теория и практика психологического исследования. Учебное пособие. Казанский пед. университет, Казань, 2000. -258 с.

4. Клайн П. Справочное руководство по конструированию тестов. - Киев: ПАН Лтд, 1994.

5. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987.

6. Основы психодиагностики / Под ред. А. Г. Шмелева. Ростов-на-Дону., 1996.

Предыдущая 1 2 3 4 5 6 7 8 9 10 11 121314 15 16 Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: