Что такое психологический тест?

Предыдущая 123 4 5 6 7 8 9 10 11 12 13 14 15 16 Следующая

Выборочный анализ поведения.Психологический тест, в сущности, представляет собой объективное и стандартизованное измерение образцов (или проб) поведения. Психологические тесты, подобно наблюдениям или тестам в любых других науках, проводятся на малой выборке тщательно отобранных образцов поведения индивидуума. В этом отношении психолог идет почти тем же путем, что и биохимик, делающий свои заключения о составе крови пациента или качестве питьевой воды в микрорайоне на основе анализа одной или нескольких взятых им проб. Если психолог хочет проверить словарный запас ребенка, умение служащего выполнять арифметические вычисления или зрительно-двигательную координацию пилота, он предъявляет им репрезентативные наборы слов, арифметических задач или же тесты двигательных способностей и оценивает их реакции. Насколько адекватен тест изучаемому аспекту поведения, зависит, очевидно, от количества и характера заданий, образующих сти-мульный набор (или выборку заданий) данного теста. Так, арифметический тест, состоящий из 5 задач или включающий лишь вопросы на умножение, вряд ли может дать достаточно верное представление о счетных навыках взрослого человека, а словарный тест, составленный целиком из терминов игры в бейсбол, едва ли обеспечит надежную оценку полного словарного запаса ребенка.

Диагностическая, или предсказательная, ценность психологического теста зависит от того, насколько он может служить индикатором относительно широкой и важ-

Глава 1. Природа и назначение психологических тестов

ной области поведения. Измерение образцов поведения, непосредственно охватываемых данным тестом, очень редко оказывается, если вообще оказывается, целью психологического тестирования. Знание ребенком какого-то списка из 50 слов, так же как и выполнение конкретной серии из 20 арифметических задач, сами по себе не представляют большого интереса. Но если можно продемонстрировать близкое соответствие между знанием ребенком данного списка слов и его общим словарным запасом или же между показателем, полученным при решении арифметических задач претендентом на должность клерка, и качеством выполнения им счетных операций на работе, то используемые тесты отвечают своему назначению.

В этой связи следует отметить, что задания теста не обязательно должны иметь близкое сходство с поведением, для предсказания которого тест предназначен. Здесь важно только, чтобы между ними и поведением наблюдалось эмпирическое соответствие. Степень сходства между тестируемыми образцами поведения и прогнозируемым поведением достаточно широко варьирует. На одном полюсе континуума «сходство — различие» тест может полностью совпадать с какой-то частью предсказываемого поведения. В качестве примеров можно было бы привести словарный тест по иностранному языку, проверяющий знание учащимися 20 из 50 вновь выученных слов, или тест на знание правил дорожного движения для получения водительских прав. Однако задания тестов профессиональной пригодности, применяемых перед началом обучения специальности, уже меньше похожи на те, которые приходится выполнять на настоящей работе. На другом полюсе находятся проективные личностные тесты, такие как тест чернильных пятен Роршаха, в котором делается попытка на основе ассоциаций, возникающих у обследуемого человека при разглядывании чернильных пятен, предсказать, как он будет реагировать на других людей, эмоционально окрашенные раздражители и прочие сложные ситуации повседневной жизни. Несмотря на внешние различия, все эти тесты состоят из выборочных проб поведения индивидуума. И ценность каждого должна доказываться эмпирически устанавливаемым соответствием между характеристиками деятельности человека в ситуации тестирования и в других ситуациях.

Используемые в этой связи термины «диагноз» и «прогноз» являются довольно слабым дифференциальным признаком. Обычно прогноз ассоциируется с оцениванием во временной перспективе, — например, будущее выполнение индивидом какой-либо деятельности предсказывается исходя из результатов выполнения им теста в настоящее время. Вместе с тем, в широком смысле, даже диагноз наличных состояний, таких как умственная отсталость или эмоциональные расстройства, содержит предсказание того, как будет вести себя человек с тем или иным диагнозом в ситуациях, отличных от тестовых. В логическом отношении проще рассматривать все тесты как выборочное измерение поведения, на основе которого можно предсказать поведение в других случаях. Поэтому имеет смысл рассматривать разные виды тестов как вариации этой основной схемы.

Еще один момент, который следовало бы обсудить в самом начале, связан с понятием способность (capacity). Вполне возможно создать тест, например, для предсказания успешности овладения французским языком еще до того, как конкретный человек приступит к его изучению. Такой тест был бы связан с выборочным анализом типов поведения, необходимых для освоения нового языка, но сам по себе не предполагал бы знания французского. Тогда можно было бы сказать, что этот тест измеряет «способность» или «потенциальные возможности» индивидуума к овладению французским

Часть 1. Функции и истоки психологического тестирования

языком. Однако такие термины по отношению к психологическим тестам следует использовать с осторожностью. Только в том смысле, что выборка образцов настоящего поведения может быть использована как индикатор другого, будущего поведения, мы вправе говорить об измерении «способности» данным тестом. Ни один психологический тест не может измерить ничего, кроме поведения. Будет ли такое поведение эффективным показателем другого поведения, определяется только эмпирическим путем.

Стандартизация. Напомним, что мы начали с определения психологического теста как стандартизованного измерения. Стандартизация подразумевает единообразие процедуры проведения и оценки выполнения теста. Если мы хотим, чтобы показатели, полученные разными людьми, были сравнимыми, условия тестирования должны быть одинаковыми для всех. Такое требование — всего лишь конкретное применение принципа контролируемости условий любого научного наблюдения. В тестовой ситуации единственной независимой переменной часто оказывается сам обследуемый.

Чтобы обеспечить единообразие условий тестирования, создатель теста дает подробные указания по проведению каждого вновь разработанного теста. Формулирование таких указаний — важная часть стандартизации нового теста. Она включает точные указания относительно используемого стимульного материала, временных ограничений, устных инструкций испытуемому, пробных образцов заданий, допустимых ответов на вопросы обследуемого и других тонкостей проведения теста. На выполнение некоторых тестов может влиять множество других, не столь очевидных факторов. Так, зачитывая вслух инструкцию или задания, следует принимать в расчет скорость речи, тон голоса, интонацию, паузы и выражение лица. В тесте на обнаружение нелепостей, например, правильный ответ может быть невольно подсказан улыбкой или паузой после произнесения критического слова. Значение стандартизованной процедуры тестирования с точки зрения проводящего обследование специалиста будет обсуждаться в этой главе позднее, в связи с проблемами проведения теста.

Другой важный этап в стандартизации теста — установление норм. Психологические тесты не имеют заранее определенных стандартов их успешного или неуспешного выполнения; критерии выполнения каждого теста устанавливаются на основе эмпирических данных. В большинстве случаев тестовый показатель индивидуума интерпретируется на основе сравнения с оценками, полученными по данному тесту другими людьми. Как следует из самого этого термина, норма — это обычный, или средний, уровень выполнения. Поэтому, если нормальные 8-летние дети правильно решают 12 задач из 50 в тесте на типичное арифметическое рассуждение, значит, норма для 8-летнего ребенка по этому тесту соответствует 12 (очкам, баллам или каким-то другим произвольным «единицам» измерения). Показатели такого рода принято называть первичными оценками (или «сырыми» баллами). Они могут выражаться числом правильно решенных заданий, временем, необходимым для их выполнения, числом ошибок и другими объективными мерами, соответствующими содержанию теста. Такая первичная оценка ни о чем не говорит до тех пор, пока не получит выражение в единицах подходящих интерпретационных данных.

В процессе стандартизации теста его проводят на большой репрезентативной выборке лиц определенного типа, для работы с которыми он предназначен. Эта группа, называемая выборкой стандартизации, как раз и служит для установления норм. Такие нормы показывают не только средний уровень выполнения теста, но и относительную частоту различных по степени отклонений от среднего уровня в обе стороны, что

Глава 1. Природа и назначение психологических тестов 21

позволяет количественно оценивать величину превышения или отставания от среднего. Конкретные формы выражения таких норм рассматриваются в главе 3. Любая из этих форм позволяет охарактеризовать положение индивидуума относительно нормативной выборки или выборки стандартизации.

Следует попутно отметить, что нормы для личностных тестов устанавливаются в сущности таким же образом, как и для тестов способностей. Норма по личностному тесту совсем не обязательно соответствует наиболее желательному или «идеальному» варианту его выполнения, равно как и норма по тесту способностей практически не бывает представлена абсолютным показателем, выставляемым за безошибочное выполнение всех тестовых заданий. Для тестов обоих типов норма соответствует результатам их выполнения типичными, или средними, людьми. Например, в тестах, измеряющих «доминирование — подчинение», норма приходится на среднюю точку, отображающую степень доминирования или подчинения, проявляемую средним человеком. Подобным же образом в опроснике эмоционального приспособления (emotionaladjustment inventory) норма обычно не соответствует полному отсутствию неблагоприятных или дезадаптивных реакций. Некоторое количество таких реакций свойственно большинству «нормальных» людей, входящих в выборку стандартизации, и потому норма должна отображать это количество реакций, свидетельствующих об отсутствии у большинства людей абсолютного контроля над своими эмоциями.

Объективное измерение трудности.Обращаясь к определению психологического теста, с которого началось его обсуждение, напомним, что тест был охарактеризован не только как стандартизованное, но и как объективное измерение. В каких конкретных отношениях такие тесты являются объективными? Некоторые аспекты объективности психологических тестов уже были затронуты при обсуждении стандартизации. В связи с этим отмечалось, что процедуры тестирования, вычисления первичных оценок по тесту и их интерпретации объективны в той мере, насколько они независимы от субъективных суждений специалиста, проводящего тестирование. Теоретически у любого конкретного человека оценка по тесту должна быть одной и той же независимо от того, кто проводит с ним данный тест. На самом деле это не совсем так, поскольку полная стандартизация и абсолютная объективность практически недостижимы. Но по крайней мере стремление к такой объективности составляет одну из целей при конструировании теста, и нужно признать, что приемлемый уровень объективности достигнут в большинстве созданных тестов.

Есть и другие важные отношения, в которых психологические тесты с полным основанием можно охарактеризовать как объективные. Определение уровня трудности одного задания или теста в целом основывается на объективных эмпирических процедурах. Когда А. Бине и Т. Симон составляли свою первую (Binet & Simon, 1905) шкалу для измерения интеллекта, они расположили входящие в нее 30 заданий в порядке возрастания трудности. Уровень трудности определялся путем опробования этих заданий на 50 нормальных и нескольких умственно отсталых детях. Задания, с которыми справилось большинство детей, ipsofacto^, расценивались как самые легкие; задания же, с которыми справилось относительно малое число детей, считались более трудными. С помощью такой процедуры был установлен эмпирический порядок трудности всех заданий. Этот пример из истории тестирования служит прообразом объек-

' В силу самого факта (лат.). — Примеч. науч. ред.

Часть 1. Функции и истоки психологического тестирования

тивного измерения уровня трудности, ставшего теперь общепринятой процедурой при создании психологических тестов.

Не только расположение, но и отбор заданий для включения их в тест может определяться исходя из доли входящих в пробную выборку лиц, которые справляются с каждым заданием. Так, если наблюдается скопление заданий на любом из концов шкалы (т. е. на полюсах легкости или трудности), от части таких заданий можно отказаться. Аналогично, если какие-то отрезки шкалы оказываются пустыми или представленными малым числом заданий, можно добавить новые, чтобы заполнить образовавшиеся пробелы. Более формальные аспекты анализа заданий будут рассмотрены в главе 7.

Надежность.Насколько хорош данный тест? Действительно ли он отвечает своему назначению? Эти вопросы могут выливаться, — и время от времени действительно выливаются, — в длительные бесплодные дискуссии. Субъективные мнения, необоснованные предчувствия и личные пристрастия могут приводить одних к переоценке возможностей конкретного теста, а у других вызывать его упорное неприятие. Единственный способ дать окончательный ответ на подобные вопросы — эмпирическая проверка. Объективная оценка психологических тестов предполагает в первую очередь определение их надежности и валидности в строго заданных ситуациях.

В психометрии термин «надежность» по существу означает согласованность. Надежность теста есть согласованность оценок у обследуемых лиц при их повторном тестировании тем же самым тестом или его эквивалентной формой. Если измерение IQ ребенка в понедельник дает коэффициент интеллекта, равный 110, а в пятницу, при повторном тестировании, равный 80, то очевидно, что ни к одной из этих оценок нельзя отнестись с доверием. Аналогично, если в наборе из 50 слов кто-то правильно определил 40, а в другом, считающимся эквивалентным, наборе — только 20, то ни одна из этих оценок не может рассматриваться в качестве надежного показателя уровня вербального понимания у данного человека. Разумеется, возможно, что в обоих примерах ошибочной является только одна из двух оценок, но это может показать лишь последующее тестирование; из приведенных данных следует только то, что обе оценки одновременно не могут быть правильными. Для более конкретного вывода (верна одна из оценок или неверны обе) требуется дополнительная информация.

Прежде чем давать разрешение на широкое использование психологического теста, необходимо провести тщательную объективную проверку его надежности. Различные типы надежности тестов и соответствующие методы ее измерения рассмотрены в главе 4. Надежность может проверяться путем сравнения результатов теста, получаемых при его проведении на одних и тех же людях в различные моменты времени, с использованием разных наборов заданий, при смене лиц, проводящих или оценивающих его выполнение, а также при варьировании любых других релевантных условий тестирования. Очень важно точно указывать тип надежности и способ ее определения, поскольку один и тот же тест может изменяться при этом в различных аспектах. Кроме того, следует сообщать сведения о величине и характере выборки, на которой проверялась надежность теста. Такая информация дает возможность пользователям теста предсказывать, будет ли данный тест столь же надежен для той группы, в которой они собираются его применить, или же им следует ожидать снижения (повышения) его фактической надежности по сравнению с номинальной.

Валидность.Несомненно, самый важный вопрос относительно всякого психологического теста касается его валидности: действительно ли данный тест измеряет то, для

Глава 1. Природа и назначение психологических тестов

измерения чего он предназначен, и в какой степени? Валидность предусматривает прямую проверку того, насколько хорошо тест выполняет свою функцию. Для определения валидности обычно требуются независимые, внешние критерии всего того, что тест должен измерять. Например, если тест пригодности к обучению медицинским профессиям используется при отборе поступающих в медицинское училище, таким критерием, в общем, будет являться успешное окончание этого училища. В процессе валидизации данного теста его следовало бы провести на большой группе студентов в то время, когда они поступают в училище. Показателями результативности их обучения в медицинском училище могли бы служить получаемые каждым студентом отметки, характеристики преподавателей, успешное или неуспешное прохождение практики и завершение обучения. Такая сводная характеристика и служит критерием, с которым должны соотноситься исходные тестовые показатели студентов. Сильная корреляция, или высокий коэффициент валидности, означала бы, что студенты, имевшие высокие показатели по тесту, добивались в медицинском училище заметных успехов, а у имевших низкие показатели успехи были слабыми. Слабая корреляция указывала бы на плохое соответствие между тестовыми показателями и критериальной мерой и, следовательно, на низкую валидность теста. В данном случае коэффициент валидности дает нам возможность определить, насколько точно может быть предсказана на основе тестовых показателей эффективность (по заданному критерию) деятельности.

Валидность тестов, предназначенных для других целей, устанавливается сходным образом относительно подходящих для этого критериев. Например, для теста профессиональной пригодности валидность можно установить, основываясь на результативности работы группы персонала, нанятого на испытательный срок. Валидность батареи тестов, предназначенных для определения летных качеств, может быть установлена по результатам тренировочных полетов. Валидизация тестов, имеющих более широкое применение, производится относительно ряда независимо получаемых поведенческих индексов, и их валидность устанавливается только в ходе постепенного накопления данных из множества различных исследований.

Читатель, может быть, обратил внимание на кажущуюся парадоксальность понятия валидности теста. Если так необходимо наблюдать за людьми вне тестовой ситуации или как-то иначе получать объективные данные о том, что мы пытаемся предсказать с помощью теста, почему же не отказаться от самого теста? Ответ на этот вопрос нужно искать в различиях между группой, на которой производится валидизация теста, и группами, в которых данный тест будет со временем использоваться по его прямому назначению. Прежде чем предоставить тест пользователям, его валидность устанавливается на репрезентативной выборке испытуемых. Показатели этих испытуемых используются не по прямому назначению, а только в целях проверки создаваемого теста. Если валидность теста доказывается таким методом, его можно применять на других выборках уже при отсутствии критериальных мер.

И все же можно возразить, что нужно лишь подождать до тех пор, пока используемые в качестве критериальных мер результаты деятельности или поведения любой группы появятся сами собой и таким образом получить ту информацию, которую мы пытаемся предсказать с помощью тестов. Однако подобный образ действий в большинстве случаев потребовал бы неприемлемых затрат времени и энергии. Так, если бы мы захотели определить, кто из поступающих на работу справится с ней или кто из абитуриентов успешно закончит колледж, нам пришлось бы принять всех желающих

Часть 1. Функции и истоки психологического тестирования

(или, в крайнем случае, сформировать из них случайную выборку) и дожидаться окончательных итогов! Тесты как раз и предназначены для того, чтобы свести к минимуму недопустимую расточительность такого образа действий — и его пагубное эмоциональное воздействие на людей. С помощью тестов можно оценить, с заданным пределом погрешности, актуальный уровень навыков, знаний и других релевантных характеристик индивидуума, составляющих предпосылку его будущей деятельности. И чем выше валидность и надежность теста, тем меньше будет относительная величина погрешности.

Конкретные проблемы, с которыми сталкиваются при определении валидности тестов разных типов, а также используемые при этом специальные критерии и статистические методы рассмотрены в главах 5 и 6. Однако один момент необходимо обсудить сейчас. Валидность показывает нам не только степень соответствия теста своему назначению. Фактически, она указывает нам,' что измеряется тем или иным тестом. Анализируя данные валидизации, мы можем объективно определить, что же все-таки измеряет наш тест. Поэтому было бы правильнее определять валидность как меру нашей уверенности в том, что тест измеряет именно то, для измерения чего он предназначен. Несомненно, интерпретация тестовых показателей была бы более ясной и однозначной, если бы тесты всегда получали названия исходя из эмпирически установленных соотношений, по которым устанавливалась их валидность. Тенденцию к изменению в этом направлении можно увидеть в выборе таких названий, как «тест академической оценки» и «тест распределения персонала» вместо неопределенного — «тест интеллекта».

Предыдущая 123 4 5 6 7 8 9 10 11 12 13 14 15 16 Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: