Анализ заданий тестов скорости

Предыдущая 19 20 21 22 23 24 252627 28 29 30 31 32 33 34 Следующая

Независимо от того, важна ли скорость для измеряемой функции, индексы заданий, вычисленные по скоростному тесту, могут вводить в заблуждение. Если не считать заданий, при выполнении которых никто или почти никто из обследуемых не испытывал недостатка времени, эти индексы будут отражать не столько действительную трудность или различительную силу того или иного задания, сколько его положение (position) в данном тесте. С заданиями, появляющимися в тесте позднее, справится сравнительно меньшая доля общей выборки, поскольку лишь немногие успеют до них добраться. Каким бы легким ни было задание, если оно расположено в конце теста скорости, оно будет выглядеть трудным. Если, скажем, вопрос об имени тестируемого поместить в конце скоростного теста, то процент лиц, ответивших на него, был бы весьма низким.

Подобным же образом завышаются индексы различительной способности тех заданий, к выполнению которых не все тестируемые успевают приступить. Поскольку более опытные испытуемые обычно работают быстрее, у них больше шансов добраться до заданий, находящихся в конце теста скорости. Таким образом, независимо от характера самого задания некоторая корреляция между ним и критерием будет обнаруживаться просто потому, что оно появляется ближе к концу теста скорости.

Чтобы избежать некоторых из этих затруднений, можно было бы ограничить анализ каждого задания только данными тех лиц, которые достигли соответствующего задания в тесте. Это решение, однако, нельзя считать вполне удовлетворительным, если число лиц, сумевших добраться до анализируемого задания, мало. Такая процедура сопряжена с использованием быстро сокращающегося числа тестируемых, вследствие чего результаты по последним заданиям могут оказаться ненадежными. Кроме того, лица, выполнившие такие задания, вероятно, будут представлять собой селективную выборку, не сопоставимую с более широкой выборкой, использованной для анализа ранних заданий. Как уже отмечалось, испытуемые, работающие быстро, часто и более опытны. Таким образом, более поздние задания будут анализироваться на выборке лиц из верхней части распределения. Одним из эффектов такого селективного фактора могло бы оказаться снижение видимого уровня трудности более поздних заданий, поскольку процент справившихся с заданием в селективной выборке был бы выше, чем в полной выборке. Отметим, что в данном случае ошибка обратна Той, которая появляется при вычислении процента справившихся с заданием по данным всей выборки. В последнем случае происходит искусственное завышение видимой трудности заданий.

Влияние вышеупомянутой процедуры на индексы различительной способности ЗДаний не столь очевидно, но тем не менее реально. Замечено, например, что некото-

Часть 2. Технические и методологические принципы

рые из тестируемых с низкими показателями склонны спешить при выполнении теста, отвечая на задания почти случайным образом в своем стремлении опробовать их все в рамках отведенного времени. Среди получивших высокие показатели эта тенденция выражена гораздо меньше. В результате выборка, на которой производится анализ поздно появляющегося в тесте задания, нередко включает нескольких весьма слабых респондентов, выполняющих это задание на уровне случайности, и большее число опытных и быстрых респондентов, чьи ответы обычно оказываются правильными. В такой группе корреляция задания и критерия, вероятно, будет выше, чем в более репрезентативной выборке. С другой стороны, без таких случайных респондентов выборка, на которой анализируются расположенные в конце теста задания, охватывает относительно узкий диапазон способности. При этих условиях индексы различительной способности более поздних заданий, вероятно, будут ниже, чем в том случае, когда они вычисляются на всей выборке.

Ожидаемое влияние скорости на индексы трудности и различительной способности заданий проверялось опытным путем как для случаев, когда статистики задания вычислялись по данным полной выборки (Wesman, 1949), так и для случаев, когда они вычислялись по данным только тех лиц, которые пытались выполнить данное задание (Mollenkopf, 1950a). Во втором из этих двух исследований сопоставимым группам старшеклассников давали две формы вербального теста и две формы математического теста. Каждая из двух форм состояла из одних и тех же заданий, но их начальные и конечные серии в этих формах менялись местами. Каждая форма предъявлялась в жестких (условия скорости) и свободных (условия возможностей) временных рамках. Такой план эксперимента позволял проводить разнообразные сравнения между формами тестов и временными условиями. Результаты ясно показали, что положение задания в тестах скорости влияло на его индексы трудности и различительной способности. Когда одно и то же задание предъявлялось позднее в скоростном тесте, оно выполнялось большим процентом испытуемых, пытавшихся его решить, и давало более высокую корреляцию с критерием.

Трудности, возникающие в ходе анализа заданий скоростных тестов, в принципе аналогичны тем, о которых говорилось в главе 4 в связи с надежностью тестов скорости. Были предложены различные — как эмпирические, так и статистические, — способы преодоления этих трудностей. Одним из эмпирических решений было увеличение лимита времени для группы, на которой проводится анализ заданий. Такое решение приемлемо, если только сама скорость не является важным аспектом измеряемой тестом способности. Однако помимо технических проблем, связанных с конкретными тестами, необходимо иметь в виду, что данные, получаемые в ходе анализа заданий скоростных тестов, сомнительны сами по себе и требуют тщательной проверки.

Перекрестная валидизация

Смысл перекрестной валидизации. Важно, чтобы валидность теста определялась на выборке испытуемых, отличной от той, на которой производился отбор заданий-Это независимое определение валидности всего теста называется перекрестной, или кросс-валидизацией. На любом коэффициенте валидности, найденном по выборке, применявшейся для отбора заданий, будут сказываться ошибки случайного отбора гуемых, при водя к искусственному завышению его величины. Фактически, при

Глава 7. Анализ заданий

таких обстоятельствах высокий коэффициент валидности можно было бы получить даже в том случае, когда тест совершенно не обладает валидностью в предсказании конкретного критерия.

Предположим, что в выборке из 100 студентов-медиков были выделены 30 человек с самыми высокими и 30 с самыми низкими баллами по медицинским дисциплинам, которые составили контрастные критериальные группы. Если теперь эти две группы сопоставить по ряду свойств, фактически не имеющих отношения к успеваемости в медицинском колледже, то, несомненно, будут обнаружены те или иные случайные различия. Так, в верхней критериальной группе может оказаться больше выпускников частных школ и рыжеволосых студентов. Если бы нам пришло в голову приписывать каждому человеку по дополнительному баллу за окончание частной школы и за рыжий цвет волос, то средний показатель оказался бы, несомненно, выше в верхней, чем в нижней критериальной группе. Однако это не является доказательством валидности выбранных нами прогнозирующих признаков, так как такой процесс валидиза-ции содержит круг в доказательстве. Оба прогнозирующих признака выбраны в первую очередь на основе случайной вариации, которая характеризует данную выборку. И те же случайные различия ответственны за появление среднегрупповых различий в суммарных показателях. Однако при проведении теста в другой выборке случайные различия в количестве окончивших частные школы и рыжих, скорее всего, исчезнут или изменят знак, и следовательно, валидность показателей резко снизиться.

Эмпирический пример.Классическое доказательство необходимости перекрестной валидизации дает раннее исследование, проведенное с тестом чернильных пятен Роршаха (Kurtz, 1948). Чтобы выяснить, мог ли этот тест чем-то помочь при отборе кандидатов на должность коммерческого директора агентства по страхованию жизни, он был проведен на 80 таких директорах. Они были тщательно отобраны из нескольких сотен таких директоров, работающих в восьми крупных компаниях по страхованию жизни. Из этих 80 человек 42, считавшихся руководством компании весьма успешными работниками, составили верхнюю критериальную группу. Остальные 38 человек, считавшиеся неудовлетворительными работниками, образовали нижнюю критериальную группу. Полученные 80 протоколов ответов были изучены экспертами по тесту Роршаха, отобравшими 32 признака (или характеристики ответов), чаще встречавшихся в одной группе, нежели в другой. Признаки, чаще обнаруживаемые в верхней критериальной группе, оценивались в +1 балл при их наличии и в 0 баллов при их отсутствии у обследуемого; признаки, чаще встречавшиеся в нижней критериальной группе, соответственно оценивались в -1 балл при их наличии и в 0 баллов при их отсутствии. Поскольку всего имелось по 16 признаков каждого типа, суммарный показатель теоретически мог принимать значения от -16 до+16.

Когда оценочный ключ, основанный на этих 32 признаках, был применен к первоначальной группе из 80 человек, принадлежность 79 из них к верхней или нижней группе была определена правильно. Таким образом, корреляция между тестовым показателем и критерием оказалась близкой к 1,00. Однако когда была проведена перекрестная валидизация теста на второй сопоставимой выборке коммерческих директоров страховых агентств, насчитывавшей 41 человек (21 в верхней и 20 в нижней Критериальной группе), коэффициент валидности упал до пренебрежимо малой величины 0,02. Очевидно, таким образом, что ключ, разработанный на первой выборке, ^Не был валидным, а значит, и пригодным, для отбора кандидатов на такую должность.

Часть 2. Технические и методологические принципы

Пример со случайными данными.В классическом исследовании Кьюретона (Си-reton, 1950) было получено яркое доказательство того, что при использовании одной и той же выборки для отбора заданий и валидизации теста можно получить полностью фиктивный коэффициент валидности даже при чисто случайных условиях. В этой работе прогнозируемым критерием служил средний балл каждого из 29 студентов, записавшихся на курс психологии. Весь диапазон значений этого критерия был разбит на две области: оценки не ниже «В» и оценки ниже «В». Роль «заданий» в этом эксперименте играли 85 номерков с числами от 1 до 85 на одной стороне. Чтобы получить тестовый показатель для каждого студента, номерки складывались в коробку, перемешивались и высыпались на стол. Те из них, которые падали лицевой стороной кверху, регистрировались как номера выполненных данным студентом заданий. Совокупный показатель каждого студента складывался из результатов 29 бросаний 85 номерков. Эту процедуру порождения случайных оценок Кьюретон в шутку назвал «тестом В-проективного психокинеза».

Затем был проведен анализ заданий, в котором в качестве критерия фигурировал средний балл студента. На этом основании из 85 «заданий» было отобрано 24, из которых 9 чаще встречались у студентов верхней критериальной группы и поэтому получили веса +1, тогда как 15 чаще выпадали в нижней критериальной группе, и им приписывались веса -1. Сумма весов «заданий» составляла суммарный тестовый балл каждого студента. Несмотря на заведомо случайное происхождение этих «тестовых баллов», их корреляция с критерием успеваемости для все той же группы из 29 студентов оказалась равной 0,82. Этот результат аналогичен тому, который был получен в примере с тестом Роршаха. В обоих случаях видимое соответствие между показателями теста и критерием вызвано использованием одних и тех же случайных различий как при отборе заданий, так и при определении валидности теста в целом.

Условия, влияющие на уменьшение валидности.Степень уменьшения коэффициента валидности при перекрестной валидизации частично зависит от размера первоначальной совокупности заданий и от того, какая часть заданий сохраняется. Если первоначальное число заданий велико, а доля отобранных заданий мала, то возрастает возможность использования случайных различий и тем самым получения искусственно завышенного коэффициента валидности. На степень уменьшения валидности при перекрестной валидизации влияет также объем выборки. Поскольку завышение валидности в первоначальной выборке является результатом накопления ошибок выборки, при малых выборках (для которых такие ошибки больше) будет наблюдаться большее снижение валидности.

Если задания отбираются на основе предварительно сформулированных гипотез, выводимых из психологической теории или опыта работы с данным критерием, то уменьшение валидности при перекрестной валидизации будет минимальным. Например, если согласно конкретной гипотезе ответ «да» должен появляться чаще среди успевающих учеников, то задание следует отбросить, когда ответ «да» значительно чаще исходит от неуспевающих учеников. Наоборот, полностью эмпирический подход означал бы включение в первоначальную совокупность самых разнообразных вопросов, безотносительно к их связи с критериальным поведением, в расчете на последующий отбор заданий, имеющих значимую положительную или отрицательную корреляцию с критерием. В последнем случае следует ожидать большего снижения валидности, чем в первом. В своем хорошо спланированном исследовании Митчелл и

Глава 7. Анализ заданий

Климоски (Т. W. Mitchell, & Klimoski, 1986) убедительно продемонстрировали различия в уменьшении валидности, которое фактически имеет место при отборе заданий на основе рационального или эмпирического подхода. Итак, уменьшение валидности теста при перекрестной валидизации будет наибольшим, если выборки малы, исходная совокупность заданий велика, а доля отобранных из нее заданий мала, и если задания подбираются без заранее сформулированного рационального основания.

Предыдущая 19 20 21 22 23 24 252627 28 29 30 31 32 33 34 Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: