|
Надежность тестов скорости
При конструировании теста и интерпретации его показателей важно различать измерение скорости выполнения заданий и принципиальной возможности (power) индивидуума справиться с ними. В «чистом» тесте скорости (speed test) индивидуальные различия между тестируемыми полностью зависят от скорости выполнения заданий. Такой тест составляется из заданий одинаково низкой трудности, чтобы с ними заведомо могли справится все те, на кого рассчитан данный тест. Но при этом лимит времени устанавливается так, что никто не успевает выполнить всех заданий. В таких условиях показатель испытуемого отражает только скорость его работы. С другой стороны, «чистый» тест возможностей (powertest) предоставляет достаточно времени для того, чтобы любой мог попробовать выполнить все задания. Но их трудность постепенно возрастает от задания к заданию, так что практически никто не может справиться со всеми заданиями, а значит, не может получить высший показатель.
Вообще говоря, и тесты скорости, и тесты возможностей строятся с таким расчетом, чтобы нельзя было получить высшего, предельного показателя. Такая предосто-
Временная Различия выборка между
оценщиками
Рис. 4—4. Процентное распределение дисперсии показателя в гипотетическом тесте
Часть 2. Технические и методологические принципы
рожность объясняется содержащейся в предельных показателях неопределенностью: остается неизвестным, насколько показатель конкретного человека оказался бы выше, если бы в тесте было использовано больше заданий или соответственно более трудные задания. Чтобы каждый тестируемый мог полностью продемонстрировать, на что он способен, «потолок» теста должен быть заведомо выше его возможностей либо по числу заданий, либо по уровню трудности. Исключение составляет тестирование вла-ден 11я предметом (или видом деятельности), как это видно на примере предметно-ориентированных тестов, обсуждавшихся в главе 3. Цель такого тестирования не в том, чтобы установить границы возможностей конкретного человека, а в определении того, достиг ли он заранее установленного уровня выполнения определенной деятельности.
На практике различие между тестами скорости и тестами возможностей — это раз-л 114! (с в степени, и большинство тестов рассчитано на определенное соотношение скорости и возможностей. Знание этого соотношения необходимо не только для того, чтобы понять, что измеряет тот или иной тест, но и для выбора подходящих методов оценки с го надежности. Коэффициенты надежности на основе однократного тестирования, i [аподобие тех, что определяются методами распределения заданий начетные и нечетные пли по формуле Кьюдера—Ричардсона, неприменимы к тестам на скорость. Чем больше индивидуальные различия в тестовых показателях зависят от скорости выполнения, тем более завышенными оказываются коэффициенты надежности, определенные этими методами. Следующий контрастный пример поможет прояснить это утверждение 1 Тусть выполнение теста, состоящего из 50 заданий, полностью зависит от скорости, гак что индивидуальные различия в показателе основываются исключительно нач исле выполненных заданий, а не на количестве ошибок. Тогда, если испытуемый А получил 44 балла, он, очевидно, справился с 22 четными и 22 нечетными заданиями. Точно так же испытуемый В с показателем 34 балла скорее всего получил по 17 баллов за четные и нечетные задания соответственно. Следовательно, если исключить отдельные случайные ошибки, допущенные по небрежности, корреляция между показателями по четным и нечетным заданиям будет полной, т. е. равной + 1,00. Такая корреляция, однако, является ложной и не дает никакой информации о надежности теста.
Анализ методов, используемых при расчете коэффициентов надежности половин теста и Кьюдера—Ричардсона, показывает, что оба они основаны на учете согласованности числа ошибок, сделанных испытуемым. Если же индивидуальные различия в тестовых показателях зависят не от ошибок, а от скорости, то и в основу меры надежности должна быть положена согласованность в скорости работы. Когда выполнение теста зависит одновременно от скорости работы и потенциальных возможностей тестируемых, то коэффициенты надежности, вычисленные по данным однократного проведения теста, окажутся ниже 1,00, но все еще будут искусственно завышенными. Пока на индивидуальные различия в тестовых показателях существенно влияет скорость работы тестируемых, коэффициенты надежности на основе однократного тестирования не поддаются адекватной интерпретации.
Какие альтернативные методы определения надежности пригодны для тестов с выраженным скоростным компонентом? В тех случаях, когда это возможно, применяют метод повторного тестирования («тест — ретест»). С той же оговоркой применим и метод определения надежности взаимозаменяемых, эквивалентных форм. Можно воспользоваться и методом расщепления при условии, что задания теста разбиваются по временным характеристикам, а не по порядковым номерам. Иными словами, показатели по половинам теста должны основываться на раздельно нормированных по
Глава 4. Надежность
времени частях теста. Одним из способов такого разделения является проведение двух эквивалентных половин теста с отдельно устанавливаемыми временными пределами. Например, четные и нечетные задания распечатываются на разных листах и по каждому набору заданий устанавливается временной лимит, равный половине лимита для всего теста. Такая процедура равносильна проведению следующих друг за другом двух эквивалентных форм теста. Хотя каждая форма вдвое короче целого теста, показатели тестируемых, как обычно, основываются на результатах выполнения всего теста. По этой причине, чтобы определить надежность полного теста, нужно воспользоваться формулой Спирмена—Брауна или другой подходящей для такого случая формулой.
Если раздельное проведение двух половин теста невозможно, то вместо этого можно воспользоваться разделением полного времени теста на четыре части с регистрацией результатов отдельно для каждой четверти. Это легко осуществить, прося испытуемых по условленному сигналу проводящего тест отметить крестиком выполняемое в данный момент задание. Число заданий, правильно выполненных за первую и четвертую части полного временного лимита, можно затем объединить для вычисления показателя по первой половине теста. Показатель по другой половине теста будет тогда соответствовать числу заданий, с которыми испытуемый справился за вторую и третью четверти. Такая комбинация четвертей способствует нейтрализации кумулятивных эффектов тренировки, утомления и других факторов. Этот метод особенно хорошо работает, когда задания не отличаются резко друг от друга по уровню трудности.
В каких случаях скоростной компонент следует считать существенным? При каких условиях нужно соблюдать рассмотренные выше меры предосторожности? Очевидно, само Тго себе использование лимита времени еще не означает, что мы имеем дело с тестом скорости. Если все тестируемые укладываются в отведенное время, то скорость работы не сказывается на показателях. В качестве грубой числовой характеристики выраженности скоростного компонента, казалось бы, можно взять процент тестируемых, не успевающих закончить тест в установленное время. Однако даже если никто не укладывается в отведенные временные рамки, скорость выполнения может оказаться тут ни при чем. Например, если все тестируемые выполнят 40 заданий из 50, то индивидуальные различия в скорости отсутствуют, хотя никто не успевает выполнить весь тест.
Существенным здесь оказывается следующий вопрос: «В какой степени индивидуальные различия в тестовых показателях определяются скоростью работы?» Выражаясь более специальным языком, нам нужно знать, какую долю суммарной дисперсии тестовых показателей составляет дисперсия скорости. Эту долю можно приблизительно оценить, вычислив дисперсию числа выполненных разными испытуемыми
заданий и разделив ее на суммарную дисперсию тестовых показателей /sn2 ■ Для
только что приводившегося примера, когда все испытуемые выполнили по 40 заданий, числитель этой дроби равен нулю, поскольку отсутствуют индивидуальные различия в числе выполненных заданий (sd* = о). Таким образом, в чистом тесте возможностей данный индекс будет равен нулю. Напротив, если суммарная дисперсия теста [SD?) определяется индивидуальными различиями в скорости, то обе дисперсии будут равны и их отношение обратится в 1,00. Для определения этой доли дисперсии в суммарной дисперсии тестовых показателей разработан ряд более точных методов, чо их детальное обсуждение выходит за рамки настоящей книги.
Часть 2. Технические и методологические принципы
Пример влияния скорости работы на коэффициенты надежности, определяемые по результатам однократного проведения теста, дают данные, собранные в исследовании первой редакции SRA Тестов первичных умственных способностей для возраста 11-17 лет (Anastasi, & Drake, 1954). В этой работе надежность каждого теста сначала определялась обычным методом расщепления теста на четные и нечетные задания. Соответствующие коэффициенты приведены в первой строке табл. 4-5. Затем вычислялись коэффициенты надежности на основе корреляции показателей по половинам, путем разделения каждого теста на две части с отдельно устанавливаемыми лимитами времени. Эти коэффициенты приведены во второй строке табл. 4-5. Вычисление «скоростных индексов» показало, что тест «вербальное понимание» оказался, по существу, тестом возможностей, тогда как тест «логическое рассуждение» в несколько большей степени зависел от скорости работы. Из табл. 4-5 видно, что при выборе адекватного метода оценки надежности, коэффициент надежности для теста «пространственные отношения» составил 0,75 против искусственно завышенного коэффициента 0,90, полученного методом расщепления теста на четные и нечетные задания. Аналогично этому, надежность теста «логическое рассуждение» упала с 0,96 до 0,87, а «числового» теста — с 0,92 до 0,83. С другой стороны, вычисленные этими двумя методами коэффициенты надежности для теста «вербальное понимание», содержащего лишь минимальный скоростной компонент, обнаруживают незначительное различие.
Таблица 4—5 Коэффициенты надежности четырех тестов, входящих в SRA Тесты первичных умственных способностей для возраста 11-17 лет (Первая редакция)
Коэффициент надежности,
| Вербальное
| Логическое
| Простран-
| Числовой
| определяемый:
| понимание
| рассуждение
| ственные отношения
|
| методом разделения заданий
| 0,94
| 0,96
| 0,90
| 0,92
| на четные и нечетные
|
|
|
|
| (в одном сеансе тестирования)
|
|
|
|
| методом установления
| 0,90
| 0,87
| 0,75
| 0,83
| отдельных временных лимитов
|
|
|
|
| для половин теста
|
|
|
|
| (По данным из Anastasi, & Drake, 1954)
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|