|
Интерпретация предметно-ориентированных тестов
Природа и направления использования.Подход к тестированию, вызвавший волну активности, особенно в сфере образования, вначале был назван «критериально-ориентированным тестированием» {criterion-referenced testing). Этот термин, впервые предложенный Р. Гласером (R. Glaser, 1963), употребляется до сих пор, причем Достаточно вольно, и различные авторы определяют его по-разному. Кроме того, появился ряд альтернативных терминов: содержательно- (content-), предметно- (domain-) и задачно- (objective-) ориентированное тестирование. Они иногда употребляются как синонимы термина «критериально-ориентированное тестирование», а иногда с Целью подчеркнуть несколько иные смысловые акценты. Постепенно первоначальное название «критериально-ориентированное тестирование» было вытеснено из обращения более точными описательными терминами. В этой книге предпочтение отдано одному из таких терминов — «предметно-ориентированное тестирование» (domainal erenced testing), который и будет употребляться впредь.
Часть 2. Технические и методологические принципы
Для предметно-ориентированного тестирования типично использовать в качестве интерпретационной системы отсчета не заранее оговоренную совокупность людей, а строго определенную содержательную область. В этом отношении оно с самого начала противопоставлялось обычному, ориентированному на нормы тестированию, в котором показатель каждого конкретного человека интерпретируется посредством сравнения с показателями, полученными другими людьми по тому же тесту. При предметно-ориентированном тестировании, например, выполнение теста испытуемым описывается в единицах освоенных арифметических операций, объема словаря, уровня трудности доступного пониманию текста (от комиксов до литературной классики) или вероятности достижения определенного уровня выполнения деятельности в соответствии с внешним (профессиональным или образовательным) критерием.
До сих пор предметно-ориентированное тестирование находило применение главным образом в некоторых педагогических новшествах, и прежде всего, в программированном обучении, компьютеризованной профессиональной подготовке и других обучающих системах с выбором индивидуального темпа обучения. Во всех таких системах тестирование тесно интегрировано с обучением и проводится до, во время и после выполнения каждого учебного задания для проверки необходимых для обучения умений, выявления возможных трудностей усвоения материала и выбора последующих обучающих процедур (Nitko, 1989).
В другом ракурсе предметно-ориентированные тесты использовались в широких инспекторских проверках качества образования, таких как Национальная программа оценки прогресса в образовании (National Assessment of Educational Progress) (E. G.Johnson, 1992; Messick, Beaton, & Lord, 1983; F. B. Womer, 1970). Кроме того, они оказались полезными в удовлетворении запросов учебной отчетности. Еще одной иллюстрацией применения предметно-ориентированного тестирования могут служить экзамены на право вождения автомобиля или управление самолетом. Родственной областью является проверка профессиональной квалификации, где оценивается владение небольшим числом строго определенных профессиональных навыков, как это имеет место во многих военных специальностях (Maier, & Hirshfeld, 1978; Swezey, & Pearlstein, 1975).
Наконец, отметим, что знакомство с принципами предметно-ориентированного тестирования может способствовать усовершенствованию традиционных, неформальных тестов, составляемых учителями для использования в своем классе. Лиин и Гронлунд (Linn, & Gronlund, 1995) разработали полезное руководство по составлению и проведению таких тестов с простым и хорошо построенным введением в предметно-ориентированное тестирование. Краткое, но превосходное обсуждение главных ограничений предметно-ориентированных тестов дано в работе Ибела (Ebel, 1972). Всестороннее рассмотрение многих специальных вопросов конструирования и оценивания таких тестов можно найти в руководстве под редакцией Берка (Berk, 1984a).
Значение содержания.Главным отличительным признаком предметно-ориентированного тестирования (как бы оно ни определялось и под каким бы названием ни выступало) является интерпретация выполнения теста с точки зрения его смыслового содержания. Упор делается на то, что тестируемые могут делать и что они знают, а не на то, как они выглядят на фоне других. Главное требование, которое необходимо соблюдать при конструировании теста этого типа, состоит в четком определении об-
Глава 3. Нормы и смысловое значение тестовых показателей
ласти знаний или умений, которые предполагается оценивать с его помощью. Если мы хотим, чтобы показатели такого теста обладали поддающимся передаче значением, необходимо выбрать содержательную область, признаваемую всеми как важную. Выбранная область подразделяется затем на небольшие единицы, определяемые в терминах выполняемой деятельности. В контексте школьного обучения такие единицы соответствуют определяемым на поведенческом уровне учебным целям типа «умножить трехзначное число на двузначное» или «указать слово, в котором ошибочно написана буква е в суффиксе ян». В программах индивидуализированного обучения число таких целей-задач может достигать нескольких сотен по одному только учебному предмету. После того как все учебные цели сформулированы, нужно составить конкретные задания, обеспечивающие выборочную проверку достижения каждой из этих целей. По общему признанию, процедура эта достаточно трудна и поглощает много времени. Но без тщательной спецификации и контроля содержания заданий результаты предметно-ориентированного тестирования легко могут превратиться в чуждую и не поддающуюся интерпретации мешанину цифр. Возможный компромисс состоит в том, чтобы выявить и определить основные понятия, принципы, методы или учебные цели, прибегнув к помощи экспертов; затем каждую из определенных таким образом значимых областей можно тщательно проверить с помощью набора подходящих тестовых заданий. Безусловно, степень специфичности, с которой должны оцениваться области поведения, варьирует в зависимости от характера и цели теста (Ро-pham, 1984; Roid, 1984).
Предметно-ориентированное тестирование, при правильном применении, лучше всего приспособлено для проверки базовых умений и навыков (таких, как навыки чтения и оперирования числами) на элементарных уровнях. В этих областях учебные цели-задачи обычно можно упорядочить в иерархическую последовательность, когда приобретение более элементарных навыков является предпосылкой для формирования навыков более высокого уровня.1 Однако применительно к более высоким уровням знаний в сравнительно мало структурированных областях практически невозможно, да и нежелательно, формулировать такие цели с предельной конкретностью. На этих уровнях как само содержание, так и последовательность его усвоения, вероятно, должны определяться более гибко.
С другой стороны, делая акцент на содержании при интерпретации тестовых показателей, предметно-ориентированное тестирование может оказать благотворное влияние на тестирование в целом. От такого подхода выиграла бы, например, интерпретация показателей тестов интеллекта. Если выполнение ребенком теста интеллекта описывать исходя из специфических интеллектуальных умений и знаний, предполагаемых набором тестовых заданий, то это могло бы помочь в преодолении тех недоразумений и неправильных представлений, которыми к настоящему времени оброс традиционный IQ Однако, когда предметно-ориентированный подход формулируется в этих общих выражениях, он равносилен интерпретированию тестовых показателей в свете подтвержденной валидности конкретного теста, а не в единицах каких-то туманных внутренних сущностей. Разумеется, такая интерпретация может комбинироваться с показателями, ориентированными на статистические нормы.
В идеале такие тесты описываются симплексной моделью шкалы Гуттмана (см. Popham, & Husek. 1969), так же как и порядковые шкалы Пиаже, обсуждаемые в главе 9.
Часть 2. Технические и методологические принципы
Тестирование овладения знаниями, умениями и навыками.Вторым важным признаком, обычно связываемым с предметно-ориентированным тестированием, является способ проверки овладения предметом. По существу, этот способ дает оценку по принципу «все или ничего», показывая, достиг или не достиг испытуемый заранее установленного уровня владения определенным предметом. При тестировании базовых умений и навыков этот уровень предполагает почти совершенное владение (требуя, например, правильного выполения 80-85 % всех заданий). Возможно также применение трехступенчатой шкалы, фиксирующей совершенное владение, невладение и промежуточный («критический») интервал, или интервал неопределенности.
В связи с индивидуализацией обучения некоторые педагоги пришли к убеждению, что при условии достаточного количества времени и адекватных методов обучения почти каждый может полностью справиться с поставленными перед ним учебными целями-задачами. В этом случае индивидуальные различия будут проявляться скорее во времени научения, чем в конечном результате, как при традиционном образовательном тестировании (Carroll, 1963, 1970; Cooley, & Glaser, 1969; Gagne, 1965). Из этого следует, что при тестировании овладения предметом индивидуальные различия в выполнении теста не представляют никакого или почти никакого интереса. В результате, предметно-ориентированные тесты в том виде, как они обычно конструируются, минимизируют индивидуальные различия в выполнении теста после соответствующего обучения. Тестирование овладения предметом систематически используется в упоминавшихся выше программах индивидуализированного обучения. На этих же принципах построены регулярно издаваемые предметно-ориентированные тесты базовых умений и навыков, пригодные для младших и средних классов школы.
При конструировании таких тестов встают два важных вопроса: 1) Сколько заданий нужно включить в тест для надежной оценки достижения каждой из конкретных учебных целей? 2) Какая доля заданий должна быть выполнена правильно для надежного установления владения предметом? На начальных этапах развития предметно-ориентированного тестирования ответы на эти вопросы опирались на субъективное мнение. Со временем, однако, был достигнут существенный прогресс в разработке статистических методов, позволяющих давать на них объективные, эмпирически обоснованные ответы (Berk, 1984a; R. L. Ferguson, & Novick, 1973; Hambleton, 1884a, 1989; Hambleton, & Novick, 1973). Несколько примеров помогут наглядно представить характер и диапазон этих разработок.
Эти два вопроса — о количестве заданий и граничных значениях показателя — можно объединить в одну гипотезу, поддающуюся проверке в рамках теории принятия решения и последовательного анализа (Hambleton, 1984a; Wald, 1947). Конкретно, мы хотим проверить гипотезу о том, что тестируемый достиг конкретной учебной цели или, иначе говоря, требуемого уровня владения определенным предметом, представленным набором заданий теста. Последовательный анализ состоит в проведении наблюдений, по одному за раз, и решении после каждого из них, следует ли 1) принять гипотезу, 2) отклонить гипотезу или 3) продолжать наблюдения. Таким образом, число наблюдений (в данном случае, число заданий), необходимых для получения надежного вывода, само определяется в процессе тестирования. Вместо того чтобы работать с фиксированным, заранее установленным числом заданий, экзаменуемый продолжает выполнять тест до тех пор, пока не будет принято решение о владении или невладении предметом. В этот момент тестирование прекращается, и учащийся либо переводится на следующий уровень обучения, либо возвращается к неосвоенному
Глава 3- Нормы и смысловое значение тестовых показателей
уровню для дополнительного изучения. С учетом описанных выше в этой главе возможностей компьютеров, такие последовательные процедуры принятия решений стали практически осуществимыми и могут сокращать суммарное время тестирования, обеспечивая надежные оценки овладения той или иной предметной областью.
Некоторые исследователи изучают возможности оценивания владения предметом на основе байесовских методов, позволяющих учитывать косвенные данные и идеально подходящих для принятия решений такого рода, которые требуются при тестировании уровня овладения знаниями, умениями и навыками. Из-за большого количества конкретных учебных целей, достижение которых должно оцениваться, в предметно-ориентированных тестах на каждую такую цель обычно приходиться лишь небольшое число заданий. Для дополнения этой ограниченной информации и были разработаны методы, учитывающие косвенные данные о прежних достижениях ученика, а также о результатах тестирования других учащихся (R. L. Ferguson, & Novick, 1973; Hambleton, 1984a; Hambleton, & Novick, 1973).
Когда невозможно применение индивидуально адаптируемых методик, граничные значения показателей могут устанавливаться эмпирически, на основе анализа показателей по данному тесту, получаемых подходящими группами до и после обучения. В этом случае граничное значение выбирается таким образом, чтобы наилучшим образом дифференцировать получивших и не получивших соответствующее обучение (Panell, & Laabs, 1979; L. A. Shepard, 1984). В специфических ситуациях требуется дополнительный анализ на предмет оценки относительной серьезности «прохождения» теста теми, кто не обучался, и, напротив, «непрохождения» теста теми, кто получил требуемое обучение. Граничное значение показателя можно было бы соответственно повысить или понизить, чтобы привести в соответствие с последствиями ошибочной классификации.
Связь с тестированием, ориентированным на нормы.За пределами базовых умений и навыков тестирование владения предметом неприменимо или недостаточно. В более сложных и менее структурированных областях не существует предела достижений. Конкретный человек может почти неограниченно совершенствовать такие функции, как понимание, критическое мышление, предчувствие и оригинальность. Кроме того, усвоение содержания может идти различными путями в зависимости от способностей, интересов и целей человека, а также от местных образовательных возможностей. При этих условиях совершенное владение нереально, да и не нужно. Вот почему в таких случаях обычно применяется ориентированное на нормы оценивание степени образованности или квалификации. Некоторые издаваемые тесты построены таким образом, что допускают как предметно-ориентированное, так и ориентированное на статистические нормы применение. Примером могут служить стэнфордские диагностические тесты чтения и математики. Обеспечивая соответствующие нормы на каждом уровне, эти тесты позволяют проводить качественный анализ достижения ребенком детализированных учебных целей.
Следует заметить, что предметно-ориентированное тестирование вовсе не так ново и не столь уж сильно отличается от ориентированного на статистические нормы тестирования, как полагают некоторые из его сторонников. Оценка индивидуального выполнения теста в абсолютных единицах, таких как буквенные отметки {lettergrades) или процент правильных ответов, несомненно, намного старше нормативной интерпретации. Еще до введения термина «критериально-ориентированное тестирова-
Часть 2. Технические и методологические принципы
нис» делались попытки более точно описать выполнение теста с точки зрения его содержания (Ebel, 1962; J. С. Flanagan, 1962; Nitko, 1984, p. 14-16). Другие примеры можно найти среди первых шкал для оценивания качества почерка, сочинений или рисунков на основе сопоставления образцов работы индивидуума с набором стандартных образцов. Более того, как заметил Ибел (Ebel, 1972), в педагогике понятие овладения (mastery) чем-либо — в смысле усвоения определенных учебных единиц по принципу «все или ничего» — достигло значительной популярности в 1920-1930-х гг., но позднее от него отказались.
Нормативная основа имплицитно присутствует во всяком тестировании, независимо от того, как выражаются показатели теста (Angoff, 1974; Nitko, 1984). Сам выбор содержания или навыков, подлежащих измерению, определяется знанием специалиста, чего можно ожидать от людей на определенном уровне их развития или обучения. Такой выбор предполагает наличие сведений о том, как другие действовали в подобных ситуациях. Кроме того, устанавливая единые граничные значения показателя на континууме умения, тестирование овладения предметом не устраняет индивидуальных различий. Например, если уровень понимания текста задается формулировкой «умение понять содержание газеты "Нью-Йорк Тайме"», то все еще остается достаточно места для значительных индивидуальных различий в степени понимания. Применяя критический балл для дихотомизации выполнения теста, мы просто игнорируем индивидуальные различия, сохраняющиеся в рамках двух устанавливаемых категорий, и тем самым отбрасываем потенциально полезную информацию.
Минимальные квалификационные требования и нритические показатели
Практические потребности и подводные камни.Понятие овладения (mastery) в предметно-ориентированном тестировании — это только один пример использования критических показателей в принятии решения. Повседневная жизнь обязывает точно формулировать и выполнять минимальные квалификационные требования к человеческой деятельности в самых различных областях. Во многих ситуациях соображения безопасности требуют установления критических, граничных точек в исполнении деятельности, как при выдаче водительских прав, отборе летчиков гражданской авиации или найме рабочих для обслуживания ядерных установок. В области образования прохождение университетского курса или окончание школы представляют собой другие ситуации, которые также требуют классификации людей по принципу «все или ничего» (Jaeger, 1989). В клинической и консультационной практике решения, касающиеся выбора лечения или линии поведения, могут требовать аналогичных, дихотомических, оценок.
Особо сильный довод в пользу применения граничных показателей связан с наличием критических переменных, необходимых для выполнения некоторых функций. Критическими называют такие переменные, недостаток в которых не может быть компенсирован выдающимися способностями или высочайшей квалификацией в областях, связанных с другими параметрами деятельности. В таких случаях высокий показатель по комплексной батарее профотбора мог бы маскировать недостаток критического умения. Однако при использовании граничных значений все те, кто не набрал требуемого минимума баллов по критическому умению, считаются не прошедшими
Глава 3. Нормы и смысловое значение тестовых показателей
отбор, независимо от их других способностей и умений. Например, гидроакустики должны обладать высокой слуховой различительной чувствительностью. Во время Второй мировой войны новобранцев ВМФ США первоначально отбирали для обучения специальности гидроакустика на основе их совокупных показателей по тестам слухового различения и понимания механических закономерностей. В результате, целый ряд мужчин, обучавшихся до войны в колледже и потому сведущих в механике, но, к сожалению, не обладавших требуемым уровнем развития слухового различения, был зачислен на курсы гидроакустиков, с последующим отсевом. В соответствии с заведенным в ВМФ порядком несправившихся с первым учебным заданием переводили на неквалифицированную работу — учениками матросов, теряя в связи с этим возможность использовать их в качестве специалистов. Дополнительный анализ сложившегося положения привел со временем к замене критерия отсева в процедуре отбора по этой военной специальности. Однако для большинства имеющих отношение к работе переменных их связь с эффективностью труда носит линейный характер, так что чем выше показатель по тесту, тем лучше, в общем, человек справляется с работой (Coward, & Sackett, 1990). В таких случаях, фактический показатель человека по соответствующему тесту является лучшим прогнозирующим параметром, чем его положение относительно граничной точки.
Коль скоро невозможно избежать использования критических показателей при принятии многих практических решений, важно сознавать подводные камни таких оценок и применять меры для сокращения ошибочных решений. Например, нужно стремиться смягчать ограничивающее действие единственного тестового показателя. Когда это возможно, следует предпочесть критический интервал или группу критических показателей одному-единственному показателю, полученному при однократном проведении конкретного теста. Кроме того, решения, принимаемые в отношении конкретных лиц, должны основываться на информации из разных источников, дополняющих тестовые показатели другими релевантными данными в отношении интересующей деятельности в прошлом и настоящем. Если граничные значения показателей по тестам устанавливаются группой экспертов, в ней должно быть обеспечено адекватное представительство специалистов как в области предполагаемой профессиональной деятельности, так и в области конструирования и применения тестов. Самое главное, при появлении возможности граничные значения показателей следует определять или верифицировать на основе эмпирических данных. В частности, это предполагает получение тестовых показателей на группах, которые явно различаются по критерию релевантного поведения, такому как фактическое выполнение данного вида работы. Разумеется, именно это выполнение и предназначен предсказывать конкретный тест, критический показатель по которому должен гарантировать безопасный, приемлемый или желаемый минимум. Ясной иллюстрацией эмпирического метода Установления критических показателей по тесту для отбора персонала служат таблицы ожидаемых результатов (expectancy tables), рассматриваемые в следующем разделе.
Таблицы ожидаемых результатов.Результаты теста можно также интерпретировать опираясь на критерий ожидаемого выполнения предстоящей программы обучения или работы. Такое употребление термина «критерий» соответствует сложившейся в психометрии традиции, как в тех случаях, когда говорят, что валидность теста Устанавливается относительно некоторого критерия (см. главу 1). Строго говоря, термин «критериально-ориентированное тестирование» следовало бы использовать при-
Часть 2. Технические и методологические принципы
менительно к этому типу интерпретации выполнения теста, тогда как другие подходы, обсуждавшиеся в предыдущем разделе, правильнее было бы характеризовать как содержательно- или предметно-ориентированные.
В таблице ожидаемых результатов приводятся вероятности различных критериальных исходов для лиц, получивших тот или иной тестовый балл. Например, если учащийся набрал 530 баллов по Тесту академической оценки (SAT) Совета колледжей, то каковы его шансы закончить первый курс определенного колледжа со средней оценкой А, В, С, D или F? Информацию такого рода можно получить, изучая двумерное распределение, связывающее значения прогнозирующих показателей (SAT) с критерием статуса студента первого курса (средней оценкой успеваемости). Если число случаев в каждой ячейке такого двумерного распределения заменить на проценты, получится таблица ожидаемых результатов, такая как табл. 3-6. В ней представлены данные, полученные при обследовании 211 учащихся 7-х классов, записавшихся на курс математики. В качестве предиктора здесь использован тест числового рассуждения из Дифференциальных тестов способностей (DAT), проведенный в конце первого семестра, а в качестве критерия — итоговые оценки по курсу математики в конце второго семестра. Корреляция между тестовыми показателями и критерием составила 0,60.
Таблица 3-6 Таблица ожидаемых результатов, демонстрирующая связь между показателями теста числового рассуждения (из DAT) и итоговыми оценками по курсу математики
211 учащихся 7-х классов
Тестовый показатель
| Число случаев
| Процент
| получивших каждую оценку
|
|
| D и ниже
| С
| В А
| 30 и выше
|
|
|
|
| 36 59
| 20-29
|
|
|
|
| 43 27
| 10-19
|
|
|
|
| 24 3
| Ниже 10
|
|
|
|
| 14 7
| (С упрощениями из Technical Manual for Differential Aptitude Tests, 5th ed., p. 152. Воспроизведено с разрешения Психологической корпорации. Copyright © 1992 by The Psychological Corporation)
В первой колонке табл. 3-6 приведены тестовые показатели, сгруппированные в четыре интервала, во второй — число учащихся, тестовые показатели которых попали в соответствующий интервал. Остальные цифры таблицы (по строкам) показывают процент учащихся внутри каждого интервала группирования показателей теста, получивших оценку А, В, С или D (и ниже) по окончании курса. Так, из 22 учеников, набравших в тесте числового рассуждения 30 и более баллов, 5 % получили оценку D (или ниже), никто не получил оценку С, 36 % получили оценку В и 59 % — оценку А. На другом краю распределения, из 14 учеников с тестовым показателем ниже 10 баллов получили оценку D (или ниже) 43 %, С — 36 % и В — 14 %. Аномальные 7 % учеников, получивших оценку А, представляют собой лишь один случай и потому не несут практически полезной информации для обобщения, так же как и 5 % учеников с тестовым показателем 30 (и более) баллов, получивших оценку D (или ниже), опять-таки представленных одним случаем. Тем не менее с учетом ограничений имеющихся данных, проценты в табл. 3-6 дают оценки вероятности получения индивидуумом
Глава 3. Нормы и смысловое значение тестовых показателей
Рис.3—7. Диаграмма ожидаемого отсева, показывающая связь между выполнением заданий батареи отбора летчиков и отчислением с начального курса летной подготовки
(Из J. С. Flanagan, 1947, р. 58)
того или иного критериального балла. Например, если новый ученик наберет 24 балла по тесту числового рассуждения DAT (т. е. попадет в интервал группирования 20-29), его шансы получить А по курсу математики можно оценить как 27 из 100, а шансы получить В — как 43 из 100, и т. д.
Во многих практических ситуациях может отдаваться предпочтение дихотомическим критериям в виде «успеха» или «неудачи» в работе, в прохождении учебного курса и т. д. В этих условиях можно построить диаграмму ожидаемого отсева, показывающую вероятность успеха или неудачи для каждого интервала группирования тестовых показателей. Рис. 3-7 дает пример такой диаграммы. Базирующаяся на батарее отбора летчиков, разработанной ВВС США, эта диаграмма ожидаемого отсева показывает для каждого станаина шкалы процент курсантов, не справившихся с начальным курсом летной подготовки. Можно увидеть, что в процессе подготовки отсеялись 77 % курсантов, получивших тестовый показатель, равный 1 станаину, и только 4 % курсантов, получивших показатель, равный 9 станайнам. Между этими крайними значениями процент неудач неуклонно снижается с прибавлением каждого станаина. На основе этой диаграммы ожидаемого отсева можно было бы предсказать, например, что приблизительно 40 % курсантов с тестовым показателем, равным 4 станайнам, потерпят неудачу и приблизительно 60 % из них удовлетворительно завершат начальный курс летной подготовки. Аналогичные прогнозы по каждому станаину можно строить и относительно вероятности успеха или неудачи отдельных курсантов. Так, получив тестовый показатель, равный 4 станайнам, курсант имеет 60 шансов против 40, т. е. 3 Шанса против 2, успешно закончить начальный курс летной подготовки. Нетрудно видеть, что помимо обеспечения критериально-ориентированной интерпретации тес-
Часть 2. Технические и методологические принципы
товых показателей таблицы ожидаемых результатов и диаграммы ожидаемого отсева дают общее представление о валидности теста в предсказании по данному критерию. По этой причине эмпирические процедуры установления критических значений тестового показателя более подробно обсуждаются в конце главе 6, в разделе о моделях принятия решений в честном использовании тестов. В этом разделе также упоминаются математические методы для установления оптимальных критических значений тестового показателя при различных условиях. Кроме того, с конкретными приложениями критических показателей в основных областях психологической практики можно ознакомиться в главе 17.
НАДЕЖНОСТЬ
Под надежностью понимается устойчивость, или согласованность (consistency) результатов теста, получаемых при повторном его применении к тем же испытуемым в различные моменты времени, при использовании разных наборов эквивалентных заданий или же при изменении других условий обследования. Такое понимание надежности лежит в основе вычисления ошибки измерения отдельного показателя, благодаря чему мы можем предсказывать диапазон случайных колебаний тестового балла у конкретного человека, возникающих, вероятно, под действием посторонних или неизвестных факторов.
Понятие надежности обычно охватывает несколько аспектов устойчивости тестовых показателей. В самом широком смысле надежность теста показывает, в какой степени индивидуальные различия в тестовых показателях могут быть отнесены на счет «истинных» различий в изучаемых свойствах, а в какой могут быть приписаны случайным ошибкам. Говоря более специальным языком, меры надежности теста позволяют оценить, какую долю общей дисперсии (общей изменчивости) тестовых показателей составляет дисперсия ошибок. Это не «ошибки» в обычном смысле слова, предполагающем, что их можно было бы избежать или скорректировать путем усовершенствования методологии измерений. Данное терминологическое значение слова «ошибка» унаследовано из более ранней эпохи в развитии психологии, когда интерес ученых сосредоточивался на выявлении общих законов поведения и оценивании испытуемых по таким свойствам, которые считались неизменными базовыми чертами. В наше время психологи признают изменчивость существенным свойством всякого поведения и потому занимаются выявлением и классификацией многочисленных источников такой изменчивости.
Что касается надежности показателя, суть дела заключается в определении дисперсии ошибок. Факторы, которые применительно к одним задачам можно было бы счесть источниками случайной вариации показателя (т. е. дисперсии ошибок), при Решении других задач могут быть отнесены, и не без основания, к причинам его истинной дисперсии. Например, если бы нас интересовало измерение колебаний настроения, то происходящие день ото дня изменения в показателях шкалы «радость — уныние» были бы релевантны цели данного теста и, следовательно, составляли бы часть
Часть 2. Технические и методологические принципы
истинной дисперсии показателей. С другой стороны, если бы тест предназначался для измерения более устойчивых характеристик личности, те же ежедневные колебания попали бы уже в разряд дисперсии ошибок.
В сущности, любое условие тестирования, которое не имеет отношения к цели теста, представляет собой источник дисперсии ошибок. Поэтому, стремясь к поддержанию единых условий тестирования (контролируя общую обстановку, временные ограничения, инструкции испытуемым, раппорт и другие аналогичные факторы), пользователи тестов способствуют уменьшению дисперсии ошибок и повышению надежности тестовых показателей. Но и при оптимальных условиях тестирования ни один тест не является абсолютно надежным инструментом. Поэтому каждый тест следует сопровождать сведениями о его надежности. Сообщаемая мера надежности характеризует тест только в случае его проведения в стандартных условиях и с людьми, имеющими сходство с теми, кто входил в состав нормативной выборки. Следовательно, при описании теста нужно точно указывать и характеристики этой выборки, вместе с типом измеренной на ней надежности.
Теоретически, разновидностей тестовой надежности может быть очень много — столько же, сколько и условий, влияющих на показатели теста, так как любое из этих условий может оказаться нерелевантным конкретной цели тестирования и потому отнесенным к источникам дисперсии ошибок. Однако практическое применение находит лишь несколько типов надежности. В этой главе мы обсудим основные способы измерения надежности тестовых показателей, вместе с источниками дисперсии ошибок, идентифицируемыми каждым из этих способов.1
Поскольку все типы надежности касаются степени согласованности или соответствия между двумя независимо полученными множествами показателей, их все можно выразить в виде коэффициента корреляции. Соответственно, с целью разъяснить использование и интерпретацию коэффициентов корреляции, в следующем разделе рассматриваются их основные характеристики. Более специальное обсуждение корреляции, с подробным описанием вычислительных процедур, можно найти в любом элементарном учебнике по статистике для педагогов и психологов (см, например, Ru-nyon, & Haber, 1991; D. С. Howell, 1997).
Коэффициент корреляции
Смысл корреляции.По существу, коэффициент корреляции (г) выражает степень соответствия или связи между двумя множествами показателей. Например, если ис-пытуемый„получивший высший показатель по переменной 1, получает высший показатель и по переменной 2, а испытуемый, получивший второй лучший показатель по переменной 1, получает такой же показатель по переменной 2 и т. д. до самого низшего
1 Этот подход к надежности показателей иногда называли теорией надежности как обобщаемое™ (см. Brennan, 1994; Crick & Brennan, 1982; Cronbach, Gleser, Nanda, & Rajaratnam, 1972; Feldt, & Brennan, 1989; Shavelson & Webb, 1991). Однако это название недостаточно специфично для дифференциального термина, так как понятие обобщаемое™ применимо ко всем аспектам тестовых показателей, да и, фактически, ко всем научным данным. Более точная характеристика этого метода определения надежности основана на его способности идентифицировать компоненты дисперсии как релевантные или нерелевантные.
Глава 4. Надежность
Рис. 4—1. Двумерное распределение для гипотетической корреляции (+ 1)
показателя в группе, то имеет место прямолинейная корреляция между переменными 1 и 2. Величина корреляции составляет в этом случае + 1,0.
Рис. 4-1 иллюстрирует гипотетический случай прямолинейной положительной корреляции. На рисунке представлена диаграмма рассеяния, или двумерное распределение. Каждая палочка на этой диаграмме отмечает показатель испытуемого как по переменной 1 (горизонтальная ось), так и по переменной 2 (вертикальная ось). Нетрудно заметить, что все 100 случаев в данной группе распределились вдоль диагонали, идущей из левого нижнего угла в правый верхний угол диаграммы. Такое распределение означает прямолинейную положительную корреляцию (+ 1,00), поскольку из него видно, что относительное положение каждого испытуемого по обеим переменным одинаково. На практике, чем ближе двумерное распределение показателей к этой Диагонали, тем выше положительная корреляция между ними.
На рис. 4-2 изображена прямолинейная отрицательная корреляция (— 1,00). В этом случае имеет место полная инверсия показателей по двум переменным: лучший индивидуальный результат по переменной 1 соответствует худшему по переменной 2, и наоборот, причем это обратное соотношение показателей сохраняется неизменным на всем распределении. Из диаграммы рассеяния видно, что все испытуемые Распределяются по диагонали, идущей из левого верхнего в правый нижний угол.
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|