|
Методы идентификации конструкта
Термин «конструктная валидность» (construct validity) был официально введен в лексикон психометристов в 1954 г., ознаменованном выходом в свет Технических рекомендаций для психологических тестов и диагностических методик (Technical Recommendations for Psychological Tests and Diagnostic Techniques, — первого издания современных Стандартов тестирования. Первое подробное описание конструктной ва-лидности появилось в следующем году в статье Кронбаха и Мила (Cronbach, & Meehl, 1955). Дискуссии вокруг понятия конструктной валидности, развернувшиеся сразу После этой публикации и ведущиеся с неослабной энергией до сих пор, способствовали прояснению исходных предпосылок, лежащих в основе методов установления этого типа валидности, и обеспечению систематического обоснования их использования.
Современные приложения, подробное объяснение способов и критические оценки метаанализа можно найти в следующих работах: Hartigan & Wigdor (1989), Hedges (1988), Hunter & Schmidt (!990), L. R. James, Demaree, Mulaik, & Ladd (1992), L. V. Jones & Applebaum (1989), R. Rosenthal (!99l), Schmidt (1992), Schmidt et al. (1993), Schmidt, Ones, & Hunter (1992). Что касается простого ВВеДения в статистические процедуры метаанализа, см. F. M. Wolf (1986). Более широкая перспекти-J1 использования метаанализа в поведенческих науках представлена в Cook et al. (1992), Cooper & Hedges (1994), Hasselblad & Hedges (1995), Wachter & Straf (1990).
Часть 2. Технические и методологические принципы
Валидизация конструкта привлекла внимание к роли психологической теории в конструировании тестов и к необходимости формулировать гипотезы, которые можно было бы подтвердить или опровергнуть в процессе валидизации теста. Понятие конст-руктной валидности к тому же стимулировало поиск новых способов сбора данных о валидности. Хотя некоторые из этих способов были уже давно известны, их область применения была существенно расширена, чтобы иметь возможность включить большее число конкретных процедур.
Конструктная валидность теста показывает, насколько его результаты могут рассматриваться в качестве меры некоего теоретического конструкта или свойства. Примерами таких конструктов являются академические способности, понимание механических закономерностей, беглость речи, скорость ходьбы, нейротизм и тревожность. Каждый конструкт разрабатывается в целях объяснения и организации наблюдаемых последовательностей реакций. Он выводится из установленных взаимосвязей между поведенческими характеристиками. Валидизация конструкта требует постепенного накопления информации из разных источников. В дело идут любые данные, проливающие свет на природу рассматриваемого свойства и на условия, от которых зависит его развитие и проявление. Примеры конкретных методов, способствующих идентификации конструктов, рассматриваются ниже.
Возрастные изменения.Главным критерием, используемым при валидизации ряда традиционных тестов интеллекта, является возрастная дифференциация (age differentiation). Такие тесты, как шкала Стэнфорд—Бине и большинство тестов для дошкольников, проверяются на соответствие хронологическому возрасту, с тем чтобы выяснить, повышаются ли тестовые показатели детей от года к году. Поскольку ожидается, что способности и умения детей возрастают с каждым годом, предполагается, что и показатели теста должны соответственно повышаться, если этот тест является валидным. Само понятие возрастной шкалы интеллекта, введенное А. Бине, основано на допущении, что «интеллект» увеличивается с возрастом, по крайней мере до наступления зрелости.
Критерий возрастной дифференциации, разумеется, неприменим к таким функциям, которые не обнаруживают четких и последовательных возрастных изменений. В области измерения личности, например, этот критерий нашел ограниченное применение. Кроме того, следует отметить, что возрастная дифференциация, даже когда она применима, является необходимым, но не достаточным условием валидности. Так, если тестовые показатели не улучшаются с возрастом, такой результат, вероятно, указывает на то, что данный тест не является валидной мерой способностей, которые он должен выборочно проверять. С другой стороны, доказательство того, что тест измеряет нечто, увеличивающееся с возрастом, еще не дает достаточно точного определения области, охватываемой этим тестом. Замеры роста или веса будут также обнаруживать регулярные прибавки с возрастом, хотя и производятся отнюдь не тестом интеллекта.
В заключение подчеркнем еще один момент, касающийся интерпретации возрастного критерия. Психологический тест, валидность которого установлена относительно такого критерия, измеряет характерные черты поведения, усиливающиеся с возрастом в условиях той среды, в которой тест был стандартизован. Поскольку различные культуры могут стимулировать и поощрять развитие непохожих черт поведения, критерий возрастной дифференциации нельзя считать универсальным. Как и все другие критерии, он действителен лишь для определенной культурной среды.
Глава 5. Валидность: основные понятия
Анализ возрастных изменений является также основным методом конструктной валидизации порядковых шкал Пиаже, обсуждаемых в главах 3 и 9. В основу таких шкал положено допущение о последовательном структурировании (sequentialpatterning) развития, согласно которому достижение более ранних стадий в развитии понятий служит необходимой предпосылкой к приобретению более поздних когнитивных умений. Таким образом, содержанию этих шкал присуща имманентная иерархичность. Конструктная валидизация порядковых шкал, следовательно, включает эмпирические данные о неизменности последовательных ступеней развития. Это предполагает проверку выполнения теста детьми на разных уровнях развития любого исследуемого понятия, например сохранения или постоянства объекта. Иначе говоря, необходимо установить, действительно ли дети, владеющие определенным понятием на данном уровне, владеют им и на более низких уровнях.
Корреляции с другими тестами.Корреляции между новым и аналогичными ему существующими тестами иногда рассматриваются как доказательство того, что новый тест измеряет примерно ту же сферу поведения, что и другие одноименные тесты, такие как тесты интеллекта или тесты механических способностей и т. д. В отличие от корреляций, получаемых при установлении прогностической критериальной валид-ности, эти корреляции должны быть умеренно высокими. Если новый тест слишком тесно коррелирует с уже существующим и не обладает такими дополнительными преимуществами, как краткость или легкость проведения, то это означает излишнее дублирование имеющегося теста.
Корреляции с другими тестами используются, помимо этого, в качестве меры относительной свободы нового теста от влияния определенных посторонних факторов. Например, тесты специальных способностей или личности не должны иметь высоких корреляций с тестами общего интеллекта или академических способностей. Точно так же понимание читаемого не должно заметно влиять на выполнение таких тестов. Это объясняет, почему корреляции с тестами общего интеллекта, чтения и вербального понимания иногда приводят в качестве косвенного, или негативного, доказательства валидности. В этих случаях высокие корреляции ставили бы под сомнение валидность теста. Однако низкая корреляция сама по себе еще не гарантирует достаточной валидности. Нужно иметь в виду, что это использование корреляций с другими тестами аналогично одному из рассмотренных выше вспомогательных приемов валидизации через описание содержания.
Факторный анализ.Разработанный как средство идентификации психологических черт, факторный анализ имеет самое прямое отношение к методам валидизации конструкта. В сущности, факторный анализ представляет собой тонкий статистический инструмент анализа взаимосвязей данных о поведении. Например, если 300 человек прошли 20 тестов, то первый шаг состоит в вычислении попарных корреляций между всеми тестами. Простой просмотр итоговой матрицы из 190 коэффициентов корреляции уже мог бы выявить некоторые группы (кластеры) коррелирующих между собой тестов, что означало бы обнаружение общих черт. Так, если такие тесты, как словарный, аналогий, антонимов и завершения предложений, тесно коррелируют между собой и слабо — со всеми другими тестами, то мы могли бы, в предварительном порядке, вывести наличие фактора вербального понимания. Поскольку анализ корреляционной матрицы визуальным путем и труден и ненадежен, то для обнаружения
Часть 2. Технические и методологические принципы
общих факторов, необходимых для объяснения полученных корреляций, были разработаны более точные статистические методы. Эти методы факторного анализа будут еще рассмотрены в главах 11, в связи с их использованием в исследованиях природы интеллекта, где они и зародились.
В ходе факторного анализа равное количеству тестов число переменных или категорий, с помощью которых описываются результаты каждого тестируемого, сокращается до нескольких факторов или общих черт. В приведенном выше примере для объяснения попарных корреляций между 20 тестами могло бы хватить 5 или 6 факторов. Иначе говоря, описание каждого человека с помощью показателей по 20 тестам можно было бы заменить характеристикой на основе оценок по 5 или 6 факторам. Главное назначение факторного анализа состоит в упрощении описания поведения путем сокращения большого числа разнообразных категорий (соответствующих тестируемым переменным) до нескольких общих факторов, или черт.
После идентификации факторов их можно использовать для описания факторной структуры теста. Каждый тест можно, таким образом, охарактеризовать исходя из главных факторов, определяющих его показатели, с учетом веса или нагрузки каждого фактора и корреляции теста с каждым из них. Такую корреляцию иногда приводят как факторную валидностъ (factorial validity) теста. Так, если фактор вербального понимания имеет корреляцию 0,66 со словарным тестом, то факторная валидность этого теста как средства измерения вербального понимания равна 0,66. Следует отметить, что факторная валидность по существу представляет собой корреляцию теста со всем тем, что есть общего у группы тестов или других индексов поведения. Анализируемое множество переменных может, разумеется, включать в себя как данные тестов, так и данные иного рода. Субъективные оценки (ratings) и другие меры критерия, наряду с другими тестами, могут быть использованы для исследования факторной структуры конкретного теста и для определения измеряемых им общих черт.
Внутренняя согласованность.В публикуемой информации о некоторых тестах, особенно применяемых для исследования личности, можно встретить утверждение, что валидность теста была установлена методом внутренней согласованности. Существенной особенностью этого метода является использование в качестве критерия валидизации суммарного показателя самого теста. Иногда для оценки внутренней согласованности теста приспосабливается метод контрастных групп, которые в этом случае формируются из испытуемых с самыми высокими и с самыми низкими суммарными показателями по данному тесту. Результаты выполнения каждого задания теста группой с верхним значением критерия сравнивается затем с соответствующими результатами группы с нижним значением критерия. Задания, по которым не удалось обнаружить существенно большей доли «правильных» (совпадающих с ключом) ответов в группе с верхним значением критерия по сравнению с группой с низким значением критерия, признаются невалидными и либо отбрасываются, либо перерабатываются. Можно также воспользоваться корреляционными методами, например вычислить бисериальные коэффициенты корреляции между исходами («справился — не справился») каждого задания и суммарным показателем теста. В этом случае сохраняются только те задания, для которых отмечена значимая корреляция с тестом в целом. Если тест состоит из заданий, прошедших такого рода отбор, то можно говорить о его внутренней согласованности, поскольку каждое его задание дифференцирует респонденов в том же направлении, что и тест в целом.
Глава 5. Валидность: основные понятия
Еще одно применение критерия внутренней согласованности связано с корреляцией между показателями субтестов и суммарным показателем теста. Многие тесты интеллекта, например, состоят из раздельно проводимых субтестов (таких, как словарный, арифметический, недостающие детали и т. д.), показатели которых складываются при нахождении суммарного тестового показателя. При конструировании этих тестов показатели по каждому субтесту часто коррелируются с суммарным показателем, и субтесты, имеющие низкую корреляцию с тестом в целом, исключаются. Коэффициенты корреляции оставшихся субтестов с суммарным показателем теста приводятся затем как свидетельство внутренней согласованности всего этого измерительного инструмента.
Очевидно, что корреляции, отражающие внутреннюю согласованность теста, являются по существу мерой его однородности. Поскольку это свойство помогает охарактеризовать область поведения или отдельную черту, выборочно проверяемые тестом, то степень однородности теста имеет отношение к его конструктной валидности. Тем не менее вклад данных о внутренней согласованности теста в его валидизацию носит ограниченный характер. При отсутствии внешних по отношению к тесту данных мало что можно узнать о том, что он в действительности измеряет.
Конвергентная и дискриминантная валидизация.В своем глубоком анализе методов валидизации конструкта Д. Т. Кэмпбелл (D. Т. Campbell, 1960) обратил внимание на следующее: для доказательства конструктной валидности мы должны показать, что тест не только имеет высокие корреляции с другими переменными, с которыми он должен коррелировать исходя из теоретических предположений, но и не имеет значимых корреляций с переменными, от которых он должен отличаться. В своей более ранней статье Кэмпбелл и Фиске (D. Т. Campbell, & Fiske, 1959) охарактеризовали первый и второй аспект анализа конструктной валидности как конвергентную и дис-криминантную валидизацию соответственно. Корреляция показателей теста количественных рассуждений с последующими оценками по курсу математики могла бы служить примером конвергентной валидизации. Для того же самого теста одним из доказательств его дискриминантной валидности могло бы быть получение низкой и статистически незначимой корреляции с тестом понимания текста, поскольку умение читать не является релевантной переменной для теста, предназначенного измерять количественные рассуждения.
Напомним, что требование низкой корреляции с нерелевантными тесту переменными рассматривалось выше в связи с дополнительными и превентивными мерами, рекомендуемыми при установления содержательной валидности. Кроме того, дискриминантная валидизация особенно важна при установлении валидности тестов личности, в которых нерелевантные переменные могут влиять на результаты самым непредсказуемым образом.
В упомянутой выше статье (D. Т. Campbell, & Fiske, 1959) предложен систематизированный экспериментальный план для одновременного проведения конвергентной и Дискриминантной валидизации тестов, названный авторами матрицей «свойства х Методы» (multitrait-multimethod matrix). По существу дела, этот план предполагает °Ценку двух или более свойств двумя или более методами. Гипотетический пример, Взятый из этой статьи, поможет прояснить предлагаемый подход. В табл. 5-1 показаны все возможные корреляции между показателями, полученными при измерении каждого из трех свойств тремя методами. Эти свойства Л, В и Смогли бы быть, ска-
Часть 2. Технические и методологические принципы
жем, тремя такими свойствами личности, как Л) доминантность, В) общительность и С) мотивация достижения. В качестве методов могли бы использоваться: 1) опросник, заполняемый респондентом, 2) проективная методика и 3) оценки сверстников. При этих условиях A t служит обозначением показателей доминантности, полученных с помощью опросника, А2 представляет показатели доминантности по проективному тесту, а С3 — оценки мотивации достижения, даваемые сверстниками.
Гипотетические коэффициенты корреляции, приведенные в табл. 5-1, включают в себя коэффициенты надежности (они стоят в скобках вдоль главной диагонали) и коэффициенты валидности (напечатаны полужирным шрифтом вдоль трех более коротких диагоналей). Как показывают коэффициенты валидности, результаты измерения каждого свойства различными методами коррелируют между собой. Таким образом каждая мера проверяется на соответствие другим, независимым мерам того же свойства, как и в знакомой нам процедуре валидизации. Таблица также содержит коэффициенты корреляции между разными свойствами, измеренными одним (сплош-
Таблица 5-1 Гипотетическая матрица «свойства х методы»
Примечание. Буквами А, В и С обозначены свойства, а нижними индексами — методы. Коэффициенты валидности (корреляции между показателями одного свойства, измеренного разными методами) представлены тремя диагонально расположенными наборами чисел, напечатанных полужирным шрифтом. Коэффициенты надежности (корреляции между показателями одного свойства при его повторном измерении тем же методом) представлены числами в скобках вдоль главной диагонали. В треугольниках из сплошных линий заключены корреляции между разными свойствами, измеренными одним методом; в пунктирных треугольниках — корреляции между разными свойствами, измеренными разными методами.
(Из Campbell & Fiske, 1959, p. 82. Copyright 1959 by the American Psychological Association. Воспроизведено с разрешения)
Глава 5. Валидность: основные понятия
ные треугольники) методом, и разными свойствами, измеренными разными (пунктирные треугольники) методами. Конструктная валидность может считаться удовлетворительной, если коэффициенты валидности явно выше коэффициентов корреляции между разными свойствами, измеренными разными методами; они также должны быть выше коэффициентов корреляции между разными свойствами, измеренными одним методом. Например, корреляция между показателями доминантности по опроснику и по проективной методике должна быть выше корреляции между показателями доминантности и общительности по опроснику, заполняемому самим испытуемым. Если бы последняя корреляция, отражающая дисперсию общего метода, оказалась высокой, это могло бы означать, например, что на показатели респондента по этому опроснику чрезмерно влияет какой-то нерелевантный общий фактор, такой как способность понимать вопросы или желание представить себя в выгодном свете по всем свойствам.
Экспериментальные вмешательства.Еще один источник данных для валидиза-ции конструкта обеспечивают эксперименты, в которых исследуется влияние выбранных переменных на показатели теста. При проверке валидности теста, предназначенного, например, для использования в программе индивидуализированного обучения, есть только один путь — сравнить показатели тестирования до и после экспериментального обучения. Логическое обоснование такого теста требует низких показателей при первом тестировании, проводимом до соответствующего обучения, и высоких показателей при втором тестировании, после обучения. То же соотношение может проверяться и для отдельных заданий теста. В идеале с каждым заданием до обучения должно справиться минимальное, а после обучения — максимальное число учеников. Задания, с которыми мало кто справляется в обоих случаях, слишком трудны, а те, с которыми справляются почти все и до и после обучения, слишком доступны с точки зрения целей, преследуемых тестом. Если же многие в первый раз справляются, а во второй раз не справляются с заданием, то что-то неладно или с этим заданием, или с обучением, или с тем и другим.
Тест, предназначенный для измерения склонности к тревоге (anxiety-proneness), можно проверить, давая его испытуемым до и после того, как они были помещены в обстановку, провоцирующую состояние тревоги (примером может служить проверка знаний в напряженных или мешающих выполнению задания условиях). Исходные тестовые показатели тревожности можно затем соотнести с физиологическими и иными показателями выражения тревоги во время и после экспериментального воздействия. Другую (дифференциальную) гипотезу в отношении теста тревожности можно оценить, проводя тест до и после вызывающего тревогу события и наблюдая за тем, происходит ли существенное увеличение тестовых показателей при втором тестировании. Положительные результаты такого эксперимента будет свидетельствовать о том, что тестовые показатели отражают текущий уровень тревожности. Аналогичным образом можно планировать эксперименты для проверки гипотез относительно любой конкретной черты, измеряемой данным тестом.
Моделирование структурными уравнениями.В добавление к идентификации конструктов и в тестовых показателях, и в критериальной деятельности, важным протяжением вперед в области валидизации тестов стало рассмотрение отношений ежду конструктами и того пути, по которому осуществляется влияние конструкта на
Часть 2. Технические и методологические принципы
выбранную в качестве критерия деятельность (J. P. Campbell, 1990a; Messick, 1989; Schmidt, Hunter, & Outerbridge, 1986). Например, интерес человека к конкретной области может влиять на эффективность его работы через повышение усвоения релевантных фактуальных знаний, через приобретение требуемых процедурных навыков или через развитие мотивации, необходимой для того, чтобы проявлять максимум усилий и выдерживать напряжение при выполнении производственных заданий в установленные сроки. Выяснение того, каким образом идентифицированный конструкт или индивидуальная особенность приводит к хорошим или плохим результатам, вносит существенный вклад в понимание того, почему тест имеет высокую или низкую валидность в данной ситуации Такой анализ значительно облегчается при использовании статистического метода, называемого моделированием структурными уравнениями. Применение этого метода резко возросло в 1980-х и 1990-х гг., о чем свидетельствует, например, создание специального журнала — Structural Equation Modeling (1994). Данный метод тесно связан с различными версиями путевого анализа, а оба этих подхода часто называют (нестрого) «причинным моделированием».1
Каких конкретных результатов позволяет достичь моделирование структурными уравнениями и как оно возникло? При изучении элементарной статистики студенты быстро узнают, что корреляция не показывает причинной связи. Знакомый всем пример — фиктивная корреляция возраста. В смешанной выборке школьников в возрасте от 6 до 14 лет корреляция между ростом и умением производить арифметические вычисления скорее всего будет высокой, но мы вряд ли сделаем из этого вывод, что какая-то из этих переменных влияет на другую. Эта корреляция появляется, в основном, за счет изменения возраста, который, в свою очередь, связан с объемом полученного образования. Пытаясь разобраться в причинных связях, исследователи начали в 1960-х — 1970-х гг. использовать перекрестные с лагом планы эксперимента (cross-lagged experimental design) (D. T. Campbell, & Stanley, 1966; Cook, & Campbell, 1976, p. 284-293). Например, чтобы проанализировать причинные взаимосвязи между отношением ученика к математике и его показателями в этой области знаний, замеры отношения и достижений можно было бы произвести в два разных момента времени. Затем можно было бы вычислить перекрестную корреляцию между отношением к математике в моменту и достижениями в математике в момент t2 и между достижениями в математике в момент;, и отношением к математике в момент t2. Величина этих двух коэффициентов корреляции, вероятно, должна показывать относительную силу влияния в обоих направлениях. В течение ряда лет этот план казался многообещающим способом оценки воздействия двух переменных друг на друга.
Вскоре, однако, в ходе логического и статистического анализов были обнаружены серьезные недостатки метода перекрестных с лагом корреляций. Хотя сама по себе схема перекрестных сравнений через заданный интервал времени, положенная в основу экспериментального плана, не может вызвать никаких упреков, использование простейших корреляций нулевого порядка, вероятно, искажает результаты эксперимента и ведет к некорректным выводам о причинных связях (Rogosa, 1980). Источники ошибок в этой процедуре связаны с неспособностью учесть, во-первых, корреляции
1 Чтобы избежать философских выводов и допущений о первопричине или полной причинной не1111 любого события, психологи предпочли более нейтральные выражения, наподобие того, что А опреДе' ляет, влияет или воздействует на В. Тем не менее термин «причинный» иногда употребляют ДлЯ ссылки на все эти связи и отношения, предполагая понимание его ограничений читателями (<*••■ например, L. R.James, Mulaik, & Brett, 1982, chap. 1; P. A. White, 1990).
Глава 5. Валидность: основные понятия
между начальными и конечными значениями переменных; во-вторых, надежность самих переменных и их временную устойчивость; и, в-третьих, возможное влияние не-измеряемых переменных, таких как возраст и объем полученного образования в упоминавшемся выше классическом примере. Моделирование структурными уравнениями свободно от подобных упреков. По существу, это достигается благодаря применению уравнений регрессии для предсказания значений зависимых переменных по независимым переменным в различных моделях причинного анализа, включая перекрестные измерения с лагом. В этом методе для нахождения коэффициентов регрессии используются частные (парциальные) корреляции, в результате чего в уравнение вводятся все связи между переменными; учитываются как ошибки измерения, так и ошибки выборки; наконец, принимаются некоторые меры предосторожности, с тем чтобы по крайней мере признать возможность влияния дополнительных, неизмеряемых причинных переменных (Bentler, 1988; L. R.James et al., 1982; Loehlin, 1992; Rogosa, 1979).
Первый этап моделирования структурными уравнениями — построение модели гипотетических причинных отношений, которую предстоит проверить. Важно, чтобы эта модель основывалась на доскональном знании существующей информации о переменных и изучаемой ситуации. Включаемые в модель гипотетические отношения должны иметь прочное теоретическое обоснование. Проверка модели осуществляется путем решения системы совместных линейных уравнений регрессии.1 В причинном моделировании число уравнений обычно больше числа неизвестных, что позволяет получить решения для нескольких альтернативных моделей. Каждая модель сравнивается с исходной, эмпирической корреляционной матрицей для определения степени согласия. При этом, однако, несколько причинных моделей могут обнаружить примерно одинаковую степень согласия с эмпирическими данными (MacCallum, Wegener, Uchino, & Fabrigar, 1993). Такие статистически эквивалентные модели могут представлять различные причинные пути и, следовательно, давать альтернативные объяснения наблюдаемых эффектов. Опираясь на свое знание изучаемой ситуации, исследователь должен оценить эти альтернативные модели с точки зрения их правдоподобия и физического смысла.
Другая особенность моделирования структурными уравнениями состоит в том, что здесь оцениваются, как правило, причинные отношения между конструктами, а не между отдельными измеряемыми переменными. Например, для определения отношения учащегося к математике можно было бы использовать ряд показателей, таких как меры интереса, целеустремленности, представления о собственных математических способностях и других релевантных аффективных переменных. Тогда общая изменчивость этих показателей определяла бы конструкт отношения учащегося к математике, который можно связать с его последующими математическими достижениями. Использование конструктов обеспечивает более устойчивые и надежные оценки, в которых ошибка и специфические дисперсии отдельных показателей сводятся на нет.
Для ознакомления с деталями этого метода см. Bollen (1989) и Loehlin (1992). Что касается реальных вычислений, то можно воспользоваться любой из имеющихся в наличии компьютерных программ, например LISREL (Hayduk, 1988; Joreskog & Sorbom, 1986, 1989) и EQS (Bentler, 1985). [На РУС- яз. см. соответственно: Хейс Д. Причинный анализ в статистических исследованиях: Пер. с англ. — М-: Финансы и статистика, 1981; Боровиков В. П., Боровиков И. П. STATISTICA® - Статистический анализ и обработка данных в среде Windows®. - М.: Филин, 1997. - С. 528-565. - Примеч. науч.
Часть 2. Технические и методологические принципы
В настоящее время существует несколько методологических подходов к моделированию структурными уравнениями, так же как и целый ряд модификаций и процедурных усовершенствований этого метода (см., например, Anderson, & Gerbing, 1988; Bentler, 1990; Bollen, & Long, 1993; Breckler, 1990; Cole, Maxwell, Arvey, & Salas, 1993; James, 1980; Mulaik et al., 1989). И хотя моделирование структурными уравнениями все еще находится в стадии развития, этот метод является многообещающим в плане объединения теоретического, экспериментального и статистического подходов. Он уже нашел широкое применение для решения проблем психологии личности, возрастной, социальной, промышленной и педагогической психологии (например, Graves, & Powell, 1988; L. A.James, & L. R.James, 1989; MacCallum, & Browne, 1993; McCardle, 1989; Parkerson, Lomax, Schiller, & Walberg, 1984; Shavelson, & Bolus, 1982). Предпринимаются и попытки унифицировать и упростить процедуру моделирования структурными уравнениями (например, Joreskog, & Sorbom, 1993).
Вклад когнитивной психологии.Семидесятые годы свидетельствовали о сближении между экспериментальной психологией и психометрией, которое начинает приносить плоды, крайне важные для понимания конструктов, оцениваемых с помощью тестов интеллекта и других широко определяемых способностей (Ronning, Glover, Conoley, & Witt, 1987; R. E. Snow, & Lohman, 1989). Еще в 1950-е гг. когнитивные психологи стали применять понятия теории информации при изучения процессов решения задач человеком (human problem-solving). Некоторые исследователи создавали компьютерные программы, которые осуществляли эти процессы и, таким образом, моделировали мышление человека. Можно написать программы, моделирующие деятельность людей на разных уровнях умения, и, располагая такими программами, предсказывать число и виды допускаемых ошибок, а также время, необходимое для различных реакций. При разработке программы исследователь обычно начинает с анализа задачи, в котором может использовать данные, полученные с помощью методик самонаблюдения, «размышления вслух» или каких-то более тонких методов..Срав-нивая действия компьютера с действиями детей и взрослых (или с действиями экспертов и неопытных специалистов) при решении одной и той же задачи, исследователи получают возможность проверить свои гипотезы относительно того, что действительно люди делают при выполнении определенных заданий. Примеры задач, исследовавшихся этими методами, включают обычные головоломки, логические, шахматные, алгебраические (доказательство тождеств) и физические задачи, а также задачи медицинской диагностики (Chi, Glaser, & Farr, 1988; J. H. Larkin, McDermott, Simon, & Simon, 1980a, 1980 b; Newell, & Simon, 1972; Simon, 1976).
Выявленные в этих исследованиях переменные включают процессы (процедурные умения и навыки) и декларативные знания (факты и сведения). Когнитивные модели точно определяют интеллектуальные процессы, используемые при выполнении задания, способ организации этих процессов, запас релевантных знаний и то, как эти знания представлены в памяти и как они извлекаются из нее при необходимости. Все большее внимание уделяется и тому, что получило название исполнительного процесса или метапознания, относящегося к осуществляемому индивидуумом контролю за собственным выбором процессов, репрезентаций и стратегий для выполнения определенного задания. В 1970-х гг. некоторые когнитивные психологи начали применять эти методы анализа задач и компьютерного моделирования в поисковых исследованиях того, что же все-таки измеряют тесты интеллекта. Разные исследователи пыта-
Глава 5. Валидность: основные понятия
лись подступиться к этой проблеме с разных сторон (см. Resnick, 1976; Sternberg, 1981,1984,1985b). Сумма полученных в таких исследованиях результатов постепенно переходит в важные достижения в области конструирования и применения тестов.
Следствия исследований в когнитивной психологии для валидизации конструктов особенно ясно показаны в работах Эмбретсона (Embretson, 1983, 1986, 1995а). Отмечая ограниченность традиционного подхода к валидизации конструктов, Эмб-ретсон предложил учитывать два принципиальных аспекта установления валидности теста: 1) репрезентацию конструкта и 2) номотетический диапазон. Традиционный подход к установлению конструктной валидности сосредоточивался полностью на втором аспекте, т. е. на определении номотетического диапазона теста. В этом случае рассматриваются связи результатов теста внутри «номотетической сети» других переменных. Такие связи обычно изучают путем вычисления корреляций тестовых показателей с другими мерами, включая результаты критериальной деятельности и иные жизненные показатели.
С другой стороны, цель репрезентации конструкта состоит в том, чтобы установить специфические компоненты процесса обработки информации и запасы знаний, которые нужны для выполнения задач, поставленных перед испытуемыми в заданиях теста. При проведении такого анализа можно применять метод декомпозиции задачи (task decomposition)} Примеры возможных приемов включают манипулирование сложностью задачи, предъявление неполных задач или снабжение подсказками, изменяющими требования задачи. Для оценки вклада различных компонентов ответной реакции тестируемых в выполнение задания были разработаны специальные математические модели. Другим широко используемым методом для когнитивного анализа задачи является анализ протоколов (protocolanalysis) (Ericsson, 1987; Ericsson, & Simon, 1993; van Someren, Barnard, & Sandberg, 1994). Этот метод предполагает инструкцию «думать вслух» при выполнении задания или во время решения задачи. Круг используемых заданий и задач довольно широк: от умножения в уме двух заданных чисел, припоминания деталей прошлого события или обнаружения причины неисправности оборудования до ответов на последовательность заданий теста способностей. Побочным продуктом этого метода является возможное обнаружение того, что одно и то же задание теста может вызывать совершенно разные когнитивные процессы у респондентов, различающихся по биографическим данным.
Какой вывод можно сделать на сегодняшний день в отношении вклада когнитивной психологии в развитие методов валидизации конструктов? Несмотря на то что сам информационный подход находится в стадии становления, он дал ряд эвристических концепций и руководящих принципов для организации дальнейших исследований в области валидизации тестов. Один из важнейших вкладов этого подхода — привлечение внимания к процессуальной стороне ответов на задания тестов (response processes), в противоположность сосредоточению на конечных продуктах мышления в традиционных психометрических исследованиях. Анализ выполнения теста с точки зрения специфических когнитивных процессов определенно должен улучшить и расширить наше понимания того, что в действительности измеряют тесты. Кроме Того, компонентный анализ индивидуального выполнения заданий теста на уровне элементарных процессов должен, в конечном счете, сделать возможным выявление
Подробнее об этом см. Butterfield, Nielsen, Tangen, & Richardson (1985), Embretson (1985b) и Stern-'er8 (1977, 1980).
Часть 2. Технические и методологические принципы
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|