Социальная деятельность и социальные показатели 8 глава
Если подсчитать для каждой группы отдельно, то в первом случае, очевидно, = 1, а во втором = 0,15, но статистически незначимо отличается от 0.
Значимость коэффициента корреляции Спирмена для l£100 можно определить по табл. Г приложения, где приведены критические величины .
Если l>100, то критические значения находятся по табл. А приложения. Наблюдаемые значения критерия вычисляются по формуле
. (35)
Например, возвращаясь к данным табл. 10, где l<100, по табл. Г приложения найдем, что для того, чтобы был значим на уровне 0,01, он должен быть равен или превосходить 0,833. Эмпирическое значение = 0,9, и поэтому делается вывод, что имеется значимая связь между предпочтениями жизненных планов двух групп респондентов. Аналогичным образом легко убедиться, что = 0,15 при l = 4 статистически незначим.
Коэффициент ранговой корреляции Кендалла. Подобно , коэффициент Кендалла используется для измерения взаимосвязи между качественными признаками, характеризующими объекты одной и той же природы, ранжированные по одному и тему же критерию изменяется от +1 до —1.
Для расчета используется формула
(36)
Как вычисляется S, поясним на примере данных табл. 10.
Таблица упорядочена так, что в графе «Ранг I» ранги расположились в порядке возрастания их значений. Берем значение ранга, стоящего в графе Ранг II на первом месте, 3,5; из расположенных ниже данного ранга семи других четыре значения его превышают, а два — меньше его. Число 4 записывается в графу , а 2 в колонку . Аналогичный подсчет делается для второго ранга со значением 1. Число рангов, расположенных ниже данного значения и превышающих его, равно 6, а число рангов, меньших данного,— 0 и т. д. Остальные вычисления ясны из следующей таблицы:
Тогда, подставив соответствующие значения в формулу (36), получим
Таким образом, дает более осторожную оценку для степени связи двух признаков, чем .
При расчете не учитывались равные ранги. Например, в табл. 10 имеются два равных ранга со значением 3,5. Если число равных рангов велико, то необходимо вычислить по следующей формуле:
(37)
где ( — число равных рангов по первой переменной); ( — число равных рангов по второй переменной). Для предыдущего примера = 1, = 2, тогда = 0, = 1.
Значимость коэффициента корреляции Кендалла при l>10 определяется по формуле
(38)
Гипотеза о том, что = 0, будет отвергнута для данного a если .
Для вышеприведенного примера
По табл. А приложения для a = 0,05 находим , равное 1,96. Поскольку расчетное значение Z = 2,84 и, следовательно, больше заключаем с вероятностью 95%, что
Коэффициенты корреляции Спирмена и Кендалла используются как меры взаимозависимости между рядами рангов, а не как меры связи между самими переменными. Так, в табл. 10 ранги отражают иерархию жизненных планов, но совершенно не говорят о том, что дети рабочих почти в равной мере хотят получить как высшее образование, так и интересную работу (разница 0,2%), а дети крестьян в большей степени стремятся к высшему образованию (разница 8%). Кроме того, какая-нибудь из групп респондентов может считать, что выделенные категории вообще не отражают их жизненных планов, но проранжировали предложенные варианты. Если для целей исследования можно предположить эти моменты несущественными, то оправданно применение ранговой корреляции.
Коэффициенты Спирмена и Кендалла обладают примерно одинаковыми свойствами, но т в случае многих рангов, а также при введении дополнительных объектов в ходе исследования имеет определенные вычислительные преимущества[97].
Другая мера связи между двумя упорядоченными переменными — у. Она, так же как и предыдущие коэффициенты, изменяется от +1 до —1 и может быть подсчитана при любом числе связанных рангов. Формула для вычисления записывается в виде
Для иллюстрации правил вычисления , по сгруппированным данным обратимся к примеру (табл. 11).
Таблица 11. Распределение ответивших на вопрос: «Устраивает ли Вас Ваша настоящая работа» — в зависимости от стажа работы в бригаде
Альтернативы ответа
| Стаж работы
| Сумма
| до 1 года
| 1-2 года
| 2-5 лет
| 5 и более
| Устраивает
Не устраивает
|
|
|
|
|
| Сумма
|
|
|
|
|
|
Процесс вычисления и наглядно представлен па схеме (схема 2).
|
|
|
|
| +
|
|
|
|
| +
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| +
|
|
|
|
| +
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| СХЕМА 2. Схема вычисления и
Так:
Подставляя эти величины в формулу для , находим
Проверку статистической значимости проводят по формуле
Гипотеза H0 о равенстве нулю коэффициента отвергается, если . Для наших данных
Для a = 0,05 по табл. А приложения . Таким образом, , и, следовательно, у нас нет оснований отвергнуть гипотезу Н0: = 0, т. е. лишь в 5 % случаев следует ожидать, что будет отличен от нуля.
Множественный коэффициент корреляции W. Этот коэффициент, иногда называемый коэффициентом конкордации, используется для измерения степени согласованности двух или нескольких рядов проранжированных значений переменных.
Коэффициент W вычисляется по формуле
где k — число переменных; п — число индивидов или категорий, которые ранжируются; (сумма рангов по строке — а)2; а - среднее из суммы рангов.
Таблица 12. Вычисление множественного коэффициента ранговой корреляции
Респондент
| Удовлетворенность по признакам А, Б, В
| Сумма рангов
| А
| Б
| В
| 1-й
2-й
3-й
4-й
5-й
|
|
|
|
| n = 5
|
|
|
|
|
Для данных табл. 12 а = 45/5 = 9;
Значимость полученной величины W для п>7 проверяется по критерию .
(41)
со степенью свободы n—1. Для примера = 10,133, степень свободы (n—1) = 4. Для a = 0,05 из табл. Б приложения находим = 9,488. Поскольку наблюдаемое значение больше критической точки, отвергаем гипотезу о том, что не существует значимой связи между рассматриваемыми переменными[98].
Коэффициенты взаимозависимости для номинального уровня измерения.
Связь в табл. 2×2. Простейшая задача о взаимозависимости возникает тогда, когда имеются два признака, каждый из которых принимает два значения (табл. 13).
Таблица 13. Распределение отношения к правилам уличного движения в зависимости от пола
Отношение к правилам уличного движения в течение месяца, %
| Пол
| Всего
| мужской
| женский
| Нарушение
Соблюдение
|
|
|
| Всего
|
|
|
|
Представим данные о группировке по этим двум признакам так:
| В
| не В
| Сумма
| А
Не А
| a
c
| b
d
| a + b
c + d
| Сумма
| a + c
| b + d
| n (либо 100%)
|
Для характеристики степени связи двух признаков применяется коэффициент Ф, определяемый формулой
(42)
Коэффициент Ф равен 0, если нет соответствия между двумя дихотомическими переменными, и равен 1 или —1, когда имеется полное соответствие между ними. В силу трудностей с интерпретацией знака коэффициента для категоризованных (номинальных) переменных часто используют в анализе лишь абсолютную величину — . Ф легко интерпретируется, поскольку показано, что он представляет собой просто коэффициент корреляции r, если значения каждой дихотомической переменной обозначить 0 и 1.
Как уже отмечалось, Ф вычисляется для категоризованных данных, представляющих естественные дихотомии: пол, раса, и т. п. Приведение количественных переменных к дихотомическому виду связано с выбором граничной точки разделения (например, мужчины до 30 лет и мужчины старше 30 лет). Искусственная дихотомизация, столь часто необходимая в конкретном исследовании при изучении взаимосвязи признаков, может привести к тому, что одна часть дихотомической переменной по своему воздействию будет более значима для одной связи, другая— для другой, а это даст ошибочный результат.
Измерение связи в табл., с×k. Рассмотрим теперь более общую ситуацию, когда две переменные классифицированы на две или более категории. Запишем это таким образом:
где частоты; — маргинальные суммы частот по строкам; — маргинальные суммы частот по столбцам. На с. 169 — 172 для выяснения отклонения от независимости распределения значений в подобном случае использовался критерий . Однако сама величина не очень подходит в качестве меры связи, поскольку сильно зависит от числа категорий.
Нормированным коэффициентом корреляции для таблицы с×k является коэффициент сопряженности Пирсона (Р):
(43)
Коэффициент Р = 0 при полной независимости признаков. Недостатком его является зависимость максимальной величины Р от размера таблицы (максимум Р достигается при, с = k, но сама граница изменяется с изменением числа категорий). В связи с этим возникают трудности сравнения таблиц разного размера.
Чтобы исправить указанный недостаток, Чупров ввел другую величину:
(44)
При с = k Т достигает +1 в случае полной связи, однако не обладает этим свойством при .
Коэффициент Крамера (К) может всегда достигать +1 независимо от вида таблицы:
(45)
Для квадратной таблицы коэффициенты Крамера и Чупрова совпадают, а в остальных случаях К>Т.
Величина быстро вычисляется с помощью формулы
Вычисление коэффициентов Р, Т и К связано с теми же ограничениями на , которые сформулированы на с. 172.
Следующая группа коэффициентов связи для категоризованных данных основана на предположении, что если две переменные связаны, то информация об одной переменной может быть использована для предсказания другой. Так, если предположить, что связь между полом индивида и его отношением к правилам уличного движения абсолютно детерминирована, то согласно табл. 13 либо все мужчины были бы нарушителями, а женщины нет, либо наоборот. Поскольку это но так, то возникает несоответствие, или, как говорят, ошибка предположения абсолютной связи (обозначим величину этой ошибки ОА).
С другой стороны, можно предположить, что два признака абсолютно не связаны, и нельзя на основе одной переменной предсказать другую. Поскольку это тоже не так, то возникает ошибка предположения об отсутствии связи (О0).
Тогда величина может служить мерой относительного уменьшения ошибки при использовании информации об одной переменной для предсказания другой.
Признак, на основе которого предсказывается другой признак, будем называть независимой переменной, а предсказываемый — зависимой.
Тогда для случая, когда зависимая переменная расположена по строкам таблицы (т. е. категории расположены по строкам), вычисляется коэффициент связи :
(47)
где — наибольшая частота в столбце i; — наибольшая маргинальная частота для строк j.
Пример. Вычислим для данных табл. 13 в предположении, что пол независимая переменная, а отношение к правилам уличного движения — зависимая
Таким образом, использование информации о поле обследованных для предсказания отношения к правилам движения не уменьшает относительной ошибки.
Если зависимая переменная — это категории столбцов таблицы, то совершенно аналогично предыдущему вычисляется
(48)
где — наибольшая частота в строке j; — наибольшая маргинальная частота для столбцов i.
Для нашего примера, когда пол зависимая переменная, = 0,4, т. е. получаем 40%-ное уменьшение в ошибке, если используем отношение к правилам в качестве предсказывающей пол нарушителя.
Коэффициенты и имеют пределы изменения от 0 до 1. Чем ближе или к 1, тем больше относительное уменьшение в ошибке и большее соответствие (связь) между переменными. Эти коэффициенты могут быть использованы для таблиц любого размера.
В ряде случаев удобно использовать симметричную ;
(49)
Разнообразие корреляционных коэффициентов продиктовано стремлением отразить реально существующее разнообразие типов связей в природе и обществе. Поэтому данное обстоятельство следует рассматривать скорее как свидетельство достоинств статистического аппарата, заключающихся в гибкости и большой приспособленности его к анализу сложнейших взаимосвязей в социальной области. Каждый корреляционный коэффициент приспособлен для измерения вполне определенного вида связи. Техника расчета и конструкция формулы одного и того же коэффициента могут измениться в зависимости от того, какие (например, сгруппированные или несгруппированные) данные приходится анализировать. Сравните, например, различные варианты формул для парного коэффициента корреляции r. Таким образом, применение того или иного показателя определяется природой данных и формой их представление. Требуемая степень точности также может существенно повлиять па выбор способа расчета связи в каждом конкретном случае. Обычно оценка пригодности той или иной формулы производится с учетом следующих факторов:
1) природы данных (качественные или количественные признаки);
2) формы и типа зависимости (линейная или нелинейная, положительная или отрицательная связь);
3) требуемой точности расчетов (например, коэффициенты корреляции рангов и иногда могут использоваться вместо более точных мер r и );
4) удобства - при вычислении и сравнительной простоты интерпретации; .
5) трудностей технического порядка (имеется ли счетная техника или нужно вести расчеты вручную);
6) распространенности использования того или иного коэффициента корреляции;
7) возможности сравнения различных коэффициентов. Обычно предпочитают использовать наиболее распространенные в практике социологических исследований коэффициенты, так как тем- самым достигается возможность сравнения полученных результатов с материалами других исследований.
7. Новые подходы к анализу данных, измеренных по порядковым и номинальным шкалам
В последние годы как у нас в стране, так и за рубежом разработано довольно много математических методов, предназначенных для анализа данных, полученных с помощью измерения по номинальным и порядковым шкалам. Однако многие из них малознакомы широкому кругу социологов. В настоящем параграфе представлен краткий обзор таких методов. К сожалению, в силу сложности и большого объема материала нет возможности подробно изложить суть каждого метода и тем более описать конкретную методику его применения. Поэтому все излагаемое ниже можно рассматривать лишь как некоторое указание на то, к какой литературе необходимо обратиться для решения соответствующей задачи и какого рода вопросы необходимо поставить в этой связи перед математиком.
Наиболее распространенными задачами, при решении которых исследователь прибегает к помощи математических методов, являются задачи изучения связей между признаками, нахождения латентных переменных, классификации объектов.
Рассмотрим задачу изучения связей между признаками. В предыдущем разделе этой главы уже рассматривались меры связи между номинальными признаками, основанные на анализе таблиц сопряженности. Определенного рода обобщением способов измерения таких связей с помощью критерия можно считать метод логлинейного анализа частотных таблиц. В отличие от упомянутых мер связи логлинейный анализ позволяет анализировать таблицы сопряженности любой размерности и проверять гипотезы о наличии сложных структур связи, состоящие из предположений о существовании связей внутри жаждой из нескольких групп признаков одновременно. Принципы логлинейного анализа описаны в литературе достаточно подробно[99].
В основе традиционных подходов к измерению связей между номинальными признаками лежит представление о последней как об интегральной, т. е. о связи между рассматриваемыми признаками в целом (при расчете меры связи учитываются одновременно все те значения, которые эти признаки могут принимать). Однако такое понимание связи не является единственно возможным. Она может пониматься и как локальная, т. е. как связь между отдельными значениями (одним или несколькими рассматриваемыми признаками). Наличие интегральной связи отнюдь не означает наличия локальной, и наоборот. Так, вывод об отсутствии интегральной связи между полом и курением (например, основанный на малой величине может не подтвердиться на основе локального анализа той же таблицы данных: т. е. можно предположить, что свойство респондента быть мужчиной довольно жестко определяет то, что этот человек курит (свойство быть женщиной в этом смысле может быть не связано с курением).
В настоящее время разработан довольно широкий круг методов анализа описанных локальных связей. В литературе они часто называются методами поиска детерминирующих комбинаций значений переменных (или взаимодействий последних)[100]. Прежде чем подробнее пояснить суть задачи и подходы к ее решению, введем некоторые обозначения.
Пусть изучается влияние каких-то l признаков (переменных), обозначаемых ниже на некоторый интересующий исследователя признак у. Признаки будем называть независимыми переменными, а признак у — зависимой переменной. Поясним, что имеется в виду под задачей поиска детерминирующих комбинаций значений переменных.
Исследователь полагает, что рассматриваемые независимые признаки в определенной степени обусловливают тип поведения изучаемых объектов, проявляющийся в том, какие значения для того или иного объекта может принимать зависимая переменная. Другими словами, выдвигается гипотеза о соответствующей детерминации (типа поведения сочетаниями значений не зависимых переменных).
Упомянутый тип поведения может пониматься по-разному. Например, его можно определить как указание вероятностей, с которыми объект, обладающий заданным сочетанием значений х, имеет то или иное значение у. В таком случае тип поведения фактически отождествляется с распределением значений зависимого признака для объектов, имеющих рассматриваемый набор значений независимых признаков. Например, если при решении упомянутого .выше вопроса о связи пола-респондента с привычкой к курению придем к выводу, что для мужчин вероятность иметь такую привычку равна 0,8, а не иметь ее — 0,2 и что для женщин аналогичные вероятности равны соответственно 0,3 и 0,7, то будем иметь основания говорить о двух типах поведения респондентов, каждый из которых определяется полом последних.
Можно тип поведения отождествить со средним арифметическим множества значений зависимой переменной для рассматриваемой совокупности объектов (в таком случае естественно предполагать, что значения у получены ]по интервальной шкале). Пусть, например, у — это время, затрачиваемое респондентом в течение дня на чтение газет, — под респондента, — его образование. Если в процессе исследования мы обнаружим, что мужчины с высшим образованием тратят на чтение газет в среднем 1,5 часа в день, а женщины с начальным образованием — 0,01 часа, то можно будет говорить о двух типах поведения респондентов, каждый из которых соответствующим образом связан с рассматриваемыми независимыми признаками.
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|