Сделай Сам Свою Работу на 5

Другие меры связей между переменными, измеренными на номинальной шкале.





Построение теоретико-информационных мер может осуществляться не только на основе энтропии. Примером может служить коэффициент Валлиса. Коэффициент Валлиса интересен тем, что он прямо отвечает принципу построения мер связи как характеристик относительного уменьшения вероятности ошибки предсказания переменной Y, зная переменную X, в

сравнении с вероятностью ошибки предсказания Y, не зная X. Этот показатель вычисляется по формуле:

 

, (4.7)

где - это я частость в той строке таблицы совместного распределения переменных X и Y.

Свойства коэффициента Валлиса подобны свойствам :

1)

2) , если переменные статистически независимы;

3) , если X полностью детерминирует Y;

4) инвариантен по отношению к перестановке местами строк или столбцов таблицы.

Коэффициент Валлиса показывает пропорциональную редукцию ошибок предсказания. Другими словами, если, например, , то мы можем дать этой величине очень простую интерпретацию: знание X уменьшает число ошибок прогноза вдвое. Тем самым оценивается возможность правильного предсказания принадлежности объекта к категории по Y, если известна его принадлежность к категории по X и одновременно оценивается величина тесноты связи между признаками X и Y.



Рассмотрим семейства мер связи l-Гутмана и t-Гудмена и Краскала. Это меры связи, включающие асимметричные меры и симметричную меру связи: lb, la, l и tb, t,a t.

Теоретико-вероятностную интерпретацию имеют коэффициенты Гутмана. Эти показатели основаны на том, что если рассматриваемые переменные зависимы, то информация о том, какое значение принял первый из них, должна улучшать точность предсказания значения второго признака.

Коэффициент - Гутмана вычисляется по формуле:

(4.8)

Где - максимальная частота i-строки;

– максимальный элемент итоговой строки.

Коэффициент ассиметричный показатель, т.к. изучает зависимость Y от X. Статистика основана на сравнении двух ситуаций. Для случайно взятого наблюдения мы угадываем его Y-категорию, во-первых, если нет никакой дополнительной информации о его категории в X, и, во-вторых, если известен его класс в категории X.

В первом случае для того, чтобы максимизировать вероятность угадать категорию признака Y, мы должны выбрать градацию с максимальной маргинальной частотой n*j ,т.е. выбрать maxj n*j.



Если известна категория признака X, то необходимо выбирать максимальное число в этой строке. Очевидно, что если признаки взаимосвязаны, то знание категории X позволяет достигать лучшего предсказания.

Коэффициент оценивает снижения вероятности ошибки предсказания признака Y при известной информации о принадлежности наблюдения к классу признака X по сравнению с ситуацией, когда такой информации нет.

Коэффициент - Гутмана эквивалентен коэффициенту , с учетом перемены строк и столбцов между собой. Он является ассиметричным коэффициентом и определяет степень зависимости X от Y.

(4.9)

Где - max частота j-го столбца.

- max элемент итогового столбца.

Коэффициент измеряет улучшение средней величины относительного изменения вероятности ошибки предсказания категории признака, располагающегося по столбцам таблицы, при изменении категорий признака располагающегося по строкам.

Если при анализе таблиц сопряженности не имеет значения последовательность расположения классов по признакам, т.е. неважно, зависит X от Y или наоборот, то используется коэффициент . Этот коэффициент находит усредненную величину прогноза между изучаемыми переменными.

(4.10)

где =

Коэффициент определяется как результат объединения и :

 

min ( ) ≤ ≤ max ( ). (4.11)

При построении коэффициентов Гутмана возникают трудности, связанные с неравномерным расположением условных сумм (обращение коэффициентов в ноль). Меры l-Гутмана имеют тот недостаток, что они принимают нулевое значение, если все максимальные клеточные частоты оказываются в одном и том же столбце или в одной и той же строке таблицы. В этом случае числители коэффициентов и равны 0, однако это может не означать независимости исследуемых переменных.



Этот недостаток устраняется в - коэффициентах Гудмена и Краскала . Различие заключается в ином методе предсказания категории одной переменной при известной категории для другой. Вместо того чтобы всегда предсказывать наиболее вероятную категорию, -меры предсказывают различные категории в пропорции, которая имеет место для наблюдаемых итогов.

Коэффициент сравнивает случайный, пропорциональный прогноз признака Y со вторым признаком X и рассчитывает условное, пропорциональное предсказание класса Y, при предложении, что имеется информация о принадлежности объекта к одному из классов признака X. Этот коэффициент связи является ассиметричным коэффициентом.

(4.12)

При прогнозировании категорий признака X в зависимости от Y, то есть строк таблицы сопряженности в зависимости от столбцов, применяется коэффициент :

(4.13)

Данная мера, умноженная на 100%, показывает, на сколько процентов уменьшится неправильный прогноз категории признака X для случайно взятого объекта при условном пропорциональном прогнозировании по сравнению с безусловным пропорциональным прогнозом.

Для получения симметричной меры случайно выбранный объект с вероятностью ½ прогнозируется по признаку X или по признаку Y. Этот симметричный коэффициент получается в виде усредненных коэффициентов и :

(4.14)

Коэффициенты , , удовлетворяют неравенству:

(4.15)

Меры связи t ближе по своей конструкции к статистике χ2 и являются более надежными мерами, нежели l.

Пример 4.2. В результате проведенного опроса выпускников вузов относительно их планов о дальнейшем продолжении обучения в вузе и фактической их реализации получена следующая комбинационная таблица:

Таблица 4.2.Таблица сопряженности между переменными « планы выпускников вузов о дальнейшем образовании» и «фактическая реализация планов»

Планы опрошенных Фактическое распределение
Пошли работать Поступили в магистратуру Поступили в вуз для получения второго высшего образования Итого
Пойти работать
Поступить в магистратуру
Получить второе высшее образование        
Итого

Решение: Рассчитаем точечные оценки коэффициентов .

Аналогично находим коэффициент =0,2426, , т.е. знание того, известны ли нам планы респондентов на 24% повышает вероятность предсказания фактической реализации планов выпускников. Значение симметричной меры составило = 23,44%

Для расчетов точечных оценок мер и удобно воспользоваться следующей таблицей:

Таблица 4.3. Вспомогательная таблица для расчета показателей и

 

X/Y

 

В последнем столбце содержатся максимальные элементы по каждой строке комбинационной таблицы, в последней строке – максимальные элементы по каждому из столбцов.

Определим значения и :

Вывод: Зафиксировав планы выпускников вузов о продолжении образования, возможно на 22% точнее предсказать форму их послевузовского образования. Отклонение реализации планов составляет 35%, а симметричная мера связи составила 29%, т.е. знание обеих переменных на 29% повышает вероятность предсказания принадлежности респондентов к той или иной категории.

Вопросы для самоконтроля

1.Что такое энтропия распределения?

2. Чем отличается полная энтропия распределения от условной?

3. Как определяется количество информации о переменной Y за счет знания переменной X?

4. Какой смысл имеет коэффициент нормированной информации?

5. Какими свойствами обладает коэффициент нормированной информации?

6. Что показывает коэффициент Валлиса?

7. Чем различаются между собой ассиметричные меры и Гутмана?

8. Какой недостаток имеют меры связи l- Гутмана?

9. На чем основано построение - коэффициентов Гудмена и Краскала?

10. Какие показатели являются более надежными l- Гутмана или - Гудмена и Краскала и почему?

 

Библиографический список

Основная литература:
1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. – М.: Финансы и статистика, 1985.
2. Анализ нечисловой информации в социологических исследованиях. – М.: Наука, 1985.
3. Аптон Г. Анализ таблиц сопряженности./Пер. с англ. – М.: Финансы и статистика, 1982.
4. Афифи А., Эйзен С., Статистический анализ. Подход с использованием ЭВМ / Пер. с англ. – М.: Мир, 1982.
  5.   Елисеева И.И., Рукавишников В.О. Логика прикладного статистического анализа. - М.: Финансы и статистика, 1982.  
6. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под ред. И.И. Елисеевой. – 5 – е издание.- М.: Финансы и статистика, 2006.
7. Кендал М. Дж, Стьюарт А. Статистические выводы и связи./ Пер. с англ. – М.: Наука, 1973.
8. Ниворожкина Л.И., Рудяга А.А., Федосова О.Н. Теория статистики. Практикум – Ростов-на –Дону, 2005.
9. Трошин Л.И., Балаш В.А., Балаш О.С. Анализ нечисловой информации. -М.: Моск. гос. ун-т экономики, статистики и информатики, 1998.  
10. Трошин Л.И., Балаш В.А., Балаш О.С. Статистический анализ нечисловой информации. - М.: Моск. гос. ун-т экономики, статистики и информатики, 1998.  
Дополнительная литература:
1. Адамов C.Ю. Визуализация неколичественных данных //Многомерный статистический анализ и вероятностное моделирование реальных процессов. М.: Наука, 1990.  
2. Адамов C.Ю., Енюков И.С. Методы обработки неколичественной информации, реализованные в пакете программ по прикладному статистическому анализу (ППСА) //Программно-алгоритмическое обеспечение анализа данных в медико-биологических исследованиях. М., Пущино, 1967.  
3.     Адамов C.Ю. Предельные свойства некоторых методов обработки нечисловой информации // III школа-семинар «Программно-алгоритмическое обеспечение прикладного статистического анализа». Тез. докл.: ЦЭМИ АН СССР, 1987.
4.   Анализ социологических данных с применением статистического пакета SPSS. – http: //www.ieie.nsc.ru /meta-nsk/docs/ Rostovtsev/book_datan/Content.htm  
5.     Гуц А.К., Фролов Ю. В. Математические методы в социологии. – М.: Издательство ЛКИ, 2007.
6.   Интерпретация и анализ данных в социологических исследованиях. М.: Наука,1987.
7. Информатика в статистике: Словарь-справочник. – М.: Финансы и статистика, 1994.  
8. Красильников В.В. Статистика объектов нечисловой природы. Набережные Челны, изд-во Камского политехнического института, 2001.
9. Ларичев О.И., Машкович Е.М. Качественные методы принятия решений. Вербальный анализ решений. – М.: Патент, 1996.  
10. Пфанцагль И. Теория измерений. – М.: Мир, 1976
11. Статистические методы анализа информации в социологических исследованиях. - М.: Наука, 1979.  
12. Толстова Ю.Н. Модели и методы анализа данных социологических исследований: дискриптивная статистика, изучение связей между номинальными признаками. М.: ГУУ, 1999.  
13. Татарова Г. Г. Методология анализа данных (введение). Учебник для вузов. М.; NOTA BENE, 1999.  

Приложение

Вопросы к зачету по дисциплине «Статистический анализ нечисловой информации»

1. Цели и задачи курса. Предмет изучения, основные методы.

2 .Основные типы шкал измерения. Номинальная, порядковая, интервальная

шкалы и шкала отношений.

3. Преобразования, характеризующие тип шкалы.

4. Номинальная шкала. Отношения между объектами, располагаемыми на

номинальной шкале.

5. Порядковая шкала. Основные свойства и характеристики.

6. Интервальная (количественная) шкала. Основные свойства и характеристики.

7. Шкала отношений. Основные свойства и характеристики.

8. Шкала Ликкерта.

9. Виды неколичественных переменных.

10. Анализ распределений неколичественных переменных.

11. Дискретные распределения. Проверка гипотезы о законе распределения

дискретной переменной.

12 . Энтропия распределения, ее свойства.

13. Относительная энтропия распределения.

14 . Сравнение двух и более неколичественных распределений. Таблица

сопряженности.

15. Измерение связей между дихотомическими переменными. Меры связей между дихотомическими переменными.

16. Четырех клеточная таблица сопряженности.

17. Отношения предпочтения.

18. Измерение связей между многовариантными переменными. Проверка

гипотезы о связи.

19. Распределениехи- квадрат. Cвойства распределения. Определение числа степеней свободы.

20. Средняя квадратическая сопряженность; коэффициенты взаимной

сопряженности К.Пирсона, А. Чупрова, Г. Крамера.

21. Понятие информации. Связь как «снятая неопределенность».

22. Теоретико-информационные меры связей (парные, частные,

множественные).

23. Симметричные и асимметричные меры связей.

24. Коэффициенты Гуттмана, Гудмана-Краскала.

25. Коэффициент Валлиса.

26. Методы ранговой корреляции. Измерение связи между рангами.

27. Коэффициенты ранговой корреляции: парные и множественные.

28. Особенности измерения связей при наличии связанных рангов.

29. Сравнительный анализ мер связей.

30. Зависимость мер связей от уровня измерения переменных.

 

 

 

 

 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.