Сделай Сам Свою Работу на 5

НОВЫЙ ПОДХОД К ОБРАБОТКЕ СОЦИОЛОГИЧЕСКОЙ ИНФОРМАЦИИ





 

Данные социологического обследования можно представить следующим образом.

Имеется конечное множество объектов

причем каждый объект характеризуется значениями признаков . Например, признаками могут быть возраст, пол, профессия, удовлетворенность своей работой и т. д.

Предполагается, что каждый признак может принимать значений: Таким образом, каждый объект характеризуется упорядоченным набором

где - значение признака соответствующее объекту . Например, если - профессия, - пол, - возраст, то некоторый объект может характеризоваться набором: (токарь, женский, 26 лет).

Каждый признак порождает разбиение множества n на классов, в один из которых входят объекты с во второй – объекты с и так далее, а последний класс состоит из объектов , таких, что Это разбиение будем обозначать

Полезно различать следующие типы признаков.

Признак p называется количественным, если его значения-

 

 

ми , являются числа. Таковы, например, возраст, зарплата и т.д.

Признак p называется качественным, если его значения не являются числами, но характеризуют различную степень проявления этого признака, так что между ними имеется естественное упорядочение по степени проявления признака. Качественными признаками являются, например, квалификация ( от "низкой" до "высокой"), удовлетворенность своей работой ( от "очень нравится" до "очень не нравится").



Признак p относится к классификационным, если его значения не являются числами и не связаны естественным упорядочением. К классификационным признакам можно отнести пол, профессию, причину отъезда из данного города и т.д.

Существующие методы обработки данных социологического обследования связаны в основном с обработкой количественных признаков. Качественные признаки обычно при обработке сводят

к количественным (иногда неявно), приписывая их значениям баллы, и применяют далее статистические методы. Например, коэффициент ранговой корреляции для качественных признаков является обычным коэффициентом корреляции для числовых признаков, полученных приписыванием соответствующих баллов значениям данных качественных признаков.



Статистическая обработка таких балльных признаков (например, подсчет среднего значения, дисперсии и т.д.) встречает сильные возражения, поскольку приписанные баллы, вообще говоря, характеризуют лишь упорядочение значений признака, и применение к ним арифметических операций требует обоснования в каждом конкретном случае. Исследование вопросов, связанных с таким обоснованием, потребовало пересмотра и значительного углубления концепции измерения. Полученные к 1963 г. результаты были подытожены в переведенном на русский язык сборнике[2], из которого видно, что разработка обоснования находится пока в зачаточной стадии.

Еще более неясны вопросы, связанные с обработкой классификационных признаков. Иногда значения классификационного признака предварительно упорядочивают ( приписывая баллы) в соответствии с какой-либо содержательной гипотезой (например, по их частости) или мнениями экспертов. В некоторых случаях рас-

 

 

сматривают статистические показатели, которые имеют смысл и для классификационных признаков (например, мода или энтропия распределения). Иногда, основываясь на эвристических соображениях вводят специальные показатели. Например, наиболее употребительными показателями связи классификационных признаков являются коэффициенты Пирсона и Чупрова [1], которые, по существу, оценивают статистическую значимость отличия n-мерного эмпирического распределения от теоретического равномерного. Предполагается, что, чем более эмпирическое распределение отличается от равномерного, тем теснее связаны признаки. В основе этих коэффициентов лежит подсчет величины , а эта величина указывает лишь на значимость отличия эмпирического распределения от теоретического, но не степень этого отличия.



Таких эвристических показателей можно ввести много, а какой предпочесть — неясно.

Таким образом, существующие методы обработки данных ориентированы в основном на количественные признаки. Это заставляет исследователя для комплексной обработки данных использовать количественные или балльные, качественные признаки.

Между тем классификационные признаки играют существенную роль в характеристике социологических объектов. Поэтому представляет интерес разработка специального аппарата для обработки классификационных признаков. Такой аппарат должен решать широкий круг задач с единой точки зрения.

Заметим, что при обработке данных в терминах классификационных признаков потребуется иногда для единообразия результатов рассматривать количественные и качественные признаки как классификационные (аналогично тому, как теперь часто сводят к количественным признаки других типов). При этом часть информации будет теряться. Однако, поскольку количество значений признаков социологических объектов, как правило, несравнимо меньше объема N обследованных объектов, основная информация о признаках содержится в соответствующих им разбиениях и теряемая информация невелика. В то же время существующие методы обработки, сводящие признаки к количественным, привлекают дополнительную информацию о неколичественных признаках, истинность которой, как правило, очень мало обоснована.

 

 

Далее мы рассмотрим возможный путь создания аппарата обработки классификационных признаков, дающего единообразные методы решения широкого круга задач.

Информация о классификационном признаке p, собранная

при обследовании множества n, задается разбиением на классы объектов, отвечающих одним и тем же значениям признака. Поэтому вопрос об изучении признаков сводится к изучению соответствующих разбиений.

Мы считаем, что основным инструментом при обработке классификационных признаков должна служить количественная мера близости разбиений данного множества n. Меру близости разбиений обозначим и потребуем, чтобы она удовлетворяла некоторым условиям.

Одно из этих условий состоит в том, чтобы обладала основными свойствами геометрического расстояния. Это требование обусловлено потребностями дальнейшей обработки величин , поскольку применение математического аппарата наиболее эффективно и естественно для мер, удовлетворяющих свойствам геометрического расстояния. Можно возразить, что такое условие не связано с внутренними свойствами признаков объектов и, возможно, в некоторых случаях противоречит им. Однако обнаружение такого противоречия априори невозможно, оно связано именно с практическим применением "геометрических" мер и само по себе явится важным результатом. Пока же соображения удобства обработки являются решающими.

Приведем точную формулировку первого условия.

Аксиома I . Мера обладает следующими свойствами геометрического расстояния:

а) и =0 тогда, когда ( т.е. классы совпадают с классами );

б) = ;

в) для любых разбиений

причем точное равенство достигается, только если разбиение ле-

 

 

жит между разбиениями и 1) [3].

Следующая аксиома продиктована требованием равноправия всех объектов , независимо от их конкретных особенностей относительно меры .

Аксиома 2. Если разбиение получено из разбиения перестановкой некоторых объектов, а разбиение - из той же самой перестановкой, то

Потребуем теперь, чтобы при частичном совпадении разбиений и , расстояние между ними можно было вычислить, используя лишь те их классы, на которых они не совпадают.

Аксиома 3. Если разбиения и совпадают всюду, за исключением множества , являющегося сегментом2) их обоих, то вычисляется так, как если бы рассматривались разбиения лишь на множестве Е.

Последняя аксиома дает масштаб измерения.

Аксиома 4. Максимальное расстояние между разбиениями множества n равно 3).

Имеет место следующий результат [3].

Теорема. Мера близости разбиений, удовлетворяющая аксиомам I-4 существует и определяется единственным образом.

Можно проверить, что аксиомы 1-4 выполняются для следующей меры:

(*)

 

1, если и находятся в одном классе :

где { 0, если и находятся в разных классах .

Аналогично определяются величины ( для ).

Таким образом, если признать аксиомы 1-4 естественными, то следует вычислять по формуле (*); в силу теоремы никакая другая мера не удовлетворяет всем аксиомам 1-4 одновременно.

Подобно тому как в геометрическом пространстве для нескольких зафиксированных точек можно находить центр тяжести, так и в множестве всех разбиений на n , геометризованном мерой , можно для нескольких разбиений находить усредненное разбиение. Приведем точную формулировку этого понятия. Пусть заданы разбиения . Расстоянием от разбиения до множества разбиений { } называется . Усредненным разбиением по отношению к { } называется разбиение , для которого это расстояние минимально, т.е.

Рассмотрим теперь некоторые задачи обработки данных социологического обследования и методы их решения в терминах меры .

Классификация.

Под классификацией ( таксономией) обычно понимают разбиение обследованной совокупности на группы объектов, "похожих" в выбранной системе признаков. В нашей терминологии классификация — это разбиение множества и на классы "близких' по системе признаков объектов .

Если система состоит из одного признака , то классификацией является соответствующее разбиение ,если имеется да признака и , то классификация - это разбиение, среднее для и . В общем случае (для т признаков) мы предлагаем в качестве классификации брать усредненное ( в вышеопределенном смысле) разбиение по отношению к множеству разбиений

 

 

Заметим, что для применения данного метода классификации в отличие от известных сейчас методов [4] не нужно знание расстояний между объектами . Именно определение расстояний меду между является камней преткновения для существующих методов [4], поскольку для этого необходимо соизмерять значения различных признаков.

Аналогичным образом, если имеется насколько классификаций данного множества по разным системам признаков, то классификацию по всем признакам одновременно находим как усредненное разбиение по отношению к данным разбиениям.

Распознавание образов [4].

Пусть N объектов уже расклассифнцированы в соответствии c принимаемыми ими значениями признаков Требуется для некоторого (N+1)-го объекта с данными значениями признаков указать, в каком классе он должен находиться.

Для решения этой задачи нужно присоединить (N+1)-й объект к первоначальной совокупности, рассмотреть разбиения на полученном множестве из N+1 объекта и найти усредненное по отношению к ним разбиение , согласно которому и следует классифицировать (N+1)-й объект.

Заметим, что при малом N разбиение будет, возможно, меняться при добавлении новых объектов (что соответствует этапу самообучения), а для больших N будет относительно, стабильным, так что можно будет сразу определять класс(N+1)-го объекта, не прибегая к отысканию .

Оценка взаимосвязи признаков.

Содержательные соображения показывают, что близкие признаки характеризуются близкими разбиениями. Поэтому примем меру близости признаков пропорциональной мере близости соответствующих разбиений . Для удобства выберем коэффициент пропорциональности таким, чтобы максимальноерасстояние между признаками равнялось 1.

Тогда в соответствии с формулой (*)

(**)

 

 

Тот факт, что , означает, что признаки P и Q дублируют друг друга; означает, что признаки P и Q независимы.

Заметим, что есть, по сути дела, статистическая оценка вероятности того, что в генеральной совокупности произвольные два объекта находятся в одном классе одного из разбиений и в разных классах другого разбиения. Легко доказать несмещенность [I] этой оценки.

Оценка значимости признаков.

Пусть на множестве n задано некоторое разбиение . Понятно, что значимость признака P для выявления разбиения тем выше, чем ближе разбиения и . Следовательно, значимость признака по отношению к разбиению можно принять обратно пропорциональной расстоянию .

Абсолютная значимость признака есть его значимость по отношению к классификации, описанной в .

Здесь, как обычно, значимость признака понижается в смысле его информативности. Однако при конкретных исследованиях такую значимость часто трактуют как "силу влияния" признака P на фактор, порождающий разбиение . То, что такая трактовка не лишена оснований, подтверждается тем, что в конкретных ситуациях она не противоречит сложившимся представлениям.

. Измерение скрытых признаков (латентный анализ [5]).

Рассмотрим задачу измерения относительно независимых факторов по данной системе зависимых признаков.

Такая задача обычно решается для количественных признаков методами факторного анализа: по данным признакам строятся их линейные комбинации (факторы), корреляция между которыми равна 0[6].

В случае классификационных признаков поступим следующим образом.

Составим матрицу расстояний между признаками и разобьем признаки на группы, внутри которых признаки максимально близки, а в разных группах — максимально далеки. Это можно сделать, например, известными методами таксономии [4] или решая соответствующую задачу оптимизации, поставленную автором в [7]. Полученные группы и являются искомыми факторами.

 

 

0ни, правда, лишь относительно независимы, но и в факторном анализе такая же ситуация: равенство корреляции о лишь необходимое, но не достаточное условие независимости.

Зато здесь облегчается содержательная интерпретация факторов, поскольку они являются группами признаков. Разбиения, соответствующие факторам, получаются как усредненные разбиения по отношению к множествам признаков, составляющих факторы. Зная эти разбиения, можно, например, оценивать значимость факторов методом .

Отличительной чертой приведенных методов обработки по сравнению с существующими является то ,что они дают возможность решать широкий класс задач в рамках единого подхода, основанного на четких аксиоматических построениях.

Понятно, что в данной работе лишь намечен каркас аппарата обработки данных с единой точки зрения: не приведены необходимые алгоритмы, нет статистической разработки оценки "доверия" к получаемым по выборке результатам и т.д. При этом перспективность намеченного подхода комет быть доказана лишь успешным применением его в конкретных исследованиях.

На этом пути сделаны лишь первые шаги. На материалах обследования приживаемости населения в районах, нового промышленного освоения (руководитель канд.экон.наук Е.Д. Малинин) использовался метод при оценке значимости признаков для приживаемости. Полученные результаты естественно вписываются как в другие результаты обработки, так и в интуитивные представления.

А имеющиеся отклонения позволяют сделать выводы, подтверждаемые другими данными. Например, город, для которого значимость признака "удовлетворенность общественным питанием" существенно выше, чем в других городах, и реально значительно хуке обеспечен столовыми. Не совсем тривиальным является вывод, что субъективное мнение опрошенных о том, как влияют их доходы на

их приживаемость, довольно далеко от реального влияния (оказалось, что признак "Доход на одного члена семьи" относится к наиболее значимым, тогда как признак " Удовлетворен ли материальным состоянием семьи?" относится к наименее значимым).

 

 

Другой эксперимент был связан с нахождением усредненной экспертной оценки. Учителя из некоторой совокупности оценивались по мастерству тремя экспертами: директором, завучем и коллегой-учителем. Таким образом, имелось три разбиения множества учителей на группы учителей с одинаковой оценкой эксперта. Описанным методом былонайдено усредненное разбиение, которое должно символизировать собой некоторого объективного эксперта.

Была проделана следующая проверка объективности найденного разбиения. Каждый из трех сотрудников Института экономики и организации промышленного производства СО АН СССР нашел усредненную оценку самостоятельно, на основе интуитивных соображений, для некоторой случайной выборки из обследованной совокупности. Оказалось, что полученное разбиение лежит в центре сферы (в геометрическом пространстве разбиений), на которой находятся остальные три усредненных разбиения, выполненные на основе интуитивных соображений.

Результат эксперимента можно интерпретировать следующим образом. Наше разбиение находится в центре, так как оно в некотором смысле представляет собой объективную оценку, а остальные разбиения дают разброс по отношению к нему в результате флуктуаций, присущих субъективным оценкам.

 

 

Литература

 

1. Юл Д.Э., Кендэл М.Д. Теория статистики. М., 1960..

2. Психологические измерения. М., 1967

3. Миркин Б.Г., Черный Л.Б. Об измерении расстояния между разбиениями конечного множества. – В сб.: Математические методы моделирования и решения экономических задач. Новосибирск, «Наука», 1969.

4. Распознавание образов в социальных исследованиях. Новосибирск, «Наука», 1968.

5. Лазарсфельд П. Логические и математические основания латентно-структурного анализа. – В сб.: Математические методы в современной буржуазной социологии. М., 1966.

6. Лоули Д., Максвелл А. Факторный анализ как статистический метод. М., 1967.

7. Черный Л.Б. Обобщение метода последовательных расчетов в одной задаче классификации. – В сб.: Математические модели и методы в социально-экономических исследованиях. Новосибирск, 1968.

 

 

В.Л. Устюжанинов

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.