Дескрипторная система классификации

Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.

Суть дескрипторного метода классификации заключается в следующем:

- отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;

- выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;

- создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

Пример. В качестве объекта классификации рассматривается успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.

Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:

- синонимические, указывающие некоторую совокупность ключевых слов как синонимы;

- родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;

- ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.

Пример. Синонимическая связь: студент - учащийся - обучаемый. Родо-видовая связь: университет - факультет - кафедра. Ассоциативная связь: студент - экзамен - профессор – аудитория.

КОДИРОВАНИЕ

Под кодированием понимается процесс присвоения условных обозначений названиям (признакам) объектов. Цель кодирования — устранение неопределенности и представление информации в более компактной форме для обработки на ЭВМ. Система кодирования - совокупность правил кодового обозначения объектов. Каждый код в своей номенклатуре должен быть единственным для конкретной позиции. Код, построенный по любой системе, будет характеризоваться длиной, структурой и степенью информативности.

Под длиной кода понимается число знаков в коде. Структура кода задается порядком расположения знаков в коде. Степень информативности есть отношение числа закодированных признаков к длине кода.

Коды классифицируются по различным признакам:

- по форме изображения - алфавитные, алфавитно-цифровые, цифровые, специальные;

- по сложности - простые и сложные;

- по значимости - однозначные, многозначные простые, многозначные сложные.

Наибольшее распространение при обработке информации с помощью ЭВМ получили цифровые коды (текстовое обозначение показателей дополняется или заменяется соответствующими им цифровыми кодами). Известные в настоящее время методы кодирования информации можно свести к следующим основным видам: порядковый, серийно-порядковый, позиционный (классификационный) и комбинированный. Каждый из них обладает рядом преимуществ и может быть успешно применен в зависимости от конкретных обстоятельств и целей. Учитывая преимущества и недостатки различных систем кодирования, необходимо выбирать наиболее рациональную систему.

В качестве основного критерия оценки системы кодирования может быть использован критерий экономической эффективности обработки информации, представляющий собой затраты на обработку и обмен информацией. Однако на практике используются частные критерии: минимум времени на поиск информации, полнота выдачи, надежность и достоверность информации.

Разрабатываемая система кодирования должна отвечать следующим требованиям:

1 содержать необходимую информацию об объектах;

2 обладать способностью идентифицировать каждый объект кодируемого множества;

3 обеспечивать по возможности минимальную длину кода;

4 обладать достаточной гибкостью и иметь резерв кодовых обозначений;

5 быть ориентированной на машинную обработку информации и позволять с помощью ЭВМ обнаруживать ошибки.

Можно выделить две группы методов, используемых в системе кодирования (рисунок 3.1), которые образуют:

- классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;

- регистрационную систему кодирования, не требующую предварительной классификации объектов.

Рассмотрим представленную на рисунке 3.1 систему кодирования.

Рисунок 3.1 - Системы кодирования, использующие разные методы

123 4 5

Не нашли, что искали? Воспользуйтесь поиском по сайту: