Дескрипторная система классификации
Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.
Суть дескрипторного метода классификации заключается в следующем:
- отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
- выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
- создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
Пример. В качестве объекта классификации рассматривается успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.
Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:
- синонимические, указывающие некоторую совокупность ключевых слов как синонимы;
- родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;
- ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.
Пример. Синонимическая связь: студент - учащийся - обучаемый. Родо-видовая связь: университет - факультет - кафедра. Ассоциативная связь: студент - экзамен - профессор – аудитория.
КОДИРОВАНИЕ
Под кодированием понимается процесс присвоения условных обозначений названиям (признакам) объектов. Цель кодирования — устранение неопределенности и представление информации в более компактной форме для обработки на ЭВМ. Система кодирования - совокупность правил кодового обозначения объектов. Каждый код в своей номенклатуре должен быть единственным для конкретной позиции. Код, построенный по любой системе, будет характеризоваться длиной, структурой и степенью информативности.
Под длиной кода понимается число знаков в коде. Структура кода задается порядком расположения знаков в коде. Степень информативности есть отношение числа закодированных признаков к длине кода.
Коды классифицируются по различным признакам:
- по форме изображения - алфавитные, алфавитно-цифровые, цифровые, специальные;
- по сложности - простые и сложные;
- по значимости - однозначные, многозначные простые, многозначные сложные.
Наибольшее распространение при обработке информации с помощью ЭВМ получили цифровые коды (текстовое обозначение показателей дополняется или заменяется соответствующими им цифровыми кодами). Известные в настоящее время методы кодирования информации можно свести к следующим основным видам: порядковый, серийно-порядковый, позиционный (классификационный) и комбинированный. Каждый из них обладает рядом преимуществ и может быть успешно применен в зависимости от конкретных обстоятельств и целей. Учитывая преимущества и недостатки различных систем кодирования, необходимо выбирать наиболее рациональную систему.
В качестве основного критерия оценки системы кодирования может быть использован критерий экономической эффективности обработки информации, представляющий собой затраты на обработку и обмен информацией. Однако на практике используются частные критерии: минимум времени на поиск информации, полнота выдачи, надежность и достоверность информации.
Разрабатываемая система кодирования должна отвечать следующим требованиям:
1 содержать необходимую информацию об объектах;
2 обладать способностью идентифицировать каждый объект кодируемого множества;
3 обеспечивать по возможности минимальную длину кода;
4 обладать достаточной гибкостью и иметь резерв кодовых обозначений;
5 быть ориентированной на машинную обработку информации и позволять с помощью ЭВМ обнаруживать ошибки.
Можно выделить две группы методов, используемых в системе кодирования (рисунок 3.1), которые образуют:
- классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;
- регистрационную систему кодирования, не требующую предварительной классификации объектов.
Рассмотрим представленную на рисунке 3.1 систему кодирования.
Рисунок 3.1 - Системы кодирования, использующие разные методы
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|