Информационно-технологическая структура полнотекстовых ИС.

Процессы компьютеризации деятельности предприятии привели к накоплению большого объема неструктурированной текстовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации.

Информационно-поисковые каталоги, фасетные и тезаурусные системы не могли быть в ПОЛНОЙ мере использованы в массовой персональной автоматизации. Потребовались средства, которые бы в Максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий [14]. В результате на рынке программных продуктов появились полнотекстовые ИС.

Полнотекстовые ПС строятся на основе информационно-поисковых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает [14]:

♦ хранилище документов;

♦ глобальный словарь системы;

♦ инвертированный индекс документов;

♦ интерфейс ввода документов в систему;

♦ механизм индексирования;

♦ интерфейс запросов пользователя;

♦ механизм поиска документов;

♦ механизм извлечения найденных документов.

Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специального файла с текстами документов.

Глобальный словарь системы может быть статическим и динамическим.

Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище.

Динамические словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.

менты глобального словаря выступают в качестве дескрипторов

ИПЯ-системы. Поступающие через интерфейс ввода-вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых ИС полностью автоматизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря [14].

Существенное влияние на эффективность полнотекстовых ИС оказывает морфологический разбор при индексировании документов и запросов. Морфологический разбор позволяет выделять общую для однокоренных слов словоформу, а также выделять лексемы, т. е. слова, отличающиеся окончаниями, приставками и суффиксами.

В результате индексирования поисковый образ каждою нового документа представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы. Индекс

строится по инвертированной схеме и в двоичном виде отражает весь

(полный) текст учтенных или накопленных документов [14].

При удалении документа из системы соответственно удаляется и поисковый образ документа.

Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной. Механизм поиска основывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с ПОИСКОВЫМИ образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствуют поисковому образу запроса. Далее специальная подсистема па основе установленных в хранилище указательных конструкций извлекает и доставляет соответствующие документы пользователю [14].

Примером полнотекстовых информационно-поисковых систем являются автоматизированные информационные системы по законодательству.

Автоматизированная информационная система по законодательству (АИСЗ) — это программный комплекс, включающий в себя массив правовой информации и инструменты для работы с ним [37]. Эти инструменты позволяют производить поиск документов, формировать подборки документов, печатать документы.

АИСЗ являются частью следующих типов информационных систем [37].

1. Справочно-информационные системы общего назначения, ориентированные на доступ пользователей к нормативно-правовым

гам. К этим системам относятся «Консультант Плюс», «Гарант», «Кодекс» и др.

2. Глобальные информационные службы (хост-системы), предо-

ставляющие доступ удаленным пользователям к библиографической, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юридической информации, является система LEXIS (США).

3. Системы информационной поддержки деятельности правотворческих органов. Спецификой таких систем является необходимость хранения и поиска многих версий и редакций нормативно-
правовых документов, с учетом вносимых поправок и изменений.

1. Системы автоматизации делопроизводства судов, милиции и других правоохранительных органов. Основными особенностями АИСЗ являются [37]:

♦ необходимость предоставления адресного доступа к полным текстам;

♦ в информационных языках для поиска в БД по законодательству необходим учет контекстных связей, регламентированных при-

лагательных (типа «обязательный», «произвольный» и др.);

♦ тексты нормативных актов должны подвергаться так называемой
юридической обработке, при которой тексту приписываются не
только классификационные индексы, ключевые слова или дескрипторы (как при обычном индексировании), но и комментарии специалистов, ссылки на предшествующие версии, связанные документы, решения судов и др.

В 1992 году образовалось НПП «Гарант-Сервис». В этом же году была создана общероссийская сеть «Консультант Плюс», которая охватила множество ГОРОДОВ России. В настоящее время наиболее распространена АИСЗ «Консультант Плюс». Система «Гарант» занимает второе место в России по количеству пользователей.

На третьем месте находится достаточно популярный продукт — информационно поисковая система «Кодекс», которая разработана малым государственным предприятием «Центр компьютерных разработок».

На российском рынке АИСЗ представлены также следующие про-

дукты, созданные государственными предприятиями для обеспечения потребностей в правовой информации государственных ведомств [52]:

♦ «Эталон» (НЦПИ при Министерстве юстиции РФ);

♦ «Система- (НТЦ «Система - при ФАПСИ).

Кроме того, на российском рынке представлены такие системы, как [52]:

♦ «ЮСИС» (фирма «Инталекс»);

♦ «Референт» (ЗАО «Референт-Сервис»);

♦ «Ваше право» и «Юрисконсульт» (фирма «Информационные системы и технологии»);

♦ «1С: Кодекс», «1С: Гарант». «1С: Эталон» (компания «1С»). Информационные банки РФ включают следующие уровни данных:

♦ федеральное законодательство;

♦ местное законодательство;

♦ ненормативные материалы (консультации экспертов, бланки деловых документов, проспекты эмиссии пенных бумаг коммерческих банков и т. п.).

При юридической обработке (индексировании) используется Общеправовой классификатор отраслей законодательства, утвержденный указом президента РФ № 2171 от 16 декабря 1993 года [37],

Существуют два источника получения правовой информации разработчиком для включения в систему: официальная рассылка подписавшего ведомства и опубликование в периодической печати.

Официальная рассылка — основной источник информации для систем «Консультант Плюс". «Гарант» и «Кодекс». Следует заметить, что государственные органы выступают не только в качестве источников информации, НО И сами ЯВЛЯЮТСЯ пользователями систем, т. е. прямо заинтересованы в оперативном и достоверном пополнении информационного банка. Поэтому, как правило, документы передаются из органов государственной власти сразу же после их подписания.

Сеть «Консультант Плюс» имеет прямые договоры об обмене информацией с ОСНОВНЫМИ федеральными органами (среди них— Ад

министрация Президента РФ, Министерство финансов РФ, Центральный банк РФ, Федеральная налоговая служба и др.), а гаю местными органами власти. Благодаря аналогичным договорам, нормативные акты достаточно оперативно попадают и в систему «Гарант» [37,52].

Юридическая база < Кодекс» ведется при содействии юридического комитета мэрии Санкт Петербурга. Документы для данной системы поступают в «Центр компьютерных разработок" на основе договоров

не напрямую с органами власти, а с их представительствами в Санкт-Петербурге [37, 52].

Публикации в печатных изданиях. Выделяют три группы таких источников. К первой относятся все издания, в которых публикация нормативных актов считается официальной: «Бюллетень международных договоров», < Вестник ЦБРФ», «Российская газета», <• Российские вести» и др. Вторую группу составляют издания, не признанные официальными, но в состав учредителей которых входят российские министерства и ведомства: «Бюллетень Верховного суда РФ», «Финансовая газета» и т. д. Наконец, в третью Группу входят издания, публикация документов в которых считается достоверной. Такие издания или имеют достаточно большой тираж, или пользуются авторитетом вереде специалистов: «Закон», «Хозяйство и право», «Экономика и жизнь» и др. [37J.

Основными параметрами, позволяющими определить качество содержания информационной базы, являются [52]:

♦ полнота информации;

♦ достоверность информации;

♦ оперативность обновления информации.

Параметры, характеризующие качество программной оболочки:

♦ поисковые ВОЗМОЖНОСТИ системы:

♦ средства актуализации информации;

♦ дополнительные сервисные функции.

Оценка полноты, достоверности и оперативности обновления информации основывается на количественных показателях. Оценка же качества юридической обработки поступающих в информационный банк документов достаточно субъективна.

Без юридической обработки АИСЗ является всего лишь электронным аналогом бумажных изданий. Еe цель систематизация документов для повышения эффективности их дальнейшего использования. Юридическая обработка обычно состоит из следующих основных этапов [52]:

♦ Классификация документов;

♦ выявление взаимосвязей между различными документами;

♦ составление Примечаний к документу.

Классификация документов предназначена для последующего их поиска по некоторым признакам, формальным или неформальным. Классификация производится на основании классификатора данной системы. Как известно, классификатор — это иерархическая структура, содержащая все понятия, используемые для описания документов, ВХОДЯЩИХ в информационную базу.

Доступ пользователя к информации, хранящейся в АИСЗ, может осуществляться двумя способами, каждый на которых имеет свои достоинства и недостатки [37]:

♦ работа с удаленной базой;

♦ работа с локальной базой.

При работе с удаленной базой пользователю нет необходимости хранить на своем компьютере данные системы, они хранятся на сервере разработчика и доступны через сеть. Большинство АИСЗ имеют версии, доступные через глобальную сеть Интернет. Основное преимущество работы с такими версиями заключается в том, что пользователь всегда имеет доступ к самым последним данным [37].

Однако для работы с удаленной базой пользователю необходим доступ к Интернету. Зачастую скорость передачи информации через Интернет низкая из-за плохого качества каналов, а стоимость доступа достаточно высокая. Поэтому иногда более выгоден вариант работы с локальной базой, которая доступна в любой момент. Недостатком этого варианта по сравнению с предыдущим является более продолжительный период актуализации информации.

Основные понятия и классификация систем управления базами данных.

База данных (БД) представляет собой совокупность структурированных данных, хранимых в памяти вычислительной системы и отображающих состояние объектов и их взаимосвязей в рассматриваемой предметной области [49].

Логическую структуру данных, хранимых в базе, называют моделью представления данных. К основным моделям представления данных (моделям данных) ОТНОСЯТСЯ иерархическая, сетевая, ре ционная.

Система управления базами данных (СУБД) это комплекс языковых и программных средств, предназначенный для создания, ведения и совместного использования БД многими пользователями. Обычно СУБД различают по используемой модели данных. Так, СУБД, основанные на использовании реляционной модели данных, называют реляционными СУБД.

для работы с базой данных зачастую достаточно средств СУБД. Однако если требуется обеспечить удобство работы с БД неквалифицированным пользователям или интерфейс СУБД не устраивает пользователей, то могут быть разработаны приложения. Их создание требует программирования. Приложение представляет Собой программу пли комплекс программ, обеспечивающих автоматизацию решения какой-либо прикладной задачи. Приложения могут создаваться в среде или внесреды СУБД — с помощью системы программирования, использующей средства доступа к БД, к примеру, Delphi пли C++ Builder. Приложения, разработанные в среде СУБД, часто называют приложениями СУБД, а приложения, разработанные вне СУБД, — внешними приложениями [49].

Словарь данных представляет собой подсистему БД, предназначенную для централизованного хранения информации о структурах данных, взаимосвязях файлов БД друг с другом, типах данных и формах их представления, принадлежности данных пользователям, кодах защиты и разграничения доступа и т. п. [49].

Информационные системы, основанные на использовании БД, обычно функционируют в архитектуре клиент-сервер. В этом случае БД размещается на компьютере-сервере, и к ней осуществляется совместный доступ.

Сервером определенного ресурса в компьютерной сети называется компьютер (программа), управляющий этим ресурсом, клиентом компьютер (программа), использующий этот ресурс. В качестве ресурса компьютерной сети могут выступать, к примеру, базы данных, файлы, службы печати, почтовые службы.

Достоинством организации информационной системы на архитектуре клиент-сервер является удачное сочетание централизованного хранения, обслуживания и коллективного доступа к общей корпоративной информации с индивидуальной работой пользователей.

Согласно основному принципу архитектуры клиент-сервер, данные обрабатываются только на сервере. Пользователь или приложение формируют запросы, которые поступают к серверу БД в виде инструкций языка SQL. Сервер базы данных обеспечивает поиск и извлечение нужных данных, которые затем передаются на компьютер пользователя. Достоинством такого подхода в сравнении предыдущим является заметно меньший объем передаваемых данных.

Выделяют следующие виды СУБД [49]:

♦ полнофункциональные СУБД;

♦ серверы БД;

♦ средства разработки программ работы с БД.

Полнофункциональные СУБД представляют собой традиционные СУБД. К ним относятся dBase IV, Microsoft Access, Microsoft FoxPro и др. [49].

Серверы БД предназначены для организации центров обработки данных в сетях ЭВМ. Серверы БД обеспечивают обработку запросов клиентских программ обычно с помощью операторов SQL. Примерами серверов БД являются: Microsoft SQL Server, InterBase и др. [49].

В роли клиентских программ в общем случае могут использоваться СУБД, электронные таблицы, текстовые процессоры, программы электронной почты и др.

Средства разработки программ работы с БД могут использоваться для создания следующих программ [49]:

♦ клиентских программ;

♦ серверов БД и их отдельных компонентов;

♦ пользовательских приложений.

По характеру использования СУБД делят на многопользовательские (промышленные) и локальные (персональные).

Промышленные СУБД представляют собой программную основу для разработки автоматизированных систем управления крупными экономическими объектами. Промышленные СУБД должны удовлетворять следующим требованиям [14]:

♦ возможность организации совместной параллельной работы многих пользователей;

♦ масштабируемость;

♦ переносимость на различные аппаратные и программные платформы;

♦ УСТОЙЧИВОСТЬ ПО отношению к сбоям различного рода, В ТОМ числе наличие многоуровневой системы резервирования хранимой

информации;

♦ обеспечение безопасности хранимых данных и развитой структурированной системы доступа к ним.

Персональные СУБД это программное обеспечение, ориентированное на решение задач локального пользователя или небольшой группы пользователей и предназначенное для использования на персональном компьютере, Это объясняет и их второе название - настольные. Определяющими характеристиками настольных систем являются;

♦ относительная простота эксплуатации, позволяющая создавать на их основе работоспособные пользовательские приложения;

♦ относительно ограниченные требования к аппаратным ресурсам.

По используемой модели данных СУ БД разделяют на иерархические,

сетевые, реляционные, объектно-ориентированные и др. Некоторые СУБД могут одновременно поддерживать несколько моделей данных. Для работы с данными, хранящимися в базе, используются следующие типы языков [49]:

♦ язык описания данных - высокоуровневый непроцедурный язык
декларативного типа, предназначенный для описания логической
структуры данных;

♦ язык манипулирования данными совокупность конструкций,
обеспечивающих выполнение основных операции по работе с данными: ввод, модификацию и выборку данных по запросам.

Названные языки в различных СУБД могут иметь отличия. Наибольшее распространение получили два стандартизованных языка: QBE (Query By Example) язык запросов по образцу и SQL (Structured Query Language) - структурированный язык запросов. QBE в основном обладает свойствами языка манипулирования данными, SQL сочетает в себе свойства языков обоих типов [49].

СУБД реализует следующие основные функции низкого уровня [49]:

♦ управление данными во внешней памяти;

♦ управление буферами оперативной памяти;

♦ управление транзакциями;

♦ ведение журнала изменений в БД;

♦ обеспечение целостности и безопасности БД.

Реализация функции управления данными во внешней памяти обеспечивает организацию управления ресурсами в файловой системе ОС.

Необходимость буферизации данных обусловлена тем, что объем оперативной памяти меньше объема внешней памяти. Буферы представляют собой области оперативной памяти, предназначенные ускорения обмена между внешней и оперативной памятью. В буферах временно хранятся фрагменты БД, данные из которых предполагается использовать при обращении к СУБД пли планируется записать в базу после обработки [49].

Механизм транзакций используется в СУБД для поддержания целостности данных в базе. Транзакцией называется некоторая неделимая последовательность операций над данными БД, которая отслеживается СУБД от начала и до завершения. Если по каким-либо причинам (сбои и отказы оборудования, ошибки в программном обеспечении, включая приложение) транзакция остается незавершенной, то она отменяется.

Транзакции присуши три основных свойства [14, 49]:

♦ атомарность (выполняются все входящие в транзакцию операции или пи одна);

♦ сериализуемость (отсутствует взаимное влияние выполняемых в одно и то же время транзакций);

♦ долговечность (даже крах системы не приводит к утрате результатов зафиксированной транзакции).

Модели организации данных. Понятие реляционной БД. Основные понятия и принципы реляционной модели.

В иерархической модели объекты-сущности и отношения предметной области представляются наборами данных, которые имеют древовидную (иерархическую) структуру. Иерархическая модель данных была исторически первой. На ее основе в конце 60-х - начале 70-х годов были разработаны первые профессиональные СУБД.

Пример структуры иерархической БД приведен на рис. 5.1 [14].

Основное внимание в ограничениях целостности в иерархической модели уделяется целостности ссылок между предками и потомками с учетом основного правила: никакой потомок не может существовать без родителя.

Сетевая модель данных позволяет отображать разнообразные взаимосвязи элементов данных в виде произвольного графа. Сетевая БД СОСТОИТ из набора записей и набора соответствующих связей. На формирование связи особых ограничений не накладывается. Если в иерархических структурах запись-потомок могла иметь только одну запись-предка, то в сетевой модели данных запись-потомок может иметь произвольное число записей-предков.

Пример схемы сетевой БД показан на рис. 5.1 [49].

Имеет начальника Рис.5.2. Пример схемы сетевой БД

Достоинством сетевой модели данных является возможность ее эффективной реализации. В сравнении с иерархической моделью сетевая модель предоставляет большие возможности в смысле допустимости образования произвольных связей.

Недостатком сетевой модели данных является высокая сложность и жесткость схемы БД, построенной на ее основе, а также СЛОЖНОСТЬ ее понимания обычным пользователем. Кроме ТОГО, в сетевой модели данных ослаблен контроль целостности связей из-за допустимости установления произвольных связей между записями.

Системы на основе сетевой модели не получили широкого распространения на практике.

Реляционная модель данных предложена сотрудником фирмы IBM Эдгаром Коддом и основывается на понятии отношения (relation).

Отношение представляет собой множество элементов, называемых кортежами. Наглядной формой представления отношения является двумерная таблица.

С помощью одной таблицы удобно описывать простейший вид связей между данными, а именно: деление одного объекта, информация о котором хранится в таблице, на множество подобъектов, каждому из которых соответствует строка или запись таблицы,

ОСНОВНЫМИ недостатками реляционной модели ЯВЛЯЮТСЯ следующие: отсутствие стандартных средств идентификации отдельных записей и сложность описания иерархических и сетевых связей.

Реляционная модель данных (РМД) некоторой предметной области представляет собой набор отношений, изменяющихся во времени. При создании информационной системы совокупность отношений позволяет хранить данные об объектах предметной области и моделировать связи между ними. Термины РМД представлены в табл. 5.1 [17|.

Термин реляционной модели	Эквивалентный термин
Отношение	Таблица
Схема отношения	Строка заголовков столбцов таблицы (заголовок таблицы)
Кортеж	Строка таблицы, запись
Сущность	Описание свойств объекта
Атрибут
Домен	Множество допустимых значений атрибута
Первичный ключ	Уникальный идентификатор
Кардинальное и,	Количество строк
Степень	Количество столбцов

Реляционная база данных представляет собой хранилище данных,

содержащее набор двухмерных таблиц. Данные в таблицах должны удовлетворять следующим принципам.

1. Значения атрибутов должны быть атомарными (иными слонами, каждое значение, содержащееся па пересечении строки и колонки, должно быть не расчленяемым на несколько значений).

2. Значения каждого атрибута должны принадлежать к одному и тому же типу.

3. Каждая запись в таблице уникальна.
1. Каждое поле имеет уникальное имя.

5. Последовательность полей и записей в таблице несущественна

При проектировании схемы реляционной БД можно выделить следующие процедуры [14]:

♦ определение перечня таблиц и связей между ними;

♦ определение перечня полей, типов полей, ключевых полей каждой таблицы (схемы таблицы), установление связей между таблицами через внешние ключи;

♦ установление индексирования для полей в таблицах;

♦ разработка списков (словарей) Для полей с перечислительными данными;

♦ установление ограничений целостности для таблиц и связей;

♦ нормализация таблиц, корректировка перечня таблиц и связей.

Примером транзакции является операция перевода денег с одного счета на другой в банковской системе. Сначала снимают деньги с одного счета, затем начисляют их на другой счет. Если хотя бы одно ИЗ действий не выполнится успешно, результат операции окажется неверным и будет нарушен баланс операции.

Ведение журнала изменений выполняется СУБД для обеспечения надежности хранения данных в базе при наличии аппаратных и программных сбоев.

Обеспечение целостности БД составляет необходимое условие успешного функционирования БД, особенно при ее Сетевом использовании. Целостность БД — это свойство базы данных, означающее, что в ней содержится полная, непротиворечивая и адекватно отражающая предметную область информация. Целостное состояние БД описывается с помощью ограничений целостности в виде условий, которым должны удовлетворять хранимые в базе данные [49].

Обеспечение безопасности достигается в СУБД шифрованием данных, парольной защитой, поддержкой уровней доступа к базе данных и отдельным ее элементам (таблицам, формам, отчетам и др.).

123 4 5

Не нашли, что искали? Воспользуйтесь поиском по сайту: