Сделай Сам Свою Работу на 5

Информационно-технологическая структура полнотекстовых ИС.





Процессы компьютеризации деятельности предприятии привели к накоплению большого объема неструктурированной текстовой ин­формации. Возникла потребность в программном обеспечении, реали­зующем эффективный поиск информации.

Информационно-поисковые каталоги, фасетные и тезаурусные си­стемы не могли быть в ПОЛНОЙ мере использованы в массовой персо­нальной автоматизации. Потребовались средства, которые бы в Мак­симальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и за­тратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий [14]. В результате на рынке программных продуктов появились полнотекстовые ИС.

Полнотекстовые ПС строятся на основе информационно-поиско­вых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает [14]:

♦ хранилище документов;

♦ глобальный словарь системы;

♦ инвертированный индекс документов;

♦ интерфейс ввода документов в систему;



♦ механизм индексирования;

♦ интерфейс запросов пользователя;

♦ механизм поиска документов;

♦ механизм извлечения найденных документов.

Хранилище документов может быть организовано как единая ло­кально сосредоточенная информационная структура в виде специаль­ного файла с текстами документов.

Глобальный словарь системы может быть статическим и динами­ческим.

Статические словари определяются заранее и не зависят от содер­жания документов, вошедших в хранилище.

Динамические словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каж­дым новым документом в него помещаются новые словоформы.

менты глобального словаря выступают в качестве дескрипторов

ИПЯ-системы. Поступающие через интерфейс ввода-вывода докумен­ты подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых ИС полностью автома­тизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального слова­ря [14].



Существенное влияние на эффективность полнотекстовых ИС ока­зывает морфологический разбор при индексировании документов и запросов. Морфологический разбор позволяет выделять общую для однокоренных слов словоформу, а также выделять лексемы, т. е. сло­ва, отличающиеся окончаниями, приставками и суффиксами.

В результате индексирования поисковый образ каждою нового до­кумента представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответству­ющего двоичного вектора для дополнения индекса системы. Индекс

строится по инвертированной схеме и в двоичном виде отражает весь

(полный) текст учтенных или накопленных документов [14].

При удалении документа из системы соответственно удаляется и поисковый образ документа.

Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной. Механизм по­иска основывается на тех или иных алгоритмах и критериях сравне­ния поискового образа запроса с ПОИСКОВЫМИ образами документов, образующими индекс системы. Результатом поиска является опреде­ление номеров документов, поисковые образы которых соответствуют поисковому образу запроса. Далее специальная подсистема па основе установленных в хранилище указательных конструкций извлекает и доставляет соответствующие документы пользователю [14].

Примером полнотекстовых информационно-поисковых систем яв­ляются автоматизированные информационные системы по законода­тельству.



Автоматизированная информационная система по законодатель­ству (АИСЗ) — это программный комплекс, включающий в себя мас­сив правовой информации и инструменты для работы с ним [37]. Эти инструменты позволяют производить поиск документов, формировать подборки документов, печатать документы.

АИСЗ являются частью следующих типов информационных систем [37].

1. Справочно-информационные системы общего назначения, ориентированные на доступ пользователей к нормативно-правовым

гам. К этим системам относятся «Консультант Плюс», «Га­рант», «Кодекс» и др.

2. Глобальные информационные службы (хост-системы), предо-

ставляющие доступ удаленным пользователям к библиографи­ческой, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юриди­ческой информации, является система LEXIS (США).

3. Системы информационной поддержки деятельности правотворческих органов. Спецификой таких систем является необходимость хранения и поиска многих версий и редакций нормативно-
правовых документов, с учетом вносимых поправок и изменений.

1. Системы автоматизации делопроизводства судов, милиции и дру­гих правоохранительных органов. Основными особенностями АИСЗ являются [37]:

♦ необходимость предоставления адресного доступа к полным тек­стам;

♦ в информационных языках для поиска в БД по законодательству необходим учет контекстных связей, регламентированных при-

лагательных (типа «обязательный», «произвольный» и др.);

♦ тексты нормативных актов должны подвергаться так называемой
юридической обработке, при которой тексту приписываются не
только классификационные индексы, ключевые слова или де­скрипторы (как при обычном индексировании), но и комментарии специалистов, ссылки на предшествующие версии, связан­ные документы, решения судов и др.

В 1992 году образовалось НПП «Гарант-Сервис». В этом же году была создана общероссийская сеть «Консультант Плюс», которая охва­тила множество ГОРОДОВ России. В настоящее время наиболее распро­странена АИСЗ «Консультант Плюс». Система «Гарант» занимает второе место в России по количеству пользователей.

На третьем месте находится достаточно популярный продукт — информационно поисковая система «Кодекс», которая разработана малым государственным предприятием «Центр компьютерных разра­боток».

На российском рынке АИСЗ представлены также следующие про-

дукты, созданные государственными предприятиями для обеспечения потребностей в правовой информации государственных ведомств [52]:

♦ «Эталон» (НЦПИ при Министерстве юстиции РФ);

♦ «Система- (НТЦ «Система - при ФАПСИ).

Кроме того, на российском рынке представлены такие системы, как [52]:

♦ «ЮСИС» (фирма «Инталекс»);

♦ «Референт» (ЗАО «Референт-Сервис»);

♦ «Ваше право» и «Юрисконсульт» (фирма «Информационные системы и технологии»);

♦ «1С: Кодекс», «1С: Гарант». «1С: Эталон» (компания «1С»). Информационные банки РФ включают следующие уровни данных:

♦ федеральное законодательство;

♦ местное законодательство;

♦ ненормативные материалы (консультации экспертов, бланки де­ловых документов, проспекты эмиссии пенных бумаг коммерческих банков и т. п.).

При юридической обработке (индексировании) используется Об­щеправовой классификатор отраслей законодательства, утвержден­ный указом президента РФ № 2171 от 16 декабря 1993 года [37],

Существуют два источника получения правовой информации раз­работчиком для включения в систему: официальная рассылка подпи­савшего ведомства и опубликование в периодической печати.

Официальная рассылка — основной источник информации для си­стем «Консультант Плюс". «Гарант» и «Кодекс». Следует заметить, что государственные органы выступают не только в качестве источни­ков информации, НО И сами ЯВЛЯЮТСЯ пользователями систем, т. е. пря­мо заинтересованы в оперативном и достоверном пополнении инфор­мационного банка. Поэтому, как правило, документы передаются из органов государственной власти сразу же после их подписания.

Сеть «Консультант Плюс» имеет прямые договоры об обмене ин­формацией с ОСНОВНЫМИ федеральными органами (среди них— Ад

министрация Президента РФ, Министерство финансов РФ, Цен­тральный банк РФ, Федеральная налоговая служба и др.), а гаю местными органами власти. Благодаря аналогичным договорам, нор­мативные акты достаточно оперативно попадают и в систему «Гарант» [37,52].

Юридическая база < Кодекс» ведется при содействии юридического комитета мэрии Санкт Петербурга. Документы для данной системы поступают в «Центр компьютерных разработок" на основе договоров

не напрямую с органами власти, а с их представительствами в Санкт-Петербурге [37, 52].

Публикации в печатных изданиях. Выделяют три группы таких ис­точников. К первой относятся все издания, в которых публикация нормативных актов считается официальной: «Бюллетень междуна­родных договоров», < Вестник ЦБРФ», «Российская газета», <• Россий­ские вести» и др. Вторую группу составляют издания, не признанные официальными, но в состав учредителей которых входят российские министерства и ведомства: «Бюллетень Верховного суда РФ», «Фи­нансовая газета» и т. д. Наконец, в третью Группу входят издания, пуб­ликация документов в которых считается достоверной. Такие издания или имеют достаточно большой тираж, или пользуются авторитетом вереде специалистов: «Закон», «Хозяйство и право», «Экономика и жизнь» и др. [37J.

Основными параметрами, позволяющими определить качество со­держания информационной базы, являются [52]:

♦ полнота информации;

♦ достоверность информации;

♦ оперативность обновления информации.

Параметры, характеризующие качество программной оболочки:

♦ поисковые ВОЗМОЖНОСТИ системы:

♦ средства актуализации информации;

♦ дополнительные сервисные функции.

Оценка полноты, достоверности и оперативности обновления ин­формации основывается на количественных показателях. Оценка же качества юридической обработки поступающих в информационный банк документов достаточно субъективна.

Без юридической обработки АИСЗ является всего лишь электронным аналогом бумажных изданий. Еe цель систематизация документов для повышения эффективности их дальнейшего использования. Юриди­ческая обработка обычно состоит из следующих основных этапов [52]:

♦ Классификация документов;

♦ выявление взаимосвязей между различными документами;

♦ составление Примечаний к документу.

Классификация документов предназначена для последующего их поиска по некоторым признакам, формальным или неформальным. Классификация производится на основании классификатора данной системы. Как известно, классификатор — это иерархическая структу­ра, содержащая все понятия, используемые для описания документов, ВХОДЯЩИХ в информационную базу.

Доступ пользователя к информации, хранящейся в АИСЗ, может осуществляться двумя способами, каждый на которых имеет свои до­стоинства и недостатки [37]:

♦ работа с удаленной базой;

♦ работа с локальной базой.

При работе с удаленной базой пользователю нет необходимости хранить на своем компьютере данные системы, они хранятся на серве­ре разработчика и доступны через сеть. Большинство АИСЗ имеют версии, доступные через глобальную сеть Интернет. Основное пре­имущество работы с такими версиями заключается в том, что пользо­ватель всегда имеет доступ к самым последним данным [37].

Однако для работы с удаленной базой пользователю необходим доступ к Интернету. Зачастую скорость передачи информации через Интернет низкая из-за плохого качества каналов, а стоимость доступа достаточно высокая. Поэтому иногда более выгоден вариант работы с локальной базой, которая доступна в любой момент. Недостатком это­го варианта по сравнению с предыдущим является более продолжи­тельный период актуализации информации.

 

Основные понятия и классификация систем управления базами данных.

База данных (БД) представляет собой совокупность структуриро­ванных данных, хранимых в памяти вычислительной системы и ото­бражающих состояние объектов и их взаимосвязей в рассматриваемой предметной области [49].

Логическую структуру данных, хранимых в базе, называют мо­делью представления данных. К основным моделям представления данных (моделям данных) ОТНОСЯТСЯ иерархическая, сетевая, ре ционная.

Система управления базами данных (СУБД) это комплекс языко­вых и программных средств, предназначенный для создания, ведения и совместного использования БД многими пользователями. Обычно СУБД различают по используемой модели данных. Так, СУБД, осно­ванные на использовании реляционной модели данных, называют ре­ляционными СУБД.

для работы с базой данных зачастую достаточно средств СУБД. Однако если требуется обеспечить удобство работы с БД неквалифи­цированным пользователям или интерфейс СУБД не устраивает пользо­вателей, то могут быть разработаны приложения. Их создание требует программирования. Приложение представляет Собой программу пли комплекс программ, обеспечивающих автоматизацию решения какой-либо прикладной задачи. Приложения могут создаваться в среде или внесреды СУБД — с помощью системы программирования, исполь­зующей средства доступа к БД, к примеру, Delphi пли C++ Builder. Приложения, разработанные в среде СУБД, часто называют приложе­ниями СУБД, а приложения, разработанные вне СУБД, — внешними приложениями [49].

Словарь данных представляет собой подсистему БД, предназначен­ную для централизованного хранения информации о структурах данных, взаимосвязях файлов БД друг с другом, типах данных и формах их представления, принадлежности данных пользователям, кодах защиты и разграничения доступа и т. п. [49].

Информационные системы, основанные на использовании БД, обычно функционируют в архитектуре клиент-сервер. В этом случае БД размещается на компьютере-сервере, и к ней осуществляется сов­местный доступ.

Сервером определенного ресурса в компьютерной сети называется компьютер (программа), управляющий этим ресурсом, клиентом компьютер (программа), использующий этот ресурс. В качестве ресур­са компьютерной сети могут выступать, к примеру, базы данных, фай­лы, службы печати, почтовые службы.

Достоинством организации информационной системы на архитектуре клиент-сервер является удачное сочетание централизованного хранения, обслуживания и коллективного доступа к общей корпора­тивной информации с индивидуальной работой пользователей.

Согласно основному принципу архитектуры клиент-сервер, данные обрабатываются только на сервере. Пользователь или приложение фор­мируют запросы, которые поступают к серверу БД в виде инструкций языка SQL. Сервер базы данных обеспечивает поиск и извлечение нуж­ных данных, которые затем передаются на компьютер пользователя. Достоинством такого подхода в сравнении предыдущим является за­метно меньший объем передаваемых данных.

Выделяют следующие виды СУБД [49]:

♦ полнофункциональные СУБД;

♦ серверы БД;

♦ средства разработки программ работы с БД.

Полнофункциональные СУБД представляют собой традиционные СУБД. К ним относятся dBase IV, Microsoft Access, Microsoft FoxPro и др. [49].

Серверы БД предназначены для организации центров обработки данных в сетях ЭВМ. Серверы БД обеспечивают обработку запросов клиентских программ обычно с помощью операторов SQL. Примера­ми серверов БД являются: Microsoft SQL Server, InterBase и др. [49].

В роли клиентских программ в общем случае могут использоваться СУБД, электронные таблицы, текстовые процессоры, программы элек­тронной почты и др.

Средства разработки программ работы с БД могут использоваться для создания следующих программ [49]:

♦ клиентских программ;

♦ серверов БД и их отдельных компонентов;

♦ пользовательских приложений.

По характеру использования СУБД делят на многопользователь­ские (промышленные) и локальные (персональные).

Промышленные СУБД представляют собой программную основу для разработки автоматизированных систем управления крупными экономическими объектами. Промышленные СУБД должны удовле­творять следующим требованиям [14]:

♦ возможность организации совместной параллельной работы мно­гих пользователей;

♦ масштабируемость;

♦ переносимость на различные аппаратные и программные плат­формы;

♦ УСТОЙЧИВОСТЬ ПО отношению к сбоям различного рода, В ТОМ чис­ле наличие многоуровневой системы резервирования хранимой

информации;

♦ обеспечение безопасности хранимых данных и развитой структурированной системы доступа к ним.

Персональные СУБД это программное обеспечение, ориентиро­ванное на решение задач локального пользователя или небольшой группы пользователей и предназначенное для использования на пер­сональном компьютере, Это объясняет и их второе название - на­стольные. Определяющими характеристиками настольных систем яв­ляются;

♦ относительная простота эксплуатации, позволяющая создавать на их основе работоспособные пользовательские приложения;

♦ относительно ограниченные требования к аппаратным ресурсам.

По используемой модели данных СУ БД разделяют на иерархические,

сетевые, реляционные, объектно-ориентированные и др. Некоторые СУБД могут одновременно поддерживать несколько моделей данных. Для работы с данными, хранящимися в базе, используются следу­ющие типы языков [49]:

♦ язык описания данных - высокоуровневый непроцедурный язык
декларативного типа, предназначенный для описания логической
структуры данных;

♦ язык манипулирования данными совокупность конструкций,
обеспечивающих выполнение основных операции по работе с дан­ными: ввод, модификацию и выборку данных по запросам.

Названные языки в различных СУБД могут иметь отличия. Наи­большее распространение получили два стандартизованных языка: QBE (Query By Example) язык запросов по образцу и SQL (Struc­tured Query Language) - структурированный язык запросов. QBE в основном обладает свойствами языка манипулирования данными, SQL сочетает в себе свойства языков обоих типов [49].

СУБД реализует следующие основные функции низкого уровня [49]:

♦ управление данными во внешней памяти;

♦ управление буферами оперативной памяти;

♦ управление транзакциями;

♦ ведение журнала изменений в БД;

♦ обеспечение целостности и безопасности БД.

Реализация функции управления данными во внешней памяти обес­печивает организацию управления ресурсами в файловой системе ОС.

Необходимость буферизации данных обусловлена тем, что объем оперативной памяти меньше объема внешней памяти. Буферы пред­ставляют собой области оперативной памяти, предназначенные ускорения обмена между внешней и оперативной памятью. В буферах временно хранятся фрагменты БД, данные из которых предполагает­ся использовать при обращении к СУБД пли планируется записать в базу после обработки [49].

Механизм транзакций используется в СУБД для поддержания це­лостности данных в базе. Транзакцией называется некоторая недели­мая последовательность операций над данными БД, которая отсле­живается СУБД от начала и до завершения. Если по каким-либо причинам (сбои и отказы оборудования, ошибки в программном обес­печении, включая приложение) транзакция остается незавершенной, то она отменяется.

Транзакции присуши три основных свойства [14, 49]:

♦ атомарность (выполняются все входящие в транзакцию операции или пи одна);

♦ сериализуемость (отсутствует взаимное влияние выполняемых в одно и то же время транзакций);

♦ долговечность (даже крах системы не приводит к утрате резуль­татов зафиксированной транзакции).

 

Модели организации данных. Понятие реляционной БД. Основные понятия и принципы реляционной модели.

В иерархической модели объекты-сущности и отношения предмет­ной области представляются наборами данных, которые имеют древо­видную (иерархическую) структуру. Иерархическая модель данных была исторически первой. На ее основе в конце 60-х - начале 70-х го­дов были разработаны первые профессиональные СУБД.

Пример структуры иерархической БД приведен на рис. 5.1 [14].

Основное внимание в ограничениях целостности в иерархической модели уделяется целостности ссылок между предками и потомками с учетом основного правила: никакой потомок не может существовать без родителя.

Сетевая модель данных позволяет отображать разнообразные вза­имосвязи элементов данных в виде произвольного графа. Сетевая БД СОСТОИТ из набора записей и набора соответствующих связей. На фор­мирование связи особых ограничений не накладывается. Если в иерар­хических структурах запись-потомок могла иметь только одну запись-предка, то в сетевой модели данных запись-потомок может иметь произвольное число записей-предков.

Пример схемы сетевой БД показан на рис. 5.1 [49].

Имеет начальника Рис.5.2. Пример схемы сетевой БД

Достоинством сетевой модели данных является возможность ее эффективной реализации. В сравнении с иерархической моделью се­тевая модель предоставляет большие возможности в смысле допусти­мости образования произвольных связей.

Недостатком сетевой модели данных является высокая сложность и жесткость схемы БД, построенной на ее основе, а также СЛОЖНОСТЬ ее понимания обычным пользователем. Кроме ТОГО, в сетевой модели данных ослаблен контроль целостности связей из-за допустимости установления произвольных связей между записями.

Системы на основе сетевой модели не получили широкого распро­странения на практике.

Реляционная модель данных предложена сотрудником фирмы IBM Эдгаром Коддом и основывается на понятии отношения (relation).

Отношение представляет собой множество элементов, называемых кортежами. Наглядной формой представления отношения является двумерная таблица.

С помощью одной таблицы удобно описывать простейший вид свя­зей между данными, а именно: деление одного объекта, информация о котором хранится в таблице, на множество подобъектов, каждому из которых соответствует строка или запись таблицы,

ОСНОВНЫМИ недостатками реляционной модели ЯВЛЯЮТСЯ следу­ющие: отсутствие стандартных средств идентификации отдельных за­писей и сложность описания иерархических и сетевых связей.

Реляционная модель данных (РМД) некоторой предметной области представляет собой набор отношений, изменяющихся во времени. При создании информационной системы совокупность отношений позво­ляет хранить данные об объектах предметной области и моделировать связи между ними. Термины РМД представлены в табл. 5.1 [17|.

 

Термин реляционной модели Эквивалентный термин
Отношение Таблица
Схема отношения Строка заголовков столбцов таблицы (заголовок таблицы)
Кортеж Строка таблицы, запись
Сущность Описание свойств объекта
Атрибут  
Домен Множество допустимых значений атрибута
Первичный ключ Уникальный идентификатор
Кардинальное и, Количество строк
Степень Количество столбцов

Реляционная база данных представляет собой хранилище данных,

содержащее набор двухмерных таблиц. Данные в таблицах должны удовлетворять следующим принципам.

 

1. Значения атрибутов должны быть атомарными (иными слонами, каждое значение, содержащееся па пересечении строки и колонки, должно быть не расчленяемым на несколько значений).

2. Значения каждого атрибута должны принадлежать к одному и то­му же типу.

3. Каждая запись в таблице уникальна.
1. Каждое поле имеет уникальное имя.

5. Последовательность полей и записей в таблице несущественна

 

При проектировании схемы реляционной БД можно выделить сле­дующие процедуры [14]:

♦ определение перечня таблиц и связей между ними;

♦ определение перечня полей, типов полей, ключевых полей каж­дой таблицы (схемы таблицы), установление связей между таб­лицами через внешние ключи;


 

♦ установление индексирования для полей в таблицах;

♦ разработка списков (словарей) Для полей с перечислительными данными;

♦ установление ограничений целостности для таблиц и связей;

♦ нормализация таблиц, корректировка перечня таблиц и связей.

Примером транзакции является операция перевода денег с одного счета на другой в банковской системе. Сначала снимают деньги с од­ного счета, затем начисляют их на другой счет. Если хотя бы одно ИЗ действий не выполнится успешно, результат операции окажется не­верным и будет нарушен баланс операции.

Ведение журнала изменений выполняется СУБД для обеспечения надежности хранения данных в базе при наличии аппаратных и про­граммных сбоев.

Обеспечение целостности БД составляет необходимое условие успешного функционирования БД, особенно при ее Сетевом исполь­зовании. Целостность БД — это свойство базы данных, означающее, что в ней содержится полная, непротиворечивая и адекватно отража­ющая предметную область информация. Целостное состояние БД опи­сывается с помощью ограничений целостности в виде условий, кото­рым должны удовлетворять хранимые в базе данные [49].

Обеспечение безопасности достигается в СУБД шифрованием дан­ных, парольной защитой, поддержкой уровней доступа к базе данных и отдельным ее элементам (таблицам, формам, отчетам и др.).

 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.