Сделай Сам Свою Работу на 5

Ввод информации в систему





 

Это прежде всего сканирование документов и сохранение их в виде графических образов.

В современных системах применяется технология оптического распознавания символов OCR (Optical Character Recognition). После сканирования и ввода документа в систему его графический образ "переводится" в текст, затем следует исправление ошибок распознавания.

При массовом ручном вводе однотипных документов используются электронные формы, которые обеспечивают структуризацию документа путем выделения частей текста и добавления полей (атрибутов), что позволяет упростить заполнение документов и выполнить необходимые вычисления.

Импорт файлов с различных носителей или по телекоммуникациям (факсы, сообщения электронной почты и т. п.).

Ввод информации сопровождается классификацией документов путем задания атрибутов и ключевых слов, аннотированием их содержания. Для ускорения последующего контекстного поиска производится полнотекстовое индексирование документов.

 

Хранение информации, навигация, поиск
и фильтрация документов

Документы могут храниться просто в файловой системе, и при этом система каталогов служит средством группирования и навигации в хранилище документов. В современных ОС типа Windows есть возможность задания длинных имен каталогов и файлов в качестве названий папок и документов, а также имеются соответствующие средства поиска файлов по их параметрам.



Ряд систем, основанных на электронной почте, хранят документы в почтовых ящиках в виде почтовых сообщений с присоединенными файлами. Навигация в хранилище упрощается с помощью вложенных папок личного и коллективного пользования. Однако в таких системах поиск и фильтрация ограничены лишь отбором и сортировкой документов по атрибутам и тексту почтового сообщения.


 

Рис. 7.1

 

 


Специфический метод хранения реализован в пакете Lotus Notes в виде так называемой базы документов, которая может хранить как однотипную, так и разнотипную информацию в виде одного файла. Документы имеют возможность внутренней структуризации на основе формуляров путем выделения и добавления полей в документе. Навигацию в базе документов упрощает наличие страниц баз документов и категорий документов. Почтовые сообщения также хранятся в виде базы документов, файлы произвольного вида допускается присоединять к текстовым документам.



Многие современные системы электронных документов используют в дополнение к файловой системе так называемые библиотеки документов, содержащие карточки документов с атрибутами и ключевыми словами. Для логической группировки документов применяются папки.

Поиск и фильтрация документов производятся по запросам на основе контекстного поиска: по атрибутам, по ключевым словам и по полному содержанию текста на основе индекса. При этом различают механизм четкого поиска и механизм нечеткого поиска. В первом случае в запросе не должно быть орфографических ошибок, а в тексте документа – ошибок распознавания. Технология нечеткого поиска по полному содержанию документа не требует полного соответствия искомых фраз с содержимым документов, кроме того, исключает потребность в исправлении ошибок после распознавания текста. Система поиска всегда выдает пользователю ответ, наилучшим образом согласованный с терминами или фразами запроса.

Фирмы – производители реляционных СУБД (в частности ORACLE) реализуют текстовые и универсальные БД. Тексты документов хранятся в символьных полях переменной длины, расширенные средства SQL-поиска позволяют формировать смешанные запросы для поиска по атрибутам и контекстного поиска, а дополнительные функции обеспечивают обработку текста. Для хранения произвольной информации, в том числе мультимедиа, можно использовать поля бинарных объектов большой длины BLOB и/или гипертекст. СУБД, расширенные для поиска и обработки такой информации, образуют универсальные серверы БД.



Технология распределенного гипертекста составляет основу широко внедряемой Web-технологии. Хранилище информации представляет собой совокупность гипертекстовых страниц, распределенных по узлам сети Интернет или корпоративной сети (Intranet). Каждая страница размещается в отдельном файле и представляет собой текст, размеченный с помощью языка HTML. Структуризация документа осуществляется путем форматирования, выделения полей, создания форм для диалогового заполнения документа и организации внутренних гипертекстовых ссылок. Допускается создание гипермедиа включением любой мультимедиа-информации (растровая графика, аудио, видео). Навигация по хранилищу гипертекста осуществляется с помощью внешних гипертекстовых ссылок URL на документы, расположенные на различных узлах сети (Web-серверах). Кроме того, для определения местонахождения документов служит контекстный поиск. Для ускорения поиска информации в «паутине» применяются специальные программы-роботы, сканирующие Web-серверы и строящие некое подобие индекса. Использование гипертекста позволяет создать информационную инфраструктуру территориально распределенного учреждения и упростить диалоговый интерфейс пользователя, что наиболее важно при разработке информационных приложений для руководителей.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.