Сделай Сам Свою Работу на 5

Оптическое распознавание текста





Одним из источников данных является оцифровка книг

Создание производственной линии оцифровки книг

 

Принципы и основные понятия оцифровки

 

1.1 Принципы оцифровки

Цифровое изображение – это электронная фотография, представляющая собой набор элементов (пикселей), расположенных в определенном порядке по вертикальным и горизонтальным линиям экрана. Количество пикселей на единице площади определяет разрешение изображения. Каждый пиксель имеет определенное значение яркости, которое зависит от того, какой уровень света, отраженный от документа – источника, воспринимается светочувствительными диодами сканирующего устройства (charge-coupled device (CCD)). При световой экспозиции они создают соответствующее электрическое напряжение, которое посредством аналоговой/цифровой конверсии генерирует серию цифровых сигналов, представленных в бинарных кодах.

Наименьшая единица информации, хранящейся в компьютере, называется битом (бинарное значение). Количество битов, которые используются для представления каждого пикселя в изображении, определяет число цветов или оттенков серого цвета, которые могут быть представлены в цифровом изображении. Это называется битовая глубина (bit-depth).



Цифровые изображения также известны как изображения посредством распределенных битов или растровые изображения – их надо отличать от других типов файлов, таких, например, как векторные файлы, в которых изображение кодируется математическими формулами, описывающими линии и кривые.

Документы трансформируются в растровые изображения с помощью сканнера или цифровой камеры. В ходе снятия изображения физические документы читаются или сканируются с заданным разрешением и глубиной. Образовавшиеся файлы, содержащие бинарные значения (биты) для каждого пикселя форматируются и именуются таким образом, чтобы компьютер мог обеспечить их хранение и извлечение. Изображения из этих файлов воспроизводятся на экране и могут быть распечатаны.

Поскольку изображения с высоким разрешением могут занимать большой объем памяти, возникает необходимость в их сжатии (компрессии). После сканирования физического документа, все данные конвертируются в особый формат хранения. Существует много таких форматов, некоторые из них предполагают сжатие при хранении. Графические файлы содержат также техническую информацию в области файла, которую называют заголовок (“header”).



Задача любой программы оцифровки заключается в том, чтобы зафиксировать и представить существенную информацию, содержащуюся в документе или собрании документов. Для фиксации существенных частей документа оценка качества цифровых образов должна основываться на сравнении между цифровым изображением и оригинальным документом, а не на неопределенных представлениях, что является достаточным, чтобы удовлетворить непосредственные нужды пользователя.

В качестве матричных файлов-изображений (иначе, мастер-имиджей, т.е. изображений, которые создаются при оцифровке, а затем могут быть преобразованы в другие форматы) чаще всего применяется формат TIFF (Tagged image file format). В этом, как и в некоторых других форматах, например, в GIF, программа, используемая сканнером, генерирует набор меток (тэгов) с технической и административной метаинформацией (метаданными), которая записывается собственно в файле в формате ASCII, благодаря чему, использование файла не зависит от программной платформы.

Таким образом, устанавливается связь между физическим документом, процессом оцифровки и электронным изображением.

Создание ЭБ означает, прежде всего, предоставление пользователям доступа к электронным изображениям. Традиционные библиотеки повсеместно используют в качестве стандартного набора метаданных форматы MARC, но в других сферах культуры эти форматы не используются. Новым требованиям отвечает формат Dublin Core Metadata, разработанный в начале 90-х годов для Веб-ресурсов. Он содержит 15 элементов описания, и является наиболее широко используемым средством описания метаданных.



Graphics Interchange Format (GIF) Основной графический формат в интернете. Передает лишь 256 цветов, зато обеспечивает более высокую контрастность черно-белого изображения, чем JPEG.

Joint Photographic Experts Group (JPEG) Средство сжатия цифровых изображений, широко используемое в гипертекстовых системах. Достоинство – небольшой объем и быстрота доступа, недостатки этого графического формата – некоторое снижение качества изображения

 

Задачей проектирования системы оцифровки книг является создание получить интегрированной производственной линии, в которая включает все стадии которые книга должна пройти, прежде чем ее цифровая копия будет сохранена в депозитарии длительного хранения и при этом станет доступной имеющим разрешение пользователям.

Процесс создания цифровой книги должен быть максимально автоматизирован в тоже время обеспечить адаптивность технологического цикла, чтобы иметь возможность ввести в него новые операции или новое программное или аппаратное обеспечение.

Оцифровка предусматривает следующие операции

· отбор для оцифровки и установка очередности отобранных книг,

· извлечение книг из фондов,

· транспортировка,

· извлечение из каталогов метаданных (библиографических описаний),

· оцифровка книги,

· оптическое распознавание текста и его структурный анализ,

· конвертирование формата,

· генерация объектов хранения, ввод их в хранилище для длительного хранения,

· ввод в каталог указания о наличии оцифрованной копии,

· индексирование распознанного текста и метаданных для поисковой системы.

Описание отдельных операций. Оцифровка должна сделать обеспечение сохранности более эффективным и уменьшить опасность разрушения.

Оцифровка должна быть осуществлена с таким уровнем качества, чтобы после хранения оставалась возможность воссоздать качество оригинала в момент его оцифровки.

Выбор формата данных.

Пример (из опыта Норвежской национальной библиотеки).Принято решение оцифровывать книги с разрешением 400 dpi и с глубиной цвета 24 бита.

Формат сохранения JPEG2000 без потерь при сжатии. После сканирования сохраняемое изображение не обрабатывается и не редуцируется какими-либо способами.

Обоснование выбора формата JPEG2000 вместо формата TIFF

1. Данный формат позволяет значительно сократить потребность в объеме памяти примерно на 50%

2 Доказано, что формат JPEG2000 может быть преобразован обратно в TIFF абсолютно без каких бы то ни было потерь.

Аргумент против использования JPEG2000 состоит в том, что повреждение хотя бы одного бита может полностью разрушить все изображение, тогда как в формате TIFF оно затронет всего лишь один пиксель.

Организационные меры при долгосрочном хранении позволяют пренебречь такой опасностью.

Сканирование и извлечение метаданных из электронного каталога.

Если книга может быть разобрана на листы, сканирование происходит в 10 раз быстрее.

Для быстрой оцифровки иногда производят разброшюровку книг (обычно в тех случаях, когда в библиотеке имеется не менее трех экземпляров данной книги). После оцифровки разобранный экземпляр обычно уничтожается.

Подготовка книги для сканирования при разброшюровке требует гораздо больше трудозатрат, чем подготовка к ручному сканированию. Для разборки книги требуются специальные операторы (отделение переплета от блока, удаление клея с помощью гидравлического резака). Сканирование переплета – отдельный процесс. Таким образом, для обслуживания одного сканера требуется четыре оператора. Тем не менее, в целом такая технология позволяет снизить стоимость и повысить скорость процесса по сравнению с оцифровкой того же материала ручным способом.

При невозможности разброшюровки сканирование производится ручным способом, причем операторы сканируют одновременно две страницы. Книги, наиболее подверженные разрушению, сканируются под наблюдением специалиста по консервации, и принимаются необходимые консервационные меры до или в связи с оцифровкой.

Перед сканированием все метаданные по книге извлекаются из каталога (BIBSYS) посредством штрих кодов, которым снабжена каждая книга в этом каталоге. Таким образом генерируется цифровой идентификатор-паспорт книги, который вносится в файл XML вместе с метаданными, полученными из каталога. При автоматическом сканировании штрих код и идентификатор-паспорт распечатываются на отдельном листе сразу после сканирования переплета. Этот лист кладется поверх пачки листов разброшюрованной книги. Когда штрих код далее проходит через автоматический сканер, он идентифицируется, и таким образом осуществляется связь между файлом метаданных и сканированным переплетом книги.

При сканировании с переворачиванием страниц переплет и содержание книги сканируются на одной и той же машине. Этот процесс также предусматривает извлечение метаданных из каталога и генерацию файла XML c метаданными, который сопровождает книгу в течение всего цикла.

Оптическое распознавание текста

Для того чтобы мог быть использован полнотекстовый поиск в некоторых системах применяется оптического распознавание текста.

Кроме того выполняется автоматический структурный анализ, в ходе которого осуществляется аннотирование оглавления, и номера страниц выверяются так, чтобы интерфейс поиска соответствовал бы пагинации оригинальной книги. Это тоже автоматизированный процесс. Программное обеспечение поддерживает очень сложный структурный анализ, однако, на увеличение сложности невозможно без применения интеллектуального контроля после завершения процесса.

По завершении такой обработки создается комплексный объект, содержащий метаданные, соответствующие стандарту кодирования и передачи метаданных, цифровую книгу (графический образ), оптически распознанный текст и данные о структуре. Этот объект помещается в депозитарий долгосрочного хранения цифровых материалов национальной библиотеки.

Одновременно в каталог добавляется паспорт идентификатор книги.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.