Сделай Сам Свою Работу на 5

Страница с черно-белым текстом без иллюстраций

План практического занятия №19

Тема: Подготовка электронных изданий в формате

Цель: изучить основные технологии создания электронного документа в формате DjVu

Время: 4 часа

Вопросы:

1. Характеристика формата DjVu.

2. Разделение изображения на слои: передний план, задний план и однобитовую маску. Использование текстового слоя.

3. Создание гиперссылок.

4. Программы WinDjView, DjVuReader, DjVuEditor, PdfToDjVu, DjVu HyperLinks Editor.

Методика выполнения:

1. Характеристика формата DjVu.

DjVu (дежа-вю) графический формат, разработанный фирмой AT&T, оптимизированный для хранения отсканированных документов. Особое значение этот формат приобретает для переноса в сеть математической и технической литературы, содержащей большое количество схем и формул, что делает распознавание и перевод в текстовый формат практически невыполнимым.

В настоящее время DjVu становится фактическим стандартом для электронных библиотек технической и научной литературы. Отныне существует компромиссный вариант - перевод отсканированных картинок в формат DjVu (дежа-вю). При этом текст и контрастные рисунки сохраняются с разрешением 300dpi, все остальное считается фоном и сохраняется с пониженным разрешением. Это позволяет хорошо сжать электронный документ без потери его читабельности. Размер файла отсканированной книги оказывается в пределах нескольких мегабайт, что вполне приемлемо.

Разработанный фирмой AT&T Технология DjVu обеспечивает для файлов с черно-белыми монохромными изображениями сжатие порядка 500:1. Выигрыш в размере файла по сравнению с форматом GIF составляет в среднем 20 раз. Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный для данного графического образа алгоритм сжатия.

Формально, файлы, созданные с использованием DjVu трудно называть книгами. Это, по существу, растровый многостраничный графический файл. При его создании специальные алгоритмы отделяют текст от фона и иллюстраций, после чего они сжимаются с различным разрешением. Что и обеспечивает чрезвычайно высокое сжатие картинки (примерно 1:500) при более чем приемлемом качестве изображения.



Справедливости ради, следует заметить, что DjVu, более чем хорошо справляющийся с текстами и штриховыми иллюстрациями, пасует перед изданиями, содержащими цветные фото и рисунки — иллюстрированными энциклопедиями и глянцевыми журналами. Выглядят такие издания в DjVu весьма непрезентабельно.

2 Разделение изображения на слои: передний план, задний план и однобитовую маску. Использование текстового слоя.

Сканирование, с которого начинается зачастую долгий путь «в Сеть» любой изданной когда-либо книги — это самая трудоемкая часть всей предстоящей работы. При этом стоит помнить, что несжатый скан одной средней по размеру книги может занимать до 1 Гбайт.

Сканировать нужно в режиме Grayscale (оттенки серого), для цветных иллюстраций и обложек — True Color (полноцветный). Разрешение сканирования — 300 dpi.

Оптимальные параметры сканирования

Страница с черно-белым текстом без иллюстраций

· Режим: Grayscale

· Разрешение: 300 dpi (только оптическое, повторимся еще раз!)

· Резкость: Low или Medium, специальные параметры не использовать.

Страница с черно-белым текстом и черно-белыми штриховыми (одноцветными) иллюстрациями

· Режим: Grayscale

· Разрешение: 300 dpi

· Резкость: Medium, High, можно применить пресет B&W Photo.

Страница с черно-белым текстом и черно-белыми фотографическими иллюстрациями

· Режим: Grayscale

· Разрешение: 300 dpi

· Резкость: High, можно применить пресет B&W Photo.

· Яркость и контраст: определяются по предварительному сканированию

Страница с черно-белым текстом и цветными иллюстрациями

· Режим: True Color

· Разрешение: 300 dpi

· Резкость: Low, можно применить пресет Photo.

· Яркость и контраст: определяются по предварительному сканированию

Цветная обложка или иллюстрация страничного формата

· Режим: True Color

· Разрешение: 300 dpi

· Резкость: Low, можно применить пресет Photo.

Формат выходного файлаUncompressed (Несжатый) TIFF.

Установка области сканирования: область сканирования для книг (особенно при сканировании разворотами) - выставляется с запасом относительно формата книги, чтобы не особенно заботиться в дальнейшем о выравнивании книги на стекле.

Если сканировать книгу разворотами, то при нумерации с нуля номер каждого файла будет в точности равен номеру четной страницы, разделенному на 2, то есть:

Разворот 1 (Форзац и страница номер 1) - файл с именем Scan_000.TIF

Разворот 2 (страницы 2 и 3) - файл с именем Scan_001.TIF

Разворот 3 (страницы 4 и 5) - файл с именем Scan_002.TIF

Как правило, сканы именует сама программа сканирования, когда включен ее пакетный режим.

Крайне желательно, чтобы программа сканирования имела обновляемые пресеты установок области и параметров сканирования. Это необходимо для того, чтобы можно было прервать работу на некоторое время, а затем продолжить ее с теми же установками сканера.

Пакетная обработка. После сканирования полученные файлы содержат страницы книги, иногда в довольно неприглядном виде.

Смещенные и повернутые относительно друг друга страницы, низкий контраст, нечеткость печати, затемненная область у корешка и полей - там, где книга неплотно прилегала к стеклу сканера. У такой страницы в неизмененном виде — мало шансов быть распознанной без ошибок, и тем более она не будет иметь никакого «товарного вида» после сжатия и упаковки в DjVu или PDF. Устранить все дефекты и повысить качество распознавания текста — поможет пакетная обработка в программе ScanKromsator v5.92. Скачать программу всегда можно здесь: http://www.djvu-soft.narod.ru/soft/

Программа ScanKromsator — мощный инструмент для подготовки книжных сканов. Она автоматически и наилучшим образом выполняет операции разбиения по страницам (Split), углового выравнивания (Deskew), обрезки переплетов и полей страниц. Однако, потратив несколько минут на расстановку опций и проверку страниц — можно получать всегда отличные легко распознаваемые сканы с минимальными (только не для компьютера ) усилиями. Кроме того, программа может сохранять сделанные настройки в виде сведений о заданиях (Tasks). Это позволяет при работе с большими книгами не бояться задать неправильные установки после перерыва в работе.

Первый шаг при работе с Кромсатором — командой File->Open Images... вызвать диалог открытия файлов с изображениями, и в нем выбрать ранее подготовленные сканы:

В диалоге открытия присутствуют списки, влияющие на открытие многостраничных TIFF-файлов (некоторые программы сканирования позволяют сохранить несколько сканов в один TIFF-файл), и сортировку файлов после сформирования списка. Опцию "Sort Smart" ("Умная" сортировка) стоит держать включенной всегда, и не отказываться от сортировки, так как обычная техника выбора файлов в Windows с помощью мыши и клавиши Shift - меняет местами первый и последний выбранные файлы в списке.



©2015- 2019 stydopedia.ru Все материалы защищены законодательством РФ.