Страница с черно-белым текстом без иллюстраций
План практического занятия №19
Тема: Подготовка электронных изданий в формате
Цель: изучить основные технологии создания электронного документа в формате DjVu
Время: 4 часа
Вопросы:
1. Характеристика формата DjVu.
2. Разделение изображения на слои: передний план, задний план и однобитовую маску. Использование текстового слоя.
3. Создание гиперссылок.
4. Программы WinDjView, DjVuReader, DjVuEditor, PdfToDjVu, DjVu HyperLinks Editor.
Методика выполнения:
1. Характеристика формата DjVu.
DjVu (дежа-вю) — графический формат, разработанный фирмой AT&T, оптимизированный для хранения отсканированных документов. Особое значение этот формат приобретает для переноса в сеть математической и технической литературы, содержащей большое количество схем и формул, что делает распознавание и перевод в текстовый формат практически невыполнимым.
В настоящее время DjVu становится фактическим стандартом для электронных библиотек технической и научной литературы. Отныне существует компромиссный вариант - перевод отсканированных картинок в формат DjVu (дежа-вю). При этом текст и контрастные рисунки сохраняются с разрешением 300dpi, все остальное считается фоном и сохраняется с пониженным разрешением. Это позволяет хорошо сжать электронный документ без потери его читабельности. Размер файла отсканированной книги оказывается в пределах нескольких мегабайт, что вполне приемлемо.
Разработанный фирмой AT&T Технология DjVu обеспечивает для файлов с черно-белыми монохромными изображениями сжатие порядка 500:1. Выигрыш в размере файла по сравнению с форматом GIF составляет в среднем 20 раз. Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный для данного графического образа алгоритм сжатия.
Формально, файлы, созданные с использованием DjVu трудно называть книгами. Это, по существу, растровый многостраничный графический файл. При его создании специальные алгоритмы отделяют текст от фона и иллюстраций, после чего они сжимаются с различным разрешением. Что и обеспечивает чрезвычайно высокое сжатие картинки (примерно 1:500) при более чем приемлемом качестве изображения.
Справедливости ради, следует заметить, что DjVu, более чем хорошо справляющийся с текстами и штриховыми иллюстрациями, пасует перед изданиями, содержащими цветные фото и рисунки — иллюстрированными энциклопедиями и глянцевыми журналами. Выглядят такие издания в DjVu весьма непрезентабельно.
2 Разделение изображения на слои: передний план, задний план и однобитовую маску. Использование текстового слоя.
Сканирование, с которого начинается зачастую долгий путь «в Сеть» любой изданной когда-либо книги — это самая трудоемкая часть всей предстоящей работы. При этом стоит помнить, что несжатый скан одной средней по размеру книги может занимать до 1 Гбайт.
Сканировать нужно в режиме Grayscale (оттенки серого), для цветных иллюстраций и обложек — True Color (полноцветный). Разрешение сканирования — 300 dpi.
Оптимальные параметры сканирования
Страница с черно-белым текстом без иллюстраций
· Режим: Grayscale
· Разрешение: 300 dpi (только оптическое, повторимся еще раз!)
· Резкость: Low или Medium, специальные параметры не использовать.
Страница с черно-белым текстом и черно-белыми штриховыми (одноцветными) иллюстрациями
· Режим: Grayscale
· Разрешение: 300 dpi
· Резкость: Medium, High, можно применить пресет B&W Photo.
Страница с черно-белым текстом и черно-белыми фотографическими иллюстрациями
· Режим: Grayscale
· Разрешение: 300 dpi
· Резкость: High, можно применить пресет B&W Photo.
· Яркость и контраст: определяются по предварительному сканированию
Страница с черно-белым текстом и цветными иллюстрациями
· Режим: True Color
· Разрешение: 300 dpi
· Резкость: Low, можно применить пресет Photo.
· Яркость и контраст: определяются по предварительному сканированию
Цветная обложка или иллюстрация страничного формата
· Режим: True Color
· Разрешение: 300 dpi
· Резкость: Low, можно применить пресет Photo.
Формат выходного файлаUncompressed (Несжатый) TIFF.
Установка области сканирования: область сканирования для книг (особенно при сканировании разворотами) - выставляется с запасом относительно формата книги, чтобы не особенно заботиться в дальнейшем о выравнивании книги на стекле.
Если сканировать книгу разворотами, то при нумерации с нуля номер каждого файла будет в точности равен номеру четной страницы, разделенному на 2, то есть:
Разворот 1 (Форзац и страница номер 1) - файл с именем Scan_000.TIF
Разворот 2 (страницы 2 и 3) - файл с именем Scan_001.TIF
Разворот 3 (страницы 4 и 5) - файл с именем Scan_002.TIF
Как правило, сканы именует сама программа сканирования, когда включен ее пакетный режим.
Крайне желательно, чтобы программа сканирования имела обновляемые пресеты установок области и параметров сканирования. Это необходимо для того, чтобы можно было прервать работу на некоторое время, а затем продолжить ее с теми же установками сканера.
Пакетная обработка. После сканирования полученные файлы содержат страницы книги, иногда в довольно неприглядном виде.
Смещенные и повернутые относительно друг друга страницы, низкий контраст, нечеткость печати, затемненная область у корешка и полей - там, где книга неплотно прилегала к стеклу сканера. У такой страницы в неизмененном виде — мало шансов быть распознанной без ошибок, и тем более она не будет иметь никакого «товарного вида» после сжатия и упаковки в DjVu или PDF. Устранить все дефекты и повысить качество распознавания текста — поможет пакетная обработка в программе ScanKromsator v5.92. Скачать программу всегда можно здесь: http://www.djvu-soft.narod.ru/soft/
| Программа ScanKromsator — мощный инструмент для подготовки книжных сканов. Она автоматически и наилучшим образом выполняет операции разбиения по страницам (Split), углового выравнивания (Deskew), обрезки переплетов и полей страниц. Однако, потратив несколько минут на расстановку опций и проверку страниц — можно получать всегда отличные легко распознаваемые сканы с минимальными (только не для компьютера ) усилиями. Кроме того, программа может сохранять сделанные настройки в виде сведений о заданиях (Tasks). Это позволяет при работе с большими книгами не бояться задать неправильные установки после перерыва в работе.
Первый шаг при работе с Кромсатором — командой File->Open Images... вызвать диалог открытия файлов с изображениями, и в нем выбрать ранее подготовленные сканы:
В диалоге открытия присутствуют списки, влияющие на открытие многостраничных TIFF-файлов (некоторые программы сканирования позволяют сохранить несколько сканов в один TIFF-файл), и сортировку файлов после сформирования списка. Опцию "Sort Smart" ("Умная" сортировка) стоит держать включенной всегда, и не отказываться от сортировки, так как обычная техника выбора файлов в Windows с помощью мыши и клавиши Shift - меняет местами первый и последний выбранные файлы в списке.
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|