Порядок распознавания текстовых документов (программа Fine Reader)
Лекция 4: Сканер, его основные характеристики, принцип действия. Программы распознавания текста.
Сканер — это устройство ввода в ЭВМ информации непосредственно с бумажного носителя. Можно вводить текст, схемы, рисунки, графики, фотографии и другую графическую информацию. Сканер подобно копировальному аппарату создает копию изображения бумажного документа, но не на бумаге, а в электронном виде — создается электронная копия документа. Фактически происходит оцифровка каждой точки изображения.
К важным характеристикам сканера относятся:
• оптическое разрешение сканера, или точность сканирования (измеряется в точках на дюйм - dpi) и определяет количество точек, которые сканер различает на каждом дюйме - 200, 300, 600, 1200 и т.д.;
• разрядность сканера — означает то количество информации, которое потребуется для оцифровки каждой точки изображения, учитывая ее цветность;
• время сканирования и максимальный размер сканируемого документа.
Сканеры находят применение в издательской деятельности, системах проектирования, анимации. Эти устройства незаменимы при создании презентаций, докладов, рекламных материалов высокого качества.
Основные типы сканеров
Все существующие типы сканеров можно отнести либо к ручным устройствам, либо к настольным видам сканеров.
Ручной сканер (рис.2), как правило, чем-то напоминает увеличенную в размерах электробритву. Для того чтобы ввести в компьютер какой-либо документ при помощи этого устройства, надо без резких движений провести сканирующей головкой по соответствующему изображению. Таким образом, проблема перемещения считывающей головки относительно бумаги целиком ложится на пользователя.
Рис. 2 Ручной сканер
Также к ручным сканерам можно отнести еще одну специальную их разновидность — штрих-сканер. Предназначены они для считывания штрих-кодов с маркировки товаров в магазинах. Штрих-сканеры позволяют автоматизировать процесс подсчета стоимости покупок. Они особенно удобны в торговых помещениях, оборудованных электронной связью и производящих расчеты с покупателями с помощью электронных платежных средств (кредитных карт и т.п.)
К основным достоинствам ручных сканеров относятся небольшие габариты и сравнительно низкая цена.
Настольные сканеры
Само понятие «настольный» говорит о том, что данные сканеры располагаются на столе и устанавливаются в неподвижное положение (их не надо перемещать относительно документа).
Существуют следующие разновидности настольных сканеров: листовые, планшетные, рулонные, проекционные, барабанные и сканеры форм.
Листовые сканеры (рис.3) позволяют за одну операцию сканировать лист бумаги стандартного формата. Блок сканирования у таких сканеров неподвижен, а бумага протягивается мимо него при помощи специальных валиков (как в принтере). Эти сканеры гарантируют хорошее качество сканирования, но они способны сканировать только отдельные листы. Перевести с их помощью в электронную форму страницу книги или разворот журнала невозможно.
Рис. 3 Листовой сканер
Основным отличием планшетных сканеров является то, что сканирующая головка перемещается относительно бумаги с помощью шагового двигателя. Планшетные сканеры — пожалуй, наиболее «способные». Внешне они чем-то могут напоминать копировальные машины — «ксероксы».
Рис.4 Планшетный сканер
Для сканирования изображения (чего-нибудь) необходимо открыть крышку сканера, подключить сканируемый лист на стеклянную пластину изображением вниз, после чего закрыть крышку. Все дальнейшее управление процессом сканирования осуществляется с клавиатуры компьютера — при работе с одной из специальных программ, поставляемых вместе с таким сканером.
Работа рулонных сканеров чем-то напоминает работу обыкновенной факс-машины. Отдельные листы документов протягиваются через такое устройство, при этом и осуществляется их сканирование. Таким образом, в данном случае сканирующая головка остается на месте, а уже относительно нее перемещается бумага. Понятно, что в этом случае копирование страниц книг и журналов просто невозможно.
Рис. 5 Рулонный сканер
Проекционные сканеры (рис.6) больше всего напоминают своеобразный проекционный аппарат (или фотоувеличитель). Вводимый документ кладется на поверхность сканирования изображением вверх, блок сканирования находится при этом также сверху. Перемещается только сканирующее устройство. Основной особенностью данных сканеров является возможность сканирования трехмерных проекций.
Рис. 6 Проекционный сканер
Барабанные сканеры (рис.7) обеспечивают наивысшее разрешение сканирования, но они предназначены в основном для сканирования не бумажных документов, а прозрачных материалов, например слайдов, негативов и т.п. В сканерах этого типа считывающая головка устанавливается неподвижно, а изображение, закрепленное на цилиндрическом барабане, вращается с высокой скоростью и сканируется построчно.
Рис. 7 Барабанный сканер
Особым рядом стоят сканеры форм (рис.8). Это специальные сканеры для ввода информации с заполненных бланков. Некоторые специалисты считают сканеры форм разновидностью листовых сканеров. С их помощью вводят данные из анкет, опросных листов, избирательных бюллетеней. От сканеров этого типа требуется не высокая разрешающая способность, а очень высокое быстродействие.
Рис. 8 Сканеры форм
Программное обеспечение
Для управления работой сканера (впрочем, как и иного устройства) необходима соответствующая программа — драйвер. В этом случае управление идет не на уровне «железа» (портов ввода-вывода), а через функции или точки входа драйвера. До недавнего времени каждый драйвер для сканера имел свой собственный интерфейс. Это было достаточно неудобно, поскольку для каждой модели сканера требовалась своя прикладная программа. Логичнее было бы наоборот, если бы с одной прикладной программой могли работать несколько моделей сканеров. Это стало возможным благодаря TWAIN.
TWAIN — это стандарт, согласно которому осуществляется обмен данными между прикладной программой и внешним устройством. Основной целью создания TWAIN-спецификации было решение проблемы совместимости, то есть легкого объединения различных устройств ввода с любым программным обеспечением.
После обработки документа сканером получается графическое изображение документа, который еще не является текстом. С точки зрения ПК, документ превращается в набор разноцветных точек, а вовсе не в текстовый документ.
Эту проблему решают специальные программы, предназначенные для распознавания текста. На сегодняшний день существует немало программ, предназначенных для этой цели.
Наиболее распространенная и широко известная — Fine Reader. Она обеспечивает высокое качество распознавания и удобство применения.
Порядок распознавания текстовых документов (программа Fine Reader)
Преобразование бумажного текстового документа в электронный происходит в три этапа, причем Fine Reader может выполнять их как автоматически, так и под контролем пользователя.
Рис. 9 Окно программы Fine Reader
Первый этап — сканирование. Для его проведения необходимо запустить программу и включить сканер, после чего произвести щелчок на кнопке «Сканировать».
Второй этап работы — сегментация текста. Дело в том, что в бумажном документе текст не всегда располагается в фиксированном порядке. Он может размещаться и в нескольких колонках, содержать табличные данные, иллюстрации и т.д., поэтому прежде чем включать текст в документ, его разбивают на блоки, содержащие цельные фрагменты. При щелчке на кнопке «Сегментировать» сегментация производится автоматически.
Последний этап работы — непосредственно распознавание. Этот этап обычно не требует вмешательства пользователя, за исключением случаев, когда бумажный документ имеет недостаточную контрастность или необычный шрифт. В этих исключительных случаях целесообразно сначала провести «обучение» программы в соответствии с особенностями данного документа, для чего устанавливают флажок «Распознавание с обучением» и следуют инструкциям, которые предлагает программа. Для всех остальных случаев распознавание начинается по щелчку на кнопке «Распознать».
Полученный текст можно сохранить в виде форматированного (отредактированного) или неформатированного документа, либо отправить в программы Word или Excel, а также в буфер обмена Windows.
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.
|