Сделай Сам Свою Работу на 5

Порядок распознавания текстовых документов (программа Fine Reader)





Лекция 4: Сканер, его основные характеристики, принцип действия. Программы распознавания текста.

Сканер — это устройство ввода в ЭВМ информа­ции непосредственно с бумажного носителя. Можно вводить текст, схемы, рисунки, графики, фотогра­фии и другую графическую информацию. Сканер подобно копировальному аппарату создает копию изображения бумажного документа, но не на бума­ге, а в электронном виде — создается электронная копия документа. Фактически происходит оцифров­ка каждой точки изображения.

К важным характеристикам сканера относятся:

оптическое разрешение сканера, или точность сканирования (измеряется в точках на дюйм - dpi) и определяет количество точек, которые сканер разли­чает на каждом дюйме - 200, 300, 600, 1200 и т.д.;

разрядность сканера — означает то количество информации, которое потребуется для оцифровки каждой точки изображения, учитывая ее цветность;

время сканирования и максимальный размер сканируемого документа.

Сканеры находят применение в издательской дея­тельности, системах проектирования, анимации. Эти устройства незаменимы при создании презентаций, докладов, рекламных материалов высокого качества.



Основные типы сканеров

Все существующие типы сканеров можно отнести либо к ручным устройствам, либо к настольным видам сканеров.

Ручной сканер (рис.2), как правило, чем-то напоминает увеличенную в размерах электробритву. Для того чтобы ввести в компьютер какой-либо документ при помощи этого устройства, надо без резких движе­ний провести сканирующей головкой по соответству­ющему изображению. Таким образом, проблема перемещения считывающей головки относительно

 
 

бумаги целиком ложится на пользователя.

Рис. 2 Ручной сканер

 

Также к ручным сканерам можно отнести еще одну специальную их разновидность — штрих-сканер. Пред­назначены они для считывания штрих-кодов с марки­ровки товаров в магазинах. Штрих-сканеры позволя­ют автоматизировать процесс подсчета стоимости по­купок. Они особенно удобны в торговых помещениях, оборудованных электронной связью и производящих расчеты с покупателями с помощью электронных пла­тежных средств (кредитных карт и т.п.)



К основным достоинствам ручных сканеров отно­сятся небольшие габариты и сравнительно низкая цена.

Настольные сканеры

Само понятие «настольный» говорит о том, что данные сканеры располагаются на столе и устанав­ливаются в неподвижное положение (их не надо перемещать относительно документа).

Существуют следующие разновидности настоль­ных сканеров: листовые, планшетные, ру­лонные, проекционные, бара­банные и сканеры форм.

Листовые сканеры (рис.3) позволяют за одну операцию сканировать лист бумаги стандартного формата. Блок сканирования у таких сканеров неподвижен, а бумага протягивается мимо него при помощи специ­альных валиков (как в принтере). Эти сканеры га­рантируют хорошее качество сканирования, но они способны сканировать только отдельные листы. Пе­ревести с их помощью в электронную форму стра­ницу книги или разворот журнала невозможно.

Рис. 3 Листовой сканер

Основным отличием планшетных сканеров явля­ется то, что сканирующая головка перемещается относительно бумаги с помощью шагового двигателя. Планшетные сканеры — пожалуй, наиболее «спо­собные». Внешне они чем-то могут напоминать ко­пировальные машины — «ксероксы».

 

Рис.4 Планшетный сканер

 

Для сканирования изображения (чего-нибудь) необходимо открыть крышку сканера, подключить сканируемый лист на стеклянную пластину изобра­жением вниз, после чего закрыть крышку. Все даль­нейшее управление процессом сканирования осуще­ствляется с клавиатуры компьютера — при работе с одной из специальных программ, поставляемых вместе с таким сканером.



 
 

Работа рулонных сканеров чем-то напоминает ра­боту обыкновенной факс-машины. Отдельные листы документов протягиваются через такое устройство, при этом и осуществляется их сканирование. Таким образом, в данном случае сканирующая головка ос­тается на месте, а уже относительно нее перемещает­ся бумага. Понятно, что в этом случае копирование страниц книг и журналов просто невозможно.

 

Рис. 5 Рулонный сканер

Проекционные сканеры (рис.6) больше всего напомина­ют своеобразный проекционный аппарат (или фото­увеличитель). Вводимый документ кладется на по­верхность сканирования изображением вверх, блок сканирования находится при этом также сверху. Перемещается только сканирующее устройство. Ос­новной особенностью данных сканеров является воз­можность сканирования трехмерных проекций.

Рис. 6 Проекционный сканер

 

 
 

Барабанные сканеры (рис.7) обеспечивают наивысшее раз­решение сканирования, но они предназначены в ос­новном для сканирования не бумажных документов, а прозрачных материалов, например слайдов, нега­тивов и т.п. В сканерах этого типа считывающая го­ловка устанавливается неподвижно, а изображение, закрепленное на цилиндрическом барабане, враща­ется с высокой скоростью и сканируется построчно.

 

Рис. 7 Барабанный сканер

Особым рядом стоят сканеры форм (рис.8). Это специальные сканеры для ввода информации с заполненных бланков. Некоторые специалисты счи­тают сканеры форм разновидностью листовых ска­неров. С их помощью вводят данные из анкет, оп­росных листов, избирательных бюллетеней. От ска­неров этого типа требуется не высокая разрешаю­щая способность, а очень высокое быстродействие.

Рис. 8 Сканеры форм

Программное обеспечение

Для управления работой сканера (впрочем, как и иного устройства) необходима соответствующая про­грамма — драйвер. В этом случае управление идет не на уровне «железа» (портов ввода-вывода), а че­рез функции или точки входа драйвера. До недавне­го времени каждый драйвер для сканера имел свой собственный интерфейс. Это было достаточно неудоб­но, поскольку для каждой модели сканера требова­лась своя прикладная программа. Логичнее было бы наоборот, если бы с одной прикладной программой могли работать несколько моделей сканеров. Это стало возможным благодаря TWAIN.

TWAIN — это стандарт, согласно которому осуще­ствляется обмен данными между прикладной про­граммой и внешним устройством. Основной целью создания TWAIN-спецификации было решение про­блемы совместимости, то есть легкого объединения различных устройств ввода с любым программным обеспечением.

После обработки документа сканером получается графическое изображение документа, который еще не является текстом. С точки зрения ПК, документ превращается в набор разноцветных точек, а вовсе не в текстовый документ.

Эту проблему решают специальные программы, предназначенные для распознавания текста. На се­годняшний день существует немало программ, пред­назначенных для этой цели.

Наиболее распространенная и широ­ко известная — Fine Reader. Она обеспечивает высокое качество распознавания и удобство применения.

Порядок распознавания текстовых документов (программа Fine Reader)

Преобразование бумажного текстового докумен­та в электронный происходит в три этапа, причем Fine Reader может выполнять их как автоматичес­ки, так и под контролем пользователя.


Рис. 9 Окно программы Fine Reader

 

Первый этап — сканирование. Для его проведе­ния необходимо запустить программу и включить сканер, после чего произвести щелчок на кнопке «Сканировать».

Второй этап работы — сегментация текста. Дело в том, что в бумажном документе текст не всегда располагается в фиксированном порядке. Он может размещаться и в нескольких колонках, содержать табличные данные, иллюстрации и т.д., поэтому прежде чем включать текст в документ, его разби­вают на блоки, содержащие цельные фрагменты. При щелчке на кнопке «Сегментировать» сегментация производится автоматически.

Последний этап работы — непосредственно рас­познавание. Этот этап обычно не требует вмешатель­ства пользователя, за исключением случаев, когда бумажный документ имеет недостаточную контрас­тность или необычный шрифт. В этих исключитель­ных случаях целесообразно сначала провести «обу­чение» программы в соответствии с особенностями данного документа, для чего устанавливают флажок «Распознавание с обучением» и следуют инструкци­ям, которые предлагает программа. Для всех осталь­ных случаев распознавание начинается по щелчку на кнопке «Распознать».

Полученный текст можно сохранить в виде фор­матированного (отредактированного) или неформа­тированного документа, либо отправить в програм­мы Word или Excel, а также в буфер обмена Windows.

 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.