Сделай Сам Свою Работу на 5

Программы оптического распознавания текста (Fine Reader 7.0)





После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.

Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации символов.
Подобные системы назывались OCR (Optical Character Recognition — оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход. Естественно приходилось сталкиваться с произвольным и, тем более, сложным шрифтом, программы такого рода начинали давать серьезные сбои.
Современные научные достижения в области распознавания образов буквально перевернули представление об оптическом распознавании символов. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.
Поскольку потребность в распознавании текста отсканированных документов достаточно велика, неудивительно, что имеется зна­чительное число программ, предназначенных для этой цели. Так как разные научные методы распознавания текста развивались независимо друг от друга, многие из этих программ используют совершенно разные алгоритмы.
Эти алгоритмы могут давать разные результаты на разных документах. Например, упоминавшиеся выше системы OCR способны распознавать только стандартный специально подготовленный шрифт и дают на этом шрифте наилучшие результаты, которые не может превзойти ни одна, из более универсальных программ.
Современные алгоритмы распознавания текста не ориентируются ни на конкретный шрифт, ни на конкретный алфавит. Большинство программ способно распознавать текст на нескольких языках. Одни и те же алгоритмы можно использовать для распознавания русского, латинского, арабского и других алфавитов и даже смешанных текстов. Разумеется, программа должна знать, о каком алфавите идет речь.





Нас, прежде всего, интересуют программы, способные распозна­вать текст, напечатанный на русском языке. Такие программы выпускаются отечественными производителями. Наиболее широко известна и распространена программа FineReader. Мы подробно остановимся именно на этой программе, обеспечивающей высокое качество распознавания и удобство применения.
Программа Fine Reader

Программа Fine Reader выпускается отечественной компанией ABBYY Software (www.bitsoft.ru). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных текстов.
Программа имеет ряд удобных возможностей. Она позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (или с многостраничными документами) и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов. Она позволяет редактировать распознанный текст и проверять его орфографию.
Fine Reader работает с разными моделями сканеров. В частности, программа поддерживает стандарт TWAIN. Мы рассмотрим программу на примере версии 7.0



Распознавание документов в программе FineReader

 

 

После установки программы Fine Reader в меню Программ Главного меню появляются пункты, обеспечивающие работу с ней. Окно программы имеет типичный для приложений Windows вид и содержит строку меню, ряд панелей инструментов и рабочую область.

1. В левой части рабочей области располагается панель Пакет,содержащая список графических документов, которые должны быть преобразованы в текст. Эти графические файлы рассматриваются как части одного документа. Результаты их обрабатываются и в дальнейшем объединяются в единый текстовый файл. Формазначка, отмечающего исходные файлы, указывает, было ли произведено распознавание.

2. Панель в нижней части рабочей области содержит фрагмент графического документа в увеличенном виде. С ее помощью можно оценить качество распознавания. Эту панель используют также при «обучении» программы в ходе распознавания.

3. Остальную часть рабочей области занимают окна документа. Здесь располагается окно графического документа, подлежащего распознаванию, а также окно текстового документа, полученного после распознавания.

4. В верхней части окна приложения под строкой меню располагаются панели инструментов. На приведенном рисунке включено отображение всех панелей, которые могут быть использованы в программе Fine Reader.

5. Панель инструментов Стандартная содержит кнопки для открытия документов и для операций с буфером обмена. Прочие кнопки этой панели служат для изменения рабочей зоны.

6. ПанельScan&Readсодержит кнопки, соответствующие этапам превращения бумажного документа в электронный текст. Первая кнопка позволяет выполнить такое преобразование в рамках единой операции. Остальные кнопки соответствуют отдельным этапам работы и содержат раскрывающиеся меню, служащие для управления соответствующей операцией.

7. Панель Изображение используют при работе с исходным изображением. В частности, она позволяет управлять сегментацией документа. С помощью элементов управления этой панели задают последовательность фрагментов текста в итоговом документе.

8. Элементы управления панели Форматирование используют для изменения представления готового текста или при его редактировании.

Чтобы установить режимы сохранения в формате PDF:

· В меню Сервисвыберите пункт Форматы.

· На закладке PDF диалога Форматыустановите требуемый режим.

PDF является распространенным форматом для пересылки документов по электронной почте или публикации документов на web-сайтах. Естественно, что при публикации на web-сайтах очень важна высокая скорость открытия документов. Документ, сохраненный из программы FineReader в формате PDF, отвечает подобным требованиям. Структура PDF такова, что позволяет открывать в пользовательском браузере для просмотра первые страницы PDF документа, не дожидаясь, когда весь файл целиком будет загружен с web-сервера.


11. Ввод цифровой и аналоговой информации в персональный компьютер с различных носителей,периферийного и мультимедийного оборудования.
У профессиональных цифровых фотоаппаратов и видеокамер они значительно выше. Любительские цифровые видеокамеры в основном имеют два формата: MiniDV, при котором запись производится на миниатюрную магнитную кассету, и DVD, при котором запись производится на оптический диск.В настоящее время ведущими мировыми производителями цифровых видеокамер являются компании Sony, Panasonic, Philips, Canon и NC.Для ввода звуковой информации в ПК используется микрофон, который подключается с помощью электрического кабеля к звуковой карте (звуковому контроллеру). Звуковая карта устанавливается в один из слотов (разъемов) на системной плате ПК. Микрофон преобразует звуковой сигнал в электрический, который затем поступает в звуковую карту. Звуковая карта принимает электрический сигнал от микрофона, преобразует его из аналоговой формы в цифровую и сохраняет звуковую информацию в виде файла, формат которого определяется компьютерной программой обработки звуковой информации (например, WMA – Windows Media Audio).Качество оцифрованной звуковой информации определяется параметрами АЦП звуковой карты: ее разрядностью (16–24 бит) и частотой дискретизации (44,1; 48; 96 или 192 кГц). Кроме того, современные звуковые карты имеют частотный диапазон воспроизводимого звука от 20 Гц до 20 КГц. Для ввода звуковой информации в ПК используются в основном электростатические (конденсаторные) микрофоны. Ввод информации осуществляется также через сканеры.

Сканеры (от англ. scan –пристально разглядывать) являются самыми распространенными в настоящее время устройствами для ввода графической и текстовой информации с бумажного листа или пленки.

Вариант записи дисков на Vista— c проигрывателем CD/DVD

Выбираете использовать диск с проигрывателем CD/DVD и нажимаете Далее

Затем отправляете файлы вышепоказанным способом или просто копируете все что вам необходимо записать на диск. При этом сразу ничего записываться не будет. Будет создаваться сессия которую вы можете записать. При этом вы увидите предупреждение в области уведомлений

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.