logo
Менеджмент (метод

Обучаемая ocr-система FineReader

Предварим подробное изучение системы несколькими заме­чаниями.

Требования к системе:

1. ПК с процессором семейств Intel® Pentium®/Celeron®/ Xeon™, AMD K6/Athlon™/Duron™ или совместимым с ними процессором, тактовая частота которого составляет не менее 200 МГц, или более мощным;

2. Операционная система Microsoft Windows XP, Windows 2000, Windows NT 4.0 (SP6 или выше), Windows Me/98 (для работы с локализованным интерфейсом операционная система должна обеспечивать необходимую языковую поддержку);

3. Требования к оперативной памяти зависят от используе­мой операционной системы: для Windows XP/2000/NT 4.0 — 64 Мбайт; Windows Me/98 - 32 Мбайт. При работе в многопро­цессорных системах требуется дополнительно 16 Мбайт опера­тивной памяти для каждого дополнительного процессора;

4. Свободное место на диске: 150 Мбайт для обычной уста­новки, 70 Мбайт для работы системы;

5. Полностью TWAIN-совместимый сканер, цифровая каме­ра или факс-модем;

6. Видеоплата и монитор с разрешением не менее 800x600 точек;

7. Клавиатура, мышь или другое устройство ввода.

Настройка инструментальных панелей

FineReader позволяет настраивать инструментальные пане­ли: Стандартная, Изображение, Форматирование; добавлять и удалять кнопки всех команд программы.

Каждому пункту меню соответствует свой значок. Полный список команд и соответствующих им кнопок приведен в диа­логе Настройка (меню Сервис / Настройка) в списке Команды.

Получение и обработка изображения программой FineReader

1. Сканирование. Программа FineReader работает со сканера­ми посредством TWAIN-интерфейса. Это единый международ­ный стандарт, введенный в 1992 г. для унификации взаимодей­ствия устройств ввода изображений в компьютер с внешними приложениями. Известны два варианта взаимодействия програм­мы со сканерами с помощью TWAIN-драйвера:

Охарактеризуем каждый вариант.

В режиме Использовать интерфейс TWAIN-драйвера скане­ра, как правило, доступна функция предварительного просмот­ра изображения (preview), позволяющая точно задавать размеры сканируемой области, подбирать яркость, контролируя резуль­таты изменений. К сожалению, диалог TWAIN-драйвера скане­ра у каждого сканера выглядит по-своему, в большинстве случа­ев все надписи на английском языке. Вид этого окна и смысл опций описаны в документации, прилагаемой к сканеру. В ре­жиме Использовать интерфейс FineReader выполняются следу­ющие функции: сканирование в цикле на сканерах без автопо-датчика, сохранение опций сканирования в отдельный файл Шаблон пакета (*.fbt), применение этих опций в других паке­тах. Переключение режимов проводится на вкладке Сканирова­ние/Открытие диалога Опции (меню Сервис/Опции) уста­новкой переключателя в одно из положений: Использовать ин­терфейс TWAIN-драйвера сканера или Использовать интерфейс FineReader.

2. Установка параметров сканирования. Качество распозна­вания во многом зависит от того, насколько хорошее изображе­ние получено при сканировании, и, кроме того, регулируется установкой основных параметров сканирования:

Следует заметить, что сканирование с разрешением 400— М)() dpi вместо 300 dpi или сканирование в сером тоне или в и мете (не в черно-белом) может занять существенно больше иремени.

При сканировании с помощью TWAIN с использованием интерфейса FineReader: в меню Сервис выберите пункт Настрой­ки сканера и в открывшемся диалоговом окне Настройки ска­нера установите нужные опции.

При сканировании с помощью TWAIN с применением ин­терфейса TWAIN-драйвера сканера для установки параметров сканирования используется диалоговое окно сканера, которое открывается автоматически щелчком по кнопке (Сканировать). < )иции для установки параметров сканирования могут называться по-разному, в зависимости от модели сканера (например, яр­кость может называться brightness, threshold, изображаться сим-иолом "солнце" или черно-белым кружком).

3. Открытие файлов с изображениями предусматривает вы­полнение следующих функций:

В диалоговом окне Открыть (Open) выберите одно или не­сколько изображений. Выбранные изображения появятся в окне 11акет, и последнее из выбранных изображений откроется в ок­нах Изображение и Крупный план на экране FineReader, при •том копия изображения окажется в папке пакета.

Рекомендация. Для того чтобы открытые изображения были сразу распознаны, необходимо воспользоваться режимом Открыть и рас­познать:

4. Особенности открытия PDF-файлов. Создатель PDF-фай­ла может ограничить доступ к своему файлу, например, защи­тить его паролем, установить запрет на извлечение из него тек­ста и графики. При открытии подобных файлов ABBYY FineReader будет запрашивать пароль, чтобы обеспечить защиту авторских прав.

5. Проверка и корректировка полученного изображения. Эти действия программы предусматривают выполнение следующих функций:

Очистить от мусора (меню Изображение, команда Очистить изображение от мусора). Этой опцией следует воспользоваться, чтобы уменьшить количество лишних точек ("мусора"), которые возникли в результате сканирования документов среднего или плохого качества. Для очистки от "мусора" блока в меню Изоб­ражение следует выбрать пункт Очистить блок от мусора. Если исходный текст был очень светлым, то применение указанной функции может привести к исчезновению точек, запятых или тонких элементов букв, что ухудшает качество распознавания. Перед добавлением в пакет "замусоренных" изображений в группе Обработка изображений на вкладке Сканирование/Открытие (меню Сервис / Опции) необходимо использовать команду Очи­стить изображение от мусора.

Инвертировать изображение. Некоторые сканеры инверти­руют изображения при сканировании (черный цвет переводят в белый, а белый — в черный). Для получения стандартного представления документа в меню Изображение следует выбрать команду Инвертировать.

Получить информацию об изображении. Эту операцию отно­сительно ширины и высоты изображения (в точках); вертикаль­ного и горизонтального разрешения в точках на дюйм (dpi); типа изображения можно осуществить, щелкнув правой кнопкой по изображению или выбрав в локальном меню пункт Свойства. В открывшемся диалоге выбрать вкладку Изображение.

Печать изображения. Предусмотрены печать одного изобра­жения, открытого в окне Изображение, нескольких изображе­ний, выделенных в окне Пакет, или всех изображений с помо­щью меню Файл, команда Печать изображения. В открывшемся диалоге Печать необходимо установить параметры печати (прин­тер, количество печатаемых страниц, количество копий и т.д.).

Отменить последнее действие. Необходимо на панели Стан­дартная щелкнуть по кнопке (Отменить). Для повторного вы­полнения последнего отмененного действия на той же панели щелкнуть по кнопке (Вернуть).

6. Опции хранения изображений в пакете. Необходимо цвет­ное/серое изображение привести к черно-белому (меню Сер­вис/Опции, вкладка Сканирование/Открытие).

Данную опцию следует применять при сканировании с по­мощью TWAIN-диалога сканера в сером режиме (с автоподбо­ром яркости) или при сканировании в цвете, если сканируемые документы при этом не содержат цветных картинок, цветного шрифта и фона, или нет необходимости в передаче цвета. Со­храняемые изображения займут меньше места на диске.

Литература:

  1. Государственная система документационного обеспечения управления: Общие требования к документам и службам докумен­тационного обеспечения. — М.: Главархив СССР, 1991.

  2. Козлов М. Автоматизация делопроизводства как новая про­граммная индустрия // Компьютер-Пресс. - № 4. — С. 28-32.

  3. Пестрецов А.А. Сравнительный анализ программных систем делопроизводства и документооборота для автоматизации российс­ких органов государственной власти, предприятий и учреждений: Учеб.-метод. пособие. - М.: СИФ ОЦНТИ ВНИИ документоведе-ния и архивного дела Федеральной архивной службы России [№ДР 190-98], 1998.

  4. Попов И.И. Автоматизированные информационные системы (по областям применения): Учеб. пособие / Под общ. ред. К.И. Курбакова. - М.: Российская экономическая академия, 1998.

Приложение № 4