Обучаемая ocr-система FineReader
Предварим подробное изучение системы несколькими замечаниями.
Требования к системе:
1. ПК с процессором семейств Intel® Pentium®/Celeron®/ Xeon™, AMD K6/Athlon™/Duron™ или совместимым с ними процессором, тактовая частота которого составляет не менее 200 МГц, или более мощным;
2. Операционная система Microsoft Windows XP, Windows 2000, Windows NT 4.0 (SP6 или выше), Windows Me/98 (для работы с локализованным интерфейсом операционная система должна обеспечивать необходимую языковую поддержку);
3. Требования к оперативной памяти зависят от используемой операционной системы: для Windows XP/2000/NT 4.0 — 64 Мбайт; Windows Me/98 - 32 Мбайт. При работе в многопроцессорных системах требуется дополнительно 16 Мбайт оперативной памяти для каждого дополнительного процессора;
4. Свободное место на диске: 150 Мбайт для обычной установки, 70 Мбайт для работы системы;
5. Полностью TWAIN-совместимый сканер, цифровая камера или факс-модем;
6. Видеоплата и монитор с разрешением не менее 800x600 точек;
7. Клавиатура, мышь или другое устройство ввода.
Настройка инструментальных панелей
FineReader позволяет настраивать инструментальные панели: Стандартная, Изображение, Форматирование; добавлять и удалять кнопки всех команд программы.
Каждому пункту меню соответствует свой значок. Полный список команд и соответствующих им кнопок приведен в диалоге Настройка (меню Сервис / Настройка) в списке Команды.
Получение и обработка изображения программой FineReader
1. Сканирование. Программа FineReader работает со сканерами посредством TWAIN-интерфейса. Это единый международный стандарт, введенный в 1992 г. для унификации взаимодействия устройств ввода изображений в компьютер с внешними приложениями. Известны два варианта взаимодействия программы со сканерами с помощью TWAIN-драйвера:
с использованием интерфейса FineReader. В этом случае для настройки опций сканирования применяется диалог программы Настройки сканера;
с использованием интерфейса TWAIN-драйвера сканера: для настройки опций сканирования применяется диалог TWAIN-драйвера сканера.
Охарактеризуем каждый вариант.
В режиме Использовать интерфейс TWAIN-драйвера сканера, как правило, доступна функция предварительного просмотра изображения (preview), позволяющая точно задавать размеры сканируемой области, подбирать яркость, контролируя результаты изменений. К сожалению, диалог TWAIN-драйвера сканера у каждого сканера выглядит по-своему, в большинстве случаев все надписи на английском языке. Вид этого окна и смысл опций описаны в документации, прилагаемой к сканеру. В режиме Использовать интерфейс FineReader выполняются следующие функции: сканирование в цикле на сканерах без автопо-датчика, сохранение опций сканирования в отдельный файл Шаблон пакета (*.fbt), применение этих опций в других пакетах. Переключение режимов проводится на вкладке Сканирование/Открытие диалога Опции (меню Сервис/Опции) установкой переключателя в одно из положений: Использовать интерфейс TWAIN-драйвера сканера или Использовать интерфейс FineReader.
2. Установка параметров сканирования. Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании, и, кроме того, регулируется установкой основных параметров сканирования:
тип изображения — серый (256 градаций). Сканирование в сером является оптимальным режимом для системы распознавания, в этом случае осуществляется автоматический подбор яркости. Черно-белый тип изображения обеспечивает более высокую скорость сканирования, но при этом теряется часть информации о буквах, что может привести к ухудшению качества распознавания на документах среднего и низкого качества печати. Для того чтобы содержащиеся в документе цветные элементы (картинки, буквы и фон) передавались в электронный документ с сохранением цвета, необходимо выбирать цветной тип изображения;
разрешение — 300 dpi для обычных текстов (размер шрифта 10 пунктов и более) и 400-600 dpi для текстов, набранных мелким шрифтом (9 пунктов и менее);
яркость — в большинстве случаев выбирают среднее значение яркости — 50%. На некоторых документах при сканировании в черно-белом режиме проводят дополнительную настройку яркости.
Следует заметить, что сканирование с разрешением 400— М)() dpi вместо 300 dpi или сканирование в сером тоне или в и мете (не в черно-белом) может занять существенно больше иремени.
При сканировании с помощью TWAIN с использованием интерфейса FineReader: в меню Сервис выберите пункт Настройки сканера и в открывшемся диалоговом окне Настройки сканера установите нужные опции.
При сканировании с помощью TWAIN с применением интерфейса TWAIN-драйвера сканера для установки параметров сканирования используется диалоговое окно сканера, которое открывается автоматически щелчком по кнопке (Сканировать). < )иции для установки параметров сканирования могут называться по-разному, в зависимости от модели сканера (например, яркость может называться brightness, threshold, изображаться сим-иолом "солнце" или черно-белым кружком).
3. Открытие файлов с изображениями предусматривает выполнение следующих функций:
нажать стрелку справа от кнопки (Сканировать) и в локальном меню выбрать пункт Открыть изображение. Внешний пил значка изменится; подпись Сканировать поменяется на подпись Открыть;
в меню Файл выбрать пункт Открыть изображение;
в Windows Explorer: щелкнуть правой кнопкой мыши по файлу с изображением и в локальном меню выбрать команду Открыть с помощью FineReader. Если FineReader уже открыт, июбражение будет добавлено в текущий пакет, в противном случае перед добавлением изображения автоматически запустится FineReader с тем пакетом, с которым велась работа в посмеяний раз;
в Microsoft Outlook и/или Windows Explorer: щелкнуть по левой кнопке мыши на файле с изображением, которое следует открыть, и, не отпуская кнопки, перетащить его на свернутое окно программы FineReader. Изображение будет добавлено в текущий пакет и открыто в окне Изображение.
В диалоговом окне Открыть (Open) выберите одно или несколько изображений. Выбранные изображения появятся в окне 11акет, и последнее из выбранных изображений откроется в окнах Изображение и Крупный план на экране FineReader, при •том копия изображения окажется в папке пакета.
Рекомендация. Для того чтобы открытые изображения были сразу распознаны, необходимо воспользоваться режимом Открыть и распознать:
в меню Процесс выбрать пункт Открыть и распознать (горячие клавиши [Ctrl+Shift+D]);
в открывшемся диалоговом окне Открыть (Open) выбрать изображения для распознавания.
4. Особенности открытия PDF-файлов. Создатель PDF-файла может ограничить доступ к своему файлу, например, защитить его паролем, установить запрет на извлечение из него текста и графики. При открытии подобных файлов ABBYY FineReader будет запрашивать пароль, чтобы обеспечить защиту авторских прав.
5. Проверка и корректировка полученного изображения. Эти действия программы предусматривают выполнение следующих функций:
очистить от мусора;
инвертировать изображение;
повернуть или зеркально отразить изображение;
стереть участок изображения;
увеличить/уменьшить масштаб изображения;
получить информацию об изображении;
печать изображения;
отменить последнее действие.
Очистить от мусора (меню Изображение, команда Очистить изображение от мусора). Этой опцией следует воспользоваться, чтобы уменьшить количество лишних точек ("мусора"), которые возникли в результате сканирования документов среднего или плохого качества. Для очистки от "мусора" блока в меню Изображение следует выбрать пункт Очистить блок от мусора. Если исходный текст был очень светлым, то применение указанной функции может привести к исчезновению точек, запятых или тонких элементов букв, что ухудшает качество распознавания. Перед добавлением в пакет "замусоренных" изображений в группе Обработка изображений на вкладке Сканирование/Открытие (меню Сервис / Опции) необходимо использовать команду Очистить изображение от мусора.
Инвертировать изображение. Некоторые сканеры инвертируют изображения при сканировании (черный цвет переводят в белый, а белый — в черный). Для получения стандартного представления документа в меню Изображение следует выбрать команду Инвертировать.
Получить информацию об изображении. Эту операцию относительно ширины и высоты изображения (в точках); вертикального и горизонтального разрешения в точках на дюйм (dpi); типа изображения можно осуществить, щелкнув правой кнопкой по изображению или выбрав в локальном меню пункт Свойства. В открывшемся диалоге выбрать вкладку Изображение.
Печать изображения. Предусмотрены печать одного изображения, открытого в окне Изображение, нескольких изображений, выделенных в окне Пакет, или всех изображений с помощью меню Файл, команда Печать изображения. В открывшемся диалоге Печать необходимо установить параметры печати (принтер, количество печатаемых страниц, количество копий и т.д.).
Отменить последнее действие. Необходимо на панели Стандартная щелкнуть по кнопке (Отменить). Для повторного выполнения последнего отмененного действия на той же панели щелкнуть по кнопке (Вернуть).
6. Опции хранения изображений в пакете. Необходимо цветное/серое изображение привести к черно-белому (меню Сервис/Опции, вкладка Сканирование/Открытие).
Данную опцию следует применять при сканировании с помощью TWAIN-диалога сканера в сером режиме (с автоподбором яркости) или при сканировании в цвете, если сканируемые документы при этом не содержат цветных картинок, цветного шрифта и фона, или нет необходимости в передаче цвета. Сохраняемые изображения займут меньше места на диске.
Литература:
Государственная система документационного обеспечения управления: Общие требования к документам и службам документационного обеспечения. — М.: Главархив СССР, 1991.
Козлов М. Автоматизация делопроизводства как новая программная индустрия // Компьютер-Пресс. - № 4. — С. 28-32.
Пестрецов А.А. Сравнительный анализ программных систем делопроизводства и документооборота для автоматизации российских органов государственной власти, предприятий и учреждений: Учеб.-метод. пособие. - М.: СИФ ОЦНТИ ВНИИ документоведе-ния и архивного дела Федеральной архивной службы России [№ДР 190-98], 1998.
Попов И.И. Автоматизированные информационные системы (по областям применения): Учеб. пособие / Под общ. ред. К.И. Курбакова. - М.: Российская экономическая академия, 1998.
Приложение № 4
- Iвведение.
- Iiцели и задачи дисциплины.
- Iiiсодержание дисциплины. Темы лекций (64 часа).
- Вопросы для подготовки к семинарским занятиям (32 часа).
- Ivинформационно-методическое обеспечение дисциплины.
- Словарь основных терминов.
- Информационные технологии делопроизводства и документоведения. Основные понятия и определения делопроизводства
- Виды документов и их классификация
- Реквизиты деловых документов
- Требования к оформлению реквизитов
- Требования к составлению документов в электронном виде.
- Оформление деловых писем
- Делопроизводство по личному составу: оформление резюме, справок, визитных карточек
- Организационно-распорядительная и управленческая документация. Технология создания приказов, распоряжений, протоколов и актов
- Системы автоматизации делопроизводства и документооборота. Задачи и цели автоматизации процессов делопроизводства и документооборота
- Российский рынок систем автоматизации документооборота и делопроизводства
- Системы оптического распознавания символов
- Обучаемая ocr-система FineReader
- Методы принятия управленческих решений.
- Принятие решений в условиях риска и неопределенности.
- Семь правил расчетливого риска
- Данные для выбора решения при различных вариантах спроса
- Данные потерь для решения при вариантах обстановки а, б, в.
- Данные для решения по правилу баланса пессимизма – оптимизма
- Данные для решения со страхующими элементами
- Управление рисками
- Задание на ознакомительную практику по специализации «менеджмент в социальной сфере».
- Задание на летнюю практику.
- Темы куровых работ по специализации «менеджмент в социальной сфере».
- Диаграммы.