logo
Менеджмент (метод

Системы оптического распознавания символов

Разнообразие систем автоматизации делопроизводства и до­кументооборота на российском рынке является скорее следствием адаптации западных офисных систем к нуждам отечественных предприятий, прорывом в области программного обеспечения для автоматизации существующих предметных областей, неже­ли реализацией обоснованных и последовательных решений в сфере документационного обеспечения.

Таблица 1

Сводная таблица систем автоматизации документооборота и делопроизводства по различным классификационным признакам

Программная система

Задачи документационного обеспечения управления

Документирование

Организация работы с документами

Систематизация архива документов

организация ввода документов

совместная работа над документами

делопроиз­водство

документо­оборот

организация электронного архива

поиск документов

Специализированные системы автоматизации делопроизводства и документооборота

Дело 8.6

LanDocs

DIS: Class Золушка

+

+ + +

+ + +

+ + +

+++

+++

Системы автоматизации документооборота

Office Media ЭСКАДО

++

++

++

Системы управления потоком работ

Workflow

WorkRoute II

LinkWorks

StaffWare

-

++++

-

++++

-

-

Электронные архивы документов

Excalibur Docs Open Евфрат

-

-

-

++

+++

+++

Системы коллективной обработки документов

Group Wise

-

+

-

+

+

-

Именно поэтому САДД, реально применяемые в настоящее время в организациях (фир­мах, компаниях, государственных учреждениях), условно под­разделяют на пять следующих категорий [3].

1. Системы обработки изображений документов. Предназначены для ввода, обработки, хранения и поиска графических образов бумажных документов. Выполняемые функции:

2. Системы оптического распознавания символов (Optical Character Recognition, OCR-системы). Предназначены для перевода бумажных документов в электронную форму в виде текстовых файлов; подразделяются на обучаемые OCR-системы типа FineReader и на интеллектуальные типа Cunei Form. Основные функции:

3. Системы управления документами {Document Management System, DMS) типа Documentum. Предназначены для автоматизации хранения, поиска и управления электронными документами разных форматов. Выполняемые функции:

4. Системы автоматизации коллективной работы над документами типа Lotus Notes, Group Wise, Links Work, Group Ware, Дело. Предназначены для организаций, сотрудникам которых требует­ся постоянный обмен документами. Выполняемые функции:

5. Системы автоматизации деловых процедур, АДП{\¥огк Flow System), типа Staff Ware. Предназначены для создания сложных прикладных систем коллективной обработки документов в ходе выполнения конкретных бизнес-процессов. Существующая функ­циональность:

Естественно, что крупным фирмам и компаниям не обой­тись без систем автоматизации ДОУ трех последних категорий, однако наиболее распространенными и популярными система­ми в организациях любых форм собственности являются OCR-системы. Они могут распознавать тексты, набранные различ­ным шрифтом более чем на 100 языках, обеспечивая практически 100%-ю правильность распознавания для высококачественных исходных изображений. Распознаются и некачественные тек­сты, например, факс-сообщения, правда, с погрешностью до 20% и более. Для таких операций применяется технология, объеди­няющая возможности экспертных систем и нейронных сетей. Специализированные алгоритмы — так называемые эксперты — решают задачи идентификации символов (один алгоритм-экс­перт специализируется на различных начертаниях шрифтов, другой — учитывает особенности при распознавании неконтрастных изображений, третий — проверяет правильность иден­тифицированного слова по словарю и т.д.). Далее гипотезы об интерпретации рассматриваемой буквы поступают от каждого узкоспециализированного алгоритма-эксперта к "суперэкспер­ту", который тщательно анализирует их, последовательно пере­бирает каждый из вариантов и находит оптимальный.

Для выбора OCR-системы, учитывающей специфику деятель­ности пользователя, необходимо по крайней мере рассмотреть предложения российского рынка относительно современных OCR-решений.

«ABBYY FineReader 7.0 Corporate Edition» сочетает непревзой­денную в настоящее время точность распознавания и сохране­ния оформления документа с мощными сетевыми возможнос­тями. В новой версии предусмотрены все основные типы автоматической установки с сервера на рабочие станции, добав­лена поддержка сетевых многофункциональных устройств и удоб­ные инструменты администрирования. Благодаря усовершенство­ванию уникальной технологии распознавания ABBYY, седьмая версия FineReader стала на 25% точнее и максимально полно сохраняет исходное оформление документа. В систему включе­ны медицинский и юридический словари на английском и не­мецком языках, что позволило улучшить качество распознава­ния специализированных документов на этих языках на 30-40%. Точность распознавания PDF-файлов возросла на 45%. Создан­ные в FineReader PDF-файлы оптимизированы для публикации в Интернете: первые страницы многостраничного документа бу­дут доступны для чтения сразу же, в то время как остальные страницы продолжают "докачиваться" на компьютер. Интегра­ция ABBYY FineReader и Microsoft Office Word 2003 позволяет объединить возможности этих приложений; появился также новый формат сохранения— Microsoft PowerPoint (версий ХР и 2003). Интерфейс программы был обновлен и стал еще более логичным, дружественным. Добавлены новые кнопки, панель инструментов форматирования перенесена в окно "Текст". Про­фессиональные настройки стали более доступны; результаты распознавания теперь можно отправлять по электронной почте (в виде присоединенного файла) непосредственно из FineReader (www. abbyy.ru).

«FineReader 6.0» Пакет для оптического распознавания сим­волов от ABBYY Software Hause отличается дружественным интерфейсом и мощными возможностями оптического распозна­вания символов: предусматривает выбор любого из 177 перечис­ленных языков, при необходимости используется комбинация нескольких языков, например, русский—английский, украинс­кий—английский. Это весьма важная функция, ведь в текстах на компьютерную тематику обязательно присутствуют англоязыч­ные термины. Этот пакет обладает развитыми возможностями по предварительной обработке изображений благодаря наличию следующих функций: поворот на любой угол, автоматическая ориентация страницы, повышение качества распознавания пу­тем очистки изображения от "мусора".

Для документов со сложной структурой предоставляется спе­циальный инструментарий разметки. Например, можно отдель­но указать блок с рисунком, блок таблиц, причем таблицу мож­но точно поделить на столбцы и строки. По сравнению с предыдущей версией (FineReader 5.0) увеличилось число под­держиваемых входных и выходных форматов, в частности PDF-формата). К сожалению, не воспринимаются файлы, сжатые по алгоритму LZW для изображений TIFF-формата. Продукт пол­ностью совместим с последними операционными системами MS Windows ХР и Windows 2000.

«Readiris Pro 10 Features». Система оптического распознава­ния символов от бельгийских разработчиков потребляет срав­нительно мало вычислительных ресурсов и места на жестком диске и при этом позволяет распознавать более 93 языков. При первом запуске системы загружается мастер распознавания OCR-wizard, облегчающий пользователю знакомство с программой.

К достоинствам системы следует отнести распознавание тек­стов, содержащих слова нескольких языков, например, англий­ский и русский, украинский и русский. В отличие от обеих версий FineReader программа способна также обрабатывать изоб­ражения TIFF-формата, сжатых по методу LZW.

«OmniPage Pro 14 Office Upgrade Features». Выполнена на ос­нове нового интеллектуального ядра, разработанного на базе интеграции нейронных сетей и экспертной системы. Способна распознавать тексты на более чем 114 языках, причем каждый из них обеспечивается орфографическим словарем.

Продукт показал неплохие результаты при распознавании контрастных текстов на белом фоне, особенно на английском языке. Однако при распознавании низкокачественной копии факсимильного сообщения на русском и английском языках программа не смогла идентифицировать ни единого символа. Интересной особенностью OmniPage Pro 14 является редакти­рование документов по голосовой команде пользователя. К до­стоинствам программы также относится способность автомати­чески определять ориентацию строк исходного текста, наличие мастера распознавания, пакетной обработки и планировщика. Последний позволяет выполнять процесс сканирования и рас­познавания по запланированному графику без участия пользо­вателя.

Преимуществом программы OmniPage Pro 14 также является совершенствование OCR-технологии, достигшей 99% точности.

«CuneiForm 2000 Pro» компании Cognitive Technologies. В свое время была одним из главных конкурентов FineReader на рынке СНГ. Работа с продуктом показала, что несмотря на поддержку нескольких алгоритмов распознавания и неплохие функциональ­ные параметры, CuneiForm 2000 Pro все сильнее отстает от со­временных OCR-систем.

Среди достоинств CuneiForm 2000 Pro следует отметить экс­порт распознанного текста с сохранением исходного форматиро­вания объектов, а также удобный пользовательский интерфейс. Что касается недостатков, то программа не поддерживает файлы PDF- и TIFF-форматов, сжатые по методу LZW. В последнем случае система просто зависает. Кроме того, CuneiForm 2000 Pro не определяет автоматически ориентацию строк текста, что тре­бует вмешательства пользователя. Отсутствует возможность вы­бора нескольких языков при распознавании, исключение состав­ляет только языковая пара русский—английский.