Системы оптического распознавания символов
Разнообразие систем автоматизации делопроизводства и документооборота на российском рынке является скорее следствием адаптации западных офисных систем к нуждам отечественных предприятий, прорывом в области программного обеспечения для автоматизации существующих предметных областей, нежели реализацией обоснованных и последовательных решений в сфере документационного обеспечения.
Таблица 1
Сводная таблица систем автоматизации документооборота и делопроизводства по различным классификационным признакам
Программная система | Задачи документационного обеспечения управления | |||||
Документирование | Организация работы с документами | Систематизация архива документов | ||||
организация ввода документов | совместная работа над документами | делопроизводство | документооборот | организация электронного архива | поиск документов | |
Специализированные системы автоматизации делопроизводства и документооборота | ||||||
Дело 8.6 LanDocs DIS: Class Золушка | + | + + + | + + + | + + + | +++ | +++ |
Системы автоматизации документооборота | ||||||
Office Media ЭСКАДО | — | ++ | ++ | ++ | — | — |
Системы управления потоком работ | ||||||
Workflow WorkRoute II LinkWorks StaffWare | - | ++++ | - | ++++ | - | - |
Электронные архивы документов | ||||||
Excalibur Docs Open Евфрат | - | - | - | ++ | +++ | +++ |
Системы коллективной обработки документов | ||||||
Group Wise | - | + | - | + | + | - |
Именно поэтому САДД, реально применяемые в настоящее время в организациях (фирмах, компаниях, государственных учреждениях), условно подразделяют на пять следующих категорий [3].
1. Системы обработки изображений документов. Предназначены для ввода, обработки, хранения и поиска графических образов бумажных документов. Выполняемые функции:
сканирование документов;
запись на сервер;
классификация документов;
передача изображений на рабочую станцию;
поиск изображений по отдельным элементам;
рассылка и печать.
2. Системы оптического распознавания символов (Optical Character Recognition, OCR-системы). Предназначены для перевода бумажных документов в электронную форму в виде текстовых файлов; подразделяются на обучаемые OCR-системы типа FineReader и на интеллектуальные типа Cunei Form. Основные функции:
сканирование;
распознавание текста;
форматирование в текстовый файл.
3. Системы управления документами {Document Management System, DMS) типа Documentum. Предназначены для автоматизации хранения, поиска и управления электронными документами разных форматов. Выполняемые функции:
индексирование документов;
полнотекстовый поиск по ключевым словам;
ассемблирование документов;
организация доступа к документу независимо от места его хранения;
защита данных;
выдача и возврат документа;
контроль версии документа;
рассылка документа.
4. Системы автоматизации коллективной работы над документами типа Lotus Notes, Group Wise, Links Work, Group Ware, Дело. Предназначены для организаций, сотрудникам которых требуется постоянный обмен документами. Выполняемые функции:
электронная почта;
поддержка видеоконференций;
управление изображениями;
совместное использование документов;
маршрутизация;
календарное планирование.
5. Системы автоматизации деловых процедур, АДП{\¥огк Flow System), типа Staff Ware. Предназначены для создания сложных прикладных систем коллективной обработки документов в ходе выполнения конкретных бизнес-процессов. Существующая функциональность:
описание бизнес-процессов организации и задание регламента их взаимодействия с реальными потоками документов (графический конструктор процедур);
организация'хранения документов и возможность их просмотра;
организация атрибутивного и полнотекстового поиска документов;
ведение архива с учетом трудозатрат на подготовку документов;
установка прав на работу с документами;
контроль за исполнением документа;
поддержка коллективной работы с документом.
Естественно, что крупным фирмам и компаниям не обойтись без систем автоматизации ДОУ трех последних категорий, однако наиболее распространенными и популярными системами в организациях любых форм собственности являются OCR-системы. Они могут распознавать тексты, набранные различным шрифтом более чем на 100 языках, обеспечивая практически 100%-ю правильность распознавания для высококачественных исходных изображений. Распознаются и некачественные тексты, например, факс-сообщения, правда, с погрешностью до 20% и более. Для таких операций применяется технология, объединяющая возможности экспертных систем и нейронных сетей. Специализированные алгоритмы — так называемые эксперты — решают задачи идентификации символов (один алгоритм-эксперт специализируется на различных начертаниях шрифтов, другой — учитывает особенности при распознавании неконтрастных изображений, третий — проверяет правильность идентифицированного слова по словарю и т.д.). Далее гипотезы об интерпретации рассматриваемой буквы поступают от каждого узкоспециализированного алгоритма-эксперта к "суперэксперту", который тщательно анализирует их, последовательно перебирает каждый из вариантов и находит оптимальный.
Для выбора OCR-системы, учитывающей специфику деятельности пользователя, необходимо по крайней мере рассмотреть предложения российского рынка относительно современных OCR-решений.
«ABBYY FineReader 7.0 Corporate Edition» сочетает непревзойденную в настоящее время точность распознавания и сохранения оформления документа с мощными сетевыми возможностями. В новой версии предусмотрены все основные типы автоматической установки с сервера на рабочие станции, добавлена поддержка сетевых многофункциональных устройств и удобные инструменты администрирования. Благодаря усовершенствованию уникальной технологии распознавания ABBYY, седьмая версия FineReader стала на 25% точнее и максимально полно сохраняет исходное оформление документа. В систему включены медицинский и юридический словари на английском и немецком языках, что позволило улучшить качество распознавания специализированных документов на этих языках на 30-40%. Точность распознавания PDF-файлов возросла на 45%. Созданные в FineReader PDF-файлы оптимизированы для публикации в Интернете: первые страницы многостраничного документа будут доступны для чтения сразу же, в то время как остальные страницы продолжают "докачиваться" на компьютер. Интеграция ABBYY FineReader и Microsoft Office Word 2003 позволяет объединить возможности этих приложений; появился также новый формат сохранения— Microsoft PowerPoint (версий ХР и 2003). Интерфейс программы был обновлен и стал еще более логичным, дружественным. Добавлены новые кнопки, панель инструментов форматирования перенесена в окно "Текст". Профессиональные настройки стали более доступны; результаты распознавания теперь можно отправлять по электронной почте (в виде присоединенного файла) непосредственно из FineReader (www. abbyy.ru).
«FineReader 6.0» Пакет для оптического распознавания символов от ABBYY Software Hause отличается дружественным интерфейсом и мощными возможностями оптического распознавания символов: предусматривает выбор любого из 177 перечисленных языков, при необходимости используется комбинация нескольких языков, например, русский—английский, украинский—английский. Это весьма важная функция, ведь в текстах на компьютерную тематику обязательно присутствуют англоязычные термины. Этот пакет обладает развитыми возможностями по предварительной обработке изображений благодаря наличию следующих функций: поворот на любой угол, автоматическая ориентация страницы, повышение качества распознавания путем очистки изображения от "мусора".
Для документов со сложной структурой предоставляется специальный инструментарий разметки. Например, можно отдельно указать блок с рисунком, блок таблиц, причем таблицу можно точно поделить на столбцы и строки. По сравнению с предыдущей версией (FineReader 5.0) увеличилось число поддерживаемых входных и выходных форматов, в частности PDF-формата). К сожалению, не воспринимаются файлы, сжатые по алгоритму LZW для изображений TIFF-формата. Продукт полностью совместим с последними операционными системами MS Windows ХР и Windows 2000.
«Readiris Pro 10 Features». Система оптического распознавания символов от бельгийских разработчиков потребляет сравнительно мало вычислительных ресурсов и места на жестком диске и при этом позволяет распознавать более 93 языков. При первом запуске системы загружается мастер распознавания OCR-wizard, облегчающий пользователю знакомство с программой.
К достоинствам системы следует отнести распознавание текстов, содержащих слова нескольких языков, например, английский и русский, украинский и русский. В отличие от обеих версий FineReader программа способна также обрабатывать изображения TIFF-формата, сжатых по методу LZW.
«OmniPage Pro 14 Office Upgrade Features». Выполнена на основе нового интеллектуального ядра, разработанного на базе интеграции нейронных сетей и экспертной системы. Способна распознавать тексты на более чем 114 языках, причем каждый из них обеспечивается орфографическим словарем.
Продукт показал неплохие результаты при распознавании контрастных текстов на белом фоне, особенно на английском языке. Однако при распознавании низкокачественной копии факсимильного сообщения на русском и английском языках программа не смогла идентифицировать ни единого символа. Интересной особенностью OmniPage Pro 14 является редактирование документов по голосовой команде пользователя. К достоинствам программы также относится способность автоматически определять ориентацию строк исходного текста, наличие мастера распознавания, пакетной обработки и планировщика. Последний позволяет выполнять процесс сканирования и распознавания по запланированному графику без участия пользователя.
Преимуществом программы OmniPage Pro 14 также является совершенствование OCR-технологии, достигшей 99% точности.
«CuneiForm 2000 Pro» компании Cognitive Technologies. В свое время была одним из главных конкурентов FineReader на рынке СНГ. Работа с продуктом показала, что несмотря на поддержку нескольких алгоритмов распознавания и неплохие функциональные параметры, CuneiForm 2000 Pro все сильнее отстает от современных OCR-систем.
Среди достоинств CuneiForm 2000 Pro следует отметить экспорт распознанного текста с сохранением исходного форматирования объектов, а также удобный пользовательский интерфейс. Что касается недостатков, то программа не поддерживает файлы PDF- и TIFF-форматов, сжатые по методу LZW. В последнем случае система просто зависает. Кроме того, CuneiForm 2000 Pro не определяет автоматически ориентацию строк текста, что требует вмешательства пользователя. Отсутствует возможность выбора нескольких языков при распознавании, исключение составляет только языковая пара русский—английский.
- Iвведение.
- Iiцели и задачи дисциплины.
- Iiiсодержание дисциплины. Темы лекций (64 часа).
- Вопросы для подготовки к семинарским занятиям (32 часа).
- Ivинформационно-методическое обеспечение дисциплины.
- Словарь основных терминов.
- Информационные технологии делопроизводства и документоведения. Основные понятия и определения делопроизводства
- Виды документов и их классификация
- Реквизиты деловых документов
- Требования к оформлению реквизитов
- Требования к составлению документов в электронном виде.
- Оформление деловых писем
- Делопроизводство по личному составу: оформление резюме, справок, визитных карточек
- Организационно-распорядительная и управленческая документация. Технология создания приказов, распоряжений, протоколов и актов
- Системы автоматизации делопроизводства и документооборота. Задачи и цели автоматизации процессов делопроизводства и документооборота
- Российский рынок систем автоматизации документооборота и делопроизводства
- Системы оптического распознавания символов
- Обучаемая ocr-система FineReader
- Методы принятия управленческих решений.
- Принятие решений в условиях риска и неопределенности.
- Семь правил расчетливого риска
- Данные для выбора решения при различных вариантах спроса
- Данные потерь для решения при вариантах обстановки а, б, в.
- Данные для решения по правилу баланса пессимизма – оптимизма
- Данные для решения со страхующими элементами
- Управление рисками
- Задание на ознакомительную практику по специализации «менеджмент в социальной сфере».
- Задание на летнюю практику.
- Темы куровых работ по специализации «менеджмент в социальной сфере».
- Диаграммы.