Тема 11. Автоматизация процессов ввода потоков...

13
Тема 11. Автоматизация процессов ввода потоков входящих документов

Upload: keiko-orr

Post on 01-Jan-2016

103 views

Category:

Documents


4 download

DESCRIPTION

Тема 11. Автоматизация процессов ввода потоков входящих документов. Система массового ввода документов (СМВ). будет способна работать как с одним, так и с несколькими тысячами бумажных документов в день. Задачи технологии массового ввода документов. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Тема 11. Автоматизация процессов ввода потоков входящих документов

Тема 11. Автоматизация процессов ввода потоков входящих документов

Page 2: Тема 11. Автоматизация процессов ввода потоков входящих документов

Система массового ввода документов (СМВ)

будет способна работать как с одним, так и с несколькими тысячами бумажных документов в день.

Page 3: Тема 11. Автоматизация процессов ввода потоков входящих документов

Задачи технологии массового ввода документов

извлечение данных из бумажных документов, когда пользователей интересуют только извлеченные структурированные данные, а собственно сами изображения документов их не интересуют, т.к. не используются для последующего хранения и доступа;извлечение данных из бумажных документов с сохранением изображения документа (например, «Платежное поручение» клиента), когда имеет смысл после извлечения данных сохранить изображение документа для того случая, при котором потребуется анализ исходного документа.

Page 4: Тема 11. Автоматизация процессов ввода потоков входящих документов

Этапы автоматизированного ввода и чтения документов

I – подготовительный - обеспечивает получение достоверных отсканированных изображений, сохраняемых в системе;II - основной.

Page 5: Тема 11. Автоматизация процессов ввода потоков входящих документов

Операции подготовительного этапа:

подготовка документов для сканирования;

выполнение описания настроек системы на конкретную форму документа.

Page 6: Тема 11. Автоматизация процессов ввода потоков входящих документов

Подготовка документов для сканирования

определение состава документов, подлежащих сканированию;выбор конкретных областей в каждом документе для сканирования;определение технологической цепочки движения документа по рабочим местам;открытие конвертов, удаление скрепок или других предметов, мешающих сканированию;подготовка пакетов документов для сканирования;выписка ярлыков на каждый пакет документов с указанием кода документа и количества документов каждого типа в пакете.

Page 7: Тема 11. Автоматизация процессов ввода потоков входящих документов

Выполнение описания настроек системы на конкретную форму документа

составление настройки на форму документа,разработка настройки на модель ввода,составление настройки соответствия полей формы документа и полей индексации для ввода в информационную базу или архив.

Page 8: Тема 11. Автоматизация процессов ввода потоков входящих документов

Операции основного этапа:

сканирование;контроль качества отсканированных изображений и повторное сканирование;предварительная обработка текста;основная обработка текста документа;контроль качества распознавания и редактирование;индексирование документа и загрузка.

Page 9: Тема 11. Автоматизация процессов ввода потоков входящих документов

Обработка данных, содержащихся в документе

предварительная обработка изображений,

основная обработка изображений документа.

Page 10: Тема 11. Автоматизация процессов ввода потоков входящих документов

Предварительная обработка изображения документов

Улучшение читаемости изображения. Обработанные изображения более понятны при визуальном просмотре.Повышение точности распознавания. Применение специальных методов улучшения изображения может значительно повысить точность оптического распознавания символов.Уменьшение размера изображения.

Page 11: Тема 11. Автоматизация процессов ввода потоков входящих документов

Системы распознавания документов

• OCR (Optical Character Recognition) - технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление;• ICR (Intelligent Character Recognition) - распознавание раздельных печатных символов, написанных от руки;• OMR (Optical Mark Recognition) - распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квадраты или круги);• Стилизованные цифры - распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах.

Page 12: Тема 11. Автоматизация процессов ввода потоков входящих документов

Требования к СМВ:

тип обрабатываемых документов и вид содержащихся в них данных;точность распознавания;наличие эффективной системы редактирования;настраиваемость системы на требования конкретного заказчика и способность изменяться согласно меняющимся внешним условиям без программирования;наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов;

Page 13: Тема 11. Автоматизация процессов ввода потоков входящих документов

Требования к СМВ:наличие редактора форм, настраивающего систему на новые формы или изменения старой формы, на которую система была предварительно ориентирована;наличие редактора схем обработки документов, открытого интерфейса подключения различных модулей распознавания (в зависимости от типа формы можно для повышения качества распознавания подключать тот или иной модуль, который наиболее подходит для данного типа формы);наличие редактора схем экспорта в базу данных (данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки).