Пятница, 26.04.2024, 11:05
Приветствую Вас Гость | RSS




Сайт преподавателя математики и информатики Иванской Светланы Алексеевны

Категории раздела
Наш опрос
Оцените наш сайт
Всего ответов: 563
Статистика

Онлайн всего: 2
Гостей: 2
Пользователей: 0

Технологии перевода бумажных документов в электронные

В оглавление Основы информационных технологий в профессиональной деятельности

< Раздел 5 || Раздел 6 Современный офис: 1 ||2 ||3 ||4 ||5 ||6 ||7 ||8 ||9 ||10 ||11 ||12 ||13 ||14 ||15 ||16 ||17 ||18 ||19 ||20 ||21 ||22 ||23 ||24 ||25 ||26 ||27 ||28 ||29 ||30 ||31 ||32 ||33 ||34 ||35 ||36 ||37 ||38 ||39 ||40 ||41 ||42 ||43 ||44 ||45 ||46 ||47 ||48 ||49 ||50 ||51 ||52 ||53 ||54 ||55

Технологии перевода бумажных документов в электронные

В отличие от бумажных документов, электронные могут обрабатываться более эффективно (тиражироваться, рассылаться, храниться и т.п.). В настоящее время активно развиваются технологии перевода бумажных документов в электронную форму с целью реализации электронного документооборота. Остановимся подробнее на применяемых технологиях и используемой терминологии.

На первом этапе перевода документа в электронную форму производится его сканирование и создается электронная копия документа в виде изображения. Изображение, полученное в результате сканирования, также называют образом документа. Сканирование является начальным этапом любой системы автоматизированного ввода документов.

В процессе сканирования может выполняться программная обработка изображения, а также производится визуальный контроль качества (рис. 3.6).


Рис. 3.6. Схема перевода бумажного документа в электронный вид

Если речь идет о промышленном вводе документов, то сканеры обычно предоставляют ряд дополнительных функций, например возможность подачи разноформатных документов.

Обычно процесс сканирования - это промежуточная стадия получения электронного документа. Очевидно, что с электронным изображением документа гораздо удобнее работать, чем с бумажным (его можно копировать, отправлять по сети и т.д.).

Однако в большинстве случаев само по себе изображение (образ документа) дает мало преимуществ. Для того чтобы можно было редактировать документ, осуществлять поиск по нему или использовать его фрагменты при подготовке новых документов и т.д., необходимо перевести полученный образ в текстовый документ, понятный офисным программам. Поэтому следующая задача заключается в распознавании отсканированных документов.

Для этого необходим специальный инструмент, способный перевести изображение в текстовый редактируемый электронный документ. Такие инструменты существуют, их общее название - программы оптического распознавания символов (optical character recognition, OCR). C помощью OCR-программы компьютер сможет "прочесть" на отсканированной странице текст, отделив его от иллюстраций и прочих элементов оформления, найти таблицы и "разобраться" в их содержимом. А затем скомпоновать все это заново, воссоздав внешний вид страницы.

С точки зрения перевода документов в электронный вид (ввода документов в компьютер) их условно делят на формализованные, неформализованные и специальные (рис. 3.7).


Рис. 3.7. Классификация документов с точки зрения специфики перевода в электронный вид

Формализованные документы - это документы, в которых заранее определена форма: расположение обязательных полей, в которые заносятся данные. Например, бланки, накладные, анкеты, картотеки и т.д. Неформализованные документы - это документы произвольной формы: договоры, письма и т.д. К специализированным относятся такие документы как, например, карты и отпечатки пальцев.

Перевод каждого из перечисленных видов документов имеет свою специфику. Если вводятся фотографии, то достаточно электронного изображения, если документ содержит текст, его необходимо распознать, если это форматированный текст с рисунками, то нужно не только распознать текст, но и восстановить формат документа, а если это анкета, то, скорее всего, сам документ вообще не нужен, важна только содержащаяся в нем информация. Например, при обработке листов для голосования обычно не требуется изображения самого документа, достаточно информации о том, за кого отдан голос.

Ввод формализованных документов

Чтобы пояснить, какие задачи возникают при вводе формализованных документов, рассмотрим конкретный пример.

Предположим, в офисе отеля проводится анкетирование проживающих для оценки уровня обслуживания на разных этажах. Каждому жителю отеля в его номере оставляется анкета, которую он должен заполнить (рис. 3.8).


Рис. 3.8. Пример заполненной анкеты

Если за месяц накапливается несколько тысяч таких анкет, то их обработка представляет собой непростую задачу. Очевидно, что получение образов (электронных изображений) этих анкет хоть и облегчает задачу их хранения, однако не позволяет использовать компьютер для обработки информации.

Чаще всего задача ввода форм (в данном случае анкеты) состоит в превращении образа документа в строчку базы данных, содержащую соответствующую информацию. Когда все анкеты будут введены в базу данных, можно будет их обработать и, например, выяснить, на каком этаже обслуживание ведется лучше.

При заполнении анкеты требуется ответить на вопросы и внести информацию в определенные служебные поля, а задача программы при вводе форм - определять эти специальные поля, распознавать информацию в них и ввести ее в базу данных. При этом особенностью ввода форм в компьютер является необходимость распознавания текстов, заполненных от руки.

Обычно в том случае, если форма должна распознаваться компьютером, заполняющего просят ввести текст раздельными буквами, и такой текст называют рукопечатным. Технологии распознавания рукопечатных символов обозначаются термином ICR (Intelligent Character Recognition). Распознавание рукопечатных символов представляет собой более сложную задачу по сравнению с распознаванием печатных, поскольку требуется распознать символ, вписанный в форму от руки с учетом возможных его отклонений, обусловленных индивидуальными особенностями почерка.


Рис. 3.9. Схема перевода бумажной формы в запись базы данных

Задачи распознавания при вводе форм не обязательно связаны с распознаванием текста. При вводе форм может потребоваться распознавание различных меток и знаков, для которого тоже существует свой термин: OMR (Optical Mark Recognition). Например, в бюллетенях для голосования голосующего просят поставить крестик (или другой знак) напротив фамилии кандидата, и задача компьютера - распознать, есть в определенном поле какой-нибудь знак или нет.

< Раздел 5 || Раздел 6 Современный офис: 1 ||2 ||3 ||4 ||5 ||6 ||7 ||8 ||9 ||10 ||11 ||12 ||13 ||14 ||15 ||16 ||17 ||18 ||19 ||20 ||21 ||22 ||23 ||24 ||25 ||26 ||27 ||28 ||29 ||30 ||31 ||32 ||33 ||34 ||35 ||36 ||37 ||38 ||39 ||40 ||41 ||42 ||43 ||44 ||45 ||46 ||47 ||48 ||49 ||50 ||51 ||52 ||53 ||54 ||55
Вход на сайт
Поиск
Календарь
«  Апрель 2024  »
ПнВтСрЧтПтСбВс
1234567
891011121314
15161718192021
22232425262728
2930
Архив записей
Сайт преподавателя математики и информатики Иванской Светланы Алексеевны
Ставропольский край, г. Минеральные Воды

Copyright MyCorp © 2024
Хостинг от uCoz