Системы распознавания символов (OCR - Optical Character Recognition)

Читайте также:

Офисные системы

Функционирование любой экономической системы сопровождается движением документов между ее подразделениями, как по вертикали, так и по горизонтали. Поэтому делопроизводство является неотъемлемой частью деятельности любого предприятия или учреждения.

Для совершенствования делопроизводства используется разнообразное ПО, в том числе:

- СУБД,

- текстовые редакторы,

- системы оптического распознавания образов,

- системы распознавания голоса,

- электронные словари, системы перевода,

- электронные архивы, поисковые системы,

- средства комплексной автоматизации работы офиса

Автоматизация работы с документами невозможна без средств ввода их в компьютер. До недавнего времени текстовые документы вводились лишь при помощи клавиатуры, изображения сканировались и хранились в виде файла в графическом формате.
Альтернативными способами ввода документов в компьютер стали системы оптического распознавания и голосовые интерфейсы. Работы над созданием системы оптического распознавания символов велась очень давно, но удовлетворительные результаты были получены лишь в 1992 г., когда студенты МФТИ Давид Ян, Константин Анисимович, Павел Сенаторов изобрели технологию фонтанного преобразования. Основанные на этой технологии пакеты FineReader и CuneiForm являются лидерами в области бесклавиатурного ввода данных. FineReader позволяет создавать текстовые документы (посредством ввода со сканера) в 10 раз быстрее чем машинистка; имеет точность распознавания печатного текста (страницы книги или распечатки, сделанной на лазерном принтере), равную 99%; сохраняет оформление документа, запоминает расположение текста, распознает таблицы, формы; поддерживает 176 языков, в том числе языки программирования: С, С++, Java, Pascal. позволяет вводить многоцветные документы; позволяет сохранять документы в форматах HTML и PDF (Portable Data Format); табличные данные могут быть преобразованы в файлы формата электронных таблиц и экспортированы в соответствующее приложение ((Microsoft) EXCEL, ACCESS).

Голосовые интерфейсы

Задача создания технологии компьютерного распознавания речи также далеко не нова. Еще в 60-е гг. был опубликован прогноз, согласно которому уже через 3-5 лет ожидалось появление слушающего компьютера, однако и до настоящего времени не удается полностью отказаться от ввода данных с клавиатуры. Тем не менее определенные успехи на пути создания голосовых технологий все же имеются. В 1996 г. несколько российских и зарубежных фирм ("Агама", "Медиалингва", Intel) представили совместную разработку - голосовую мышь. Это система, имеющая то же назначение, что и обычная мышь, но позволяющая вводить команды голосом. Произнесенные команды распознаются программой JustVoice,в памяти которой содержится несколько сотен слов-команд для различных Windows-приложений. Последовательность действий, задаваемая каждой командой (клавиатурный макрос),определяется пользователем. JustVoice можно настроить так, чтобы произнесенные команды выводились в виде текста, т.е. превратить голосовую мышь в простейший диктофон. Качество распознавания команд составляет 98%.

В настоящее время среди известных разработчиков голосовых технологий:

Dragon Systems - в 1997г. ей разработана система "Dragon Naturally Speaking", распознающая слитную речь; выполненный фирмой White Computers русский вариант системы - "Горыныч" является первой программой, способной воспринимать до 10 тыс. русских слов.);

IBM - технология "ViaVoice" позволяет преобразовать слитную речь в документ (Microsoft) Word со скоростью 140 слов.мин.; точность распознавания составляет 95%.);

Kurzweil - пакет "KurzweilVoice" позволяет начитывать текст со скоростью 60 слов/мин., точность распознавания составляет 90%.)

Все вышеназванные пакеты относятся к так называемым горизонтальным системам, то есть они не имеют определенной профессиональной ориентации и допускают неограниченное увеличение словаря. Объемы их словарей колеблются от десятков до сотен тысяч слов (для сравнения: Большой англо-русский словарь под ред. Апресяна содержит 250 000 слов, однотомник под ред. Мюллера - 70 000, в обыденной жизни активно используется около 2000). Ясно, что чем больше объем словаря, тем ниже % распознавания, т.е. точность системы.

Системы, в которых высокое качество распознавания достигается за счет ограниченного словарного запаса, называются вертикальными. Впервые такие пакеты появились в США, они предназначались для облегчения работы младшего медицинского персонала при составлении протоколов врачебных осмотров. В настоящее время голосовые интерфейсы эффективно применяются в системах, предназначенных для создания документов с узкопрофессиональным содержанием (например, в рентгенологии где произносимый текст процентов на 80 состоит из стандартных формулировок).

Создание же голосовой технологии, удовлетворительной по всем критериям:

- высокая точность восприятия

- высокая скорость речи

- неограниченный объем словаря

- независимость от диктора

- нечувствительность к условиям работы представляет собой задачу, для которой не найдено пока даже принципиального, теоретического решения - это, по-существу, проблема, граничащая с проблемой создания искусственного интеллекта.

Фирма SYMANTEC разработала продукты TalkWalks и WinFax, предназначенные для управления голосовой почтой и работы с факсимильными сообщениями.

· Продукт рассчитан на использование в офисах небольших фирм и на домашних ПК.

· Отслеживает входящие и исходящие звонки и факсы.

Обеспечивает переадресацию звонков, автодозвон.

Компания SpeechWorks, известная своими разработками в области распознавания речи, представила новую технологию, которая позволяет идентифицировать по голосу человека.
Технология получила название SpeechSecure, и позволяет установить личность пользователя по произнесенной им фразе. Технология может быть полезна для интернет-платежей, систем электронной коммерции, систем охраны и так далее – везде, где надо точно идентифицировать пользователя. Точность распознавания системы пока еще не является абсолютной и является слабым звеном технологии. Но со временем компания намерена довести ее до высокого значения, поскольку рынок подобных приложений оценивается весьма высоко.

Звуковые технологии используются также в некоторых мультимедийных обучающих программах, главным образом, в системах обучения иностранным языкам. В пакетах "Learn to speak English", "Think and Talk" на экране появляется шкала со стрелкой, которая в зависимости от чистоты произношения обучаемого колеблется между позициями "Tourist" и "Native".

<== предыдущая страница	\|	следующая страница ==>
Информационно-справочные правовые системы	\|	Сетевые офисные пакеты на основе Java-технологии

Дата добавления: 2014-03-04; просмотров: 362; Нарушение авторских прав

Мы поможем в написании ваших работ!

lektsiopedia.org - Лекциопедия - 2013 год. | Страница сгенерирована за: 0.033 сек.