Клавиатурный ввод текста

Download Report

Transcript Клавиатурный ввод текста

Ю.Н.Филиппович, А.Ю.Филиппович,
ИНТЕГРИРОВАННЫЕ
СИСТЕМЫ И ТЕХНОЛОГИИ
В МЕДИАИНДУСТРИИ
Слайд-лекции
для студентов специальности 230204
«Информационные технологии в медиаиндустрии»
Модуль 1. Интегрированные издательские технологии
Тема. Технологии ввода текста.
Москва, 2013 г.
План лекции
• Технологии ввода текста
 Клавиатурный и интеллектуальный ввод текста;
 Альтернативные системы ввода текста;
 Особенности ввода иероглифов;
 Технологии оптического распознавания
 Определения, принципы;
 OCR и ICR-системы;
 Стратегия использования, анализ эффективности.
Издательская технология
• ( технология от греч. téchne — искусство, мастерство,
умение и ...логия) совокупность приёмов и способов
получения, обработки или переработки сырья,
материалов, полуфабрикатов или изделий,
осуществляемых в издательской отрасли.
• Описание последовательности трудовых операций,
необходимых для создания печатной продукции и
электронных ресурсов.
Производство печатной продукции
Стадии процесса производства печатной продукции:
• допечатная подготовка;
• печатные процессы;
• послепечатная обработка.
Допечатная подготовка охватывает этапы работ, начиная от
идеи оформления, подготовки текстовой информации,
изобразительных оригиналов и графики и заканчивая
изготовлением готовых печатных форм, которые
используются для печати тиража.
Домедийная подготовка – premedio. Этим термином
обозначают цифровую подготовку текста и изображения,
пригодных для вывода на любой конечный носитель
информации.
• Технология
изготовления
репродуцируемого
оригинал-макета
[Волкова].
Этапы создания наборного издания
(упрощенная схема)
1.
2.
3.
4.
Набор (ввод) текста.
Корректура и редактура.
Формирование оригинал-макета, верстка.
Вывод оригинал-макета для печати.
Технологии ввода текста
•
•
•
•
Клавиатурный ввод текста;
Интеллектуальный ввод текста;
Оптическое распознавание текста;
Речевой ввод текста.
Клавиатурный ввод текста
• Для ввода текста широко используется клавиатура
компьютера. Скорость ввода текста первую очередь
зависит от используемой раскладки.
• Латинские раскладки клавиатур:
алфавитная; QWERTY; Dvorak; Colemak.
• Русские раскладки: ЙЦУКЕН, фонетическая.
Методики ускорения ввода
текста
• Слепой метод набора текста — методика набора текста
«вслепую», то есть не глядя на кнопки клавиатуры, ранее был
известен как американский слепой десятипальцевый метод.
• Текстовые экспандеры – программы ускоренного ввода
текста.
• Примеры программ:
– Phrase Express 7.0;
– Texter 0.6;
– Turbo Type 1.39.
Технологии ввода текста
в мобильных устройствах
• Режим Multitap –
стандартный ввод с
клавиатуры многократным
нажатием кнопки.
• Технология ввода текста с
помощью виртуальной
клавиатуры. Выбирая
параметры можно
осуществлять ввод текста на
разных языках, ввод
специальных символов и т.п.
Интеллектуальный ввод текста
• Предиктивный ввод текста (от англ. predict —
предсказывать) — система ускоренного ввода текста в
цифровые устройства, при которой программное
обеспечение устройства в процессе набора предлагает
варианты окончания слов и фраз, основываясь на имеющихся
в его словаре, а также может предлагать исправлять
распространённые ошибки. Примеры режим T9, iTap.
• T9 (от англ. Text on 9 keys), набор текста на 9 кнопках. T9
разработана компанией Tegic Communications (создатель
Клиф Кашлер).
• iTap разработана фирмой Motorola. В отличии от Т9 iTap
пытается предугадать и более длинные слова, анализируя не
только набранные буквы текущего слова, но и предыдущий
текст.
Интеллектуальный ввод текста
• Система ввода текста Swype (изм. от
англ. swipe — скользить и англ. type —
писать) — метод ввода текста не
отрывая палец/стилус от «кнопок
клавиатуры» на сенсорном экране.
Рзработчик Клифф Кашлер.
• Альтернативная система ввода 8pen.
Для ввода любой буквы необходимо
коснуться центрального круга и, не
отрывая палец от экрана, переместить
его в нужный сектор, после чего
провести линию ещё через несколько
секторов и вернуть палец на место.
Системы ввода иероглифов
Структурный метод
• Структурный метод ввода китайских иероглифов
основан на графической структуре иероглифа. Каждый
иероглиф состоит из нескольких частей - графем. Клавиатура
разбита на пять зон, по числу базовых черт. Внутри каждой
зоны клавиши пронумерованы — от центра клавиатуры к
краям. Номер составляется из двух цифр от 1 до 5 — в
зависимости о того, из каких базовых черт собирается
графема.
Метод структурного
ввода — уби цзысин
(Wubing zixing — «ввод
по пяти чертам»).
Системы ввода иероглифов
Фонетический метод
• Фонетический метод пиньинь (Pinyin).
На его основе построена система фонетического
ввода, которая входит в стандартный Asian Language
Pack системы Windows.
• Основным недостатком систем фонетического ввода
является довольно низкая скорость печати — около
50 знаков в минуту (уби цзысин — 160 знаков в
минуту).
Системы ввода иероглифов
Гибридные методы
• Эти методы представляют собой некую комбинацию
фонетических и структурных методов ввода.
Простейший пример — метод иньсин (Yinxing —
«звучание и форма»). Иероглиф набирается путем
ввода транскрипции и указания на графический
элемент. Ограниченный набор графических
элементов разнесен по клавиатуре, так что
запомнить их теоретически не сложно.
Распознавание текста
• Оптическое распознавание символов
(англ. optical character recognition, OCR) — перевод
изображений рукописного, машинописного или
печатного текста в последовательность кодов,
использующихся для представления в текстовом
редакторе.
• Интеллектуальное распознавание символов ICR
(intelligent character recognition) используются для
распознавания рукописных текстов, декоративных
шрифтов и т.п.
Распознавание
рукописного текста
• Распознавание рукописного текста может производиться
«оффлайновым» методом из уже написанного на бумаге
текста или «онлайновым» методом считыванием движений
кончика ручки, к примеру по поверхности специального
компьютерного экрана.
Системы оптического
распознавания текста
• Системы оптического распознавания текста – OCR-системы
предназначены для ввода печатного текста для печатных и
электронных изданий.
• Примеры: Recognita Plus DTK (Венгрия), TextBridge, TypeReader
(США), СharacterEyes (Израиль), IRIS OCR (Бельгия), Easy Reader
(Франция) и др.
• Наиболее известными программами класса «Системы
оптического распознавания» в России являются: ABBYY
FineReader, OmniPage Professional и OCR CuneiForm.
Этапы преобразование документа в
электронный вид OCR-системами
•
•
•
•
•
•
Сканирование и предварительная обработка изображения.
Анализ структуры документа.
Распознавание.
Проверка результатов.
Реконструкция документа (воссоздание его исходного вида).
Экспорт.
Базовые принципы технологий
распознавания текста
•
•
Принципы IPA:
– Целостность (integrity);
– Целенаправленность (purposefulness);
– Адаптивность (adaptability).
Многоуровневый анализ документа.
Страница
Таблица
Блок текста
Ячейка
Абзац
Строка
Слово
Буква (символ)
Картинка
Механизм распознавания
• Механизм распознавания символов представляет собой
комбинацию ряда элементарных распознавателей,
называемых классификаторами.
Упрощённая схема работы классификатора
Входные данные
Классификатор
База
эталонов
Гипотеза 1
Гипотеза 2
….
Гипотеза n
Механизм распознавания
• Все выдвинутые в процессе обработки документа
гипотезы рассматриваются в составе многоуровневых
структур – моделей. В результате побеждает гипотеза,
имеющая наибольший вес.
Ввод текста с помощью OCR-систем
Установка и настройка
аппаратных средств и ПО
Подготовка рабочего места
Подготовка текста
Настройка системы
оптического распознавания
Сканирование текста
Основной этап
Предварительный этап
Обобщенная схема технологического процесса ввода текста
с помощью OCR-систем
Распознавание текста
Корректура (проверка и
исправление ошибок)
Сохранение текста
Исследование эффективности
OCR-систем для ввода текста
Исследование эффективности ввода текста с помощью OCRсистемы будет включать в себя следующие компоненты:
– исследование временных затрат;
– статистическое исследование количества ошибок;
– анализ эффективности ввода текста.
При этом рассматриваются следующие виды текстов:
– современный текст хорошего качества;
– современный текст плохого качества;
– старинный текст XVIII в.
Исследование временных затрат
Сравнение временных затрат
на этапы ввода одной страницы текста
Вид текста
Сканирование
Распознавание
современный текст хорошего качества
62 с.
29 с.
современный текст плохого качества
61 с.
30 с.
текст XVIII в.
52 с.
32 с.
Время сканирования и распознавания зависит от множества
факторов: характеристик сканера, производительности
системы (скорости работы процессора, объема оперативной
памяти и т.д.), от особенностей текста, качества
оригинала, шрифта и т.п.
Точность распознавания
• Одним из основных параметров качества функционирования
системы распознавания является точность распознавания,
обычно выражаемая процентным соотношением:
Ac распi 
100% nверно_ распi
nобщ i
где nверно_расп i и nобщ i есть количество верно распознанных
символов и общее количество символов на странице
(в документе).
Статистическое исследование
количества ошибок
Текст хорошего качества
Фрагмент
по 10
страниц
Кол-во
знаков
(символов)
nобщ
Кол-во
Кол-во неуверенно
слов
распознанных
символов
Кол-во
ошибок
nо
Точность
распознава
ния
Acрасп (%)
1
26377
3344
62
7
99,97 %
2
27266
3422
39
3
99,99 %
3
29809
3865
38
13
99,96 %
4
26796
3324
267
17
99,94 %
5
24361
3445
88
7
99,97 %
6
26597
3343
78
4
99,98 %
10
26800
3410
63
4
99,99 %
Среднее
27251
3484
102
8
99,97 %
…
Статистическое исследование
количества ошибок
Текст плохого качества
Фрагмент
по 10
страниц
Кол-во знаков
Кол-во
(символов)
слов
nобщ
Кол-во
Кол-во
неуверенно
ошибок
распознанны
nо
х символов
Точность
распознаван
ия Acрасп
(%)
1
19540
3085
126
75
99,62 %
2
25517
3668
138
31
99,88 %
3
33841
5290
604
427
98,74 %
6
19566
2869
548
35
99,82 %
9
24953
3201
414
76
99,70 %
Среднее
22831
3394
234
79
99,61 %
….
Статистическое исследование
количества ошибок
Текст XVIII в. (САР)
Страница
Кол-во
знаков
(символов)
nобщ
Кол-во
слов
Кол-во
неуверенно
распознанны
х символов
Кол-во
ошибо
к
nо
Точность
распознаван
ия
Acрасп (%)
1 т.: 377-378
2005
328
304
220
89,03 %
2 т.: 19-20
2340
376
368
297
87,31 %
3 т.: 519-520
2097
305
366
248
88,17 %
5 т.: 43-44
2117
328
425
241
88,62 %
6 т.: 447-448
2060
351
375
277
86,55 %
1 т.: 319-320
1578
265
70
84
94,68 %
3 т.: 9-10
2343
311
458
200
91,46 %
3 т.: 137-138
2173
343
560
389
82,10 %
Среднее
2065
314
428
286
86,00 %
Статистическое исследование
количества ошибок
Текст XVIII в. (САР)
с использованием распознавания с обучением
Стр.
Кол-во
знаков
(символов)
nобщ
Кол-во
Кол-во неуверенно
слов
распознанных
символов
Кол-во
ошибок
nо
Точность
распознаван
ия
Acрасп (%)
1 т.:1-2
2080
359
104
95,00%
1 т.:3-4
2186
255
102
95,33%
1 т.:9-10
2238
280
140
93,74%
1 т.:15-16
2286
357
376
90
96,06%
1 т.:31-32
2251
377
653
114
94,94%
1 т.:33-34
2239
285
597
107
95,22%
1 т.: 377378
2005
328
175
96
95,21%
…
…
…
…
…
2247
349
388
103
95,16 %
…
Среднее