2. Кодирование и обработка текстовой информации

Download Report

Transcript 2. Кодирование и обработка текстовой информации

Глава II
Кодирование
и обработка текстовой
информации
13.04.2015
2. Кодирование и обработка
текстовой информации
1. Кодирование текстовой информации
2. Создание и редактирование документов
3. Форматирование документа
4. Таблицы
5. Компьютерные словари и системы
машинного перевода текстов
6. Системы оптического распознавания
документов
Кодирование
текстовой информации
13.04.2015
Текстовая
информация
Текстовая информация – информация,
выраженная с помощью естественных и
формальных языков в письменной форме
Текст состоит из:
•букв (прописные и строчные буквы
русского и английского алфавитов)
•цифр (1, 2, … 9)
•знаков (! , @ ? # % ^ & .)
•математических символов
(+ - * / =)
4
Двоичное кодирование
текстовой информации
Для обработки текстовой информации на
компьютере необходимо представить её в
двоичной знаковой системе
N=2i, где
N – количество символов;
i – количество информации, отводимое на
кодирование одного символа
5
Двоичное кодирование
текстовой информации
Для кодирования каждого знака необходимо 8
бит информации (N=28 → N=256)
Каждому символу соответствует уникальный
двоичный код из интервала от 00000000 до
11111111 (в десятичном коде от 0 до 255)
6
Кодовая таблица
Коды с 0 по 32 – соответствуют операциям
(перевод строки, ввод пробела и т.д.)
Коды с 33 по 127 – интернациональные,
соответствуют знакам латинского алфавита,
цифрам, знакам препинания и арифметических
операций
Коды с 128 по 255 – национальные, т.е. в
различных национальных кодировках одному и
тому же коду соответствуют разные знаки
7
Различные кодировки
символов
Для русских букв существует 5 различных 8-ми
битовых кодовых таблиц: Windows, MS-DOS,
КОИ-8, Mac, ISO
9
Различные кодировки
символов
Unicode – новый международный стандарт
кодирования текстовых символов, который
отводит на каждый символ 2 байта (16 битов)
По этому стандарту можно закодировать 65 536
символов (N=216 → N= 65 536)
В таблицу Unicode вошли русский и латинский
алфавиты, цифры, знаки и математические
символы, греческий, арабский, иврит и другие
алфавиты
10
Задания 2.1
1. В текстовом режиме экран монитора
компьютера обычно разбивается на 25 строк по
80 символов в строке. Определить объем
текстовой информации, занимающей весь экран
монитора, в кодировке Unicode
2. Пользователь компьютера, хорошо владеющий
навыками ввода информации с клавиатуры,
может вводить в минуту 100 знаков. Какое
количество информации может ввести
пользователь за одну минуту в кодировке
Windows? Кодировке Unicode?
11
Практическая работа 2.1.
«Кодирование русских букв»
Задание: заполнить таблицу
к
о
д
и
р
о
в
а
н
и
е
Unicode
(шестнадцатеричный
код)
Десятичная система
Для выполнения задания использовать:
• OpenOffice Writer
• Программу Калькулятор
Файл сохранить в своей папке под именем
«Кодирование русских букв»
12
13
Задание 2.2
Задание на повторение
Кодирование текстовой информации
1. Какой объём памяти займёт приведённый
ниже текст, если известно, что в нём
используется кодировочная таблица ASCII?
Happy New Year, dear friends!
2. Сколько символов содержится в тексте,
использующем таблицу ASCII, если
известно, что он занимает 24 576 бит
памяти?
14
Самостоятельная работа
Решение задач
Материалы
→ Семакин
→ 8 класс
→ 13. Представление текстов в
памяти компьютера
→ 89. Интерактивный задачник
→ Тренировка
15
Создание
и редактирование
документов
13.04.2015
Текстовые редакторы
Текстовые редакторы – приложения
общего назначения, позволяющие:
• создавать,
• редактировать,
• форматировать,
• сохранять,
• распечатывать документы.
17
Типы текстовых
редакторов:
1. Простые текстовые редакторы –
позволяют редактировать текст и
форматировать шрифт (Блокнот);
2.
Текстовые процессоры – позволяют
вставлять списки и таблицы, формулы,
проверяют орфографию, работают с
графикой (MS Word, OpenOffice Writer);
18
Примеры текстовых
редакторов
19
Типы текстовых
редакторов:
3. Настольные издательские системы
– мощные программы обработки текста,
позволяющие создавать макеты изданий
книг, журналов и газет (Microsoft Publisher,
Adobe PageMaker);
4.
Web-редакторы – используются для
подготовки к публикации в Интернете
Web-страниц и Web-сайтов (Microsoft
Publisher, Microsoft FrontPage).
20
Примеры текстовых
редакторов
21
Способы создания документов
в текстовых редакторах
1.
С помощью Мастера –для создания
документов со сложной структурой (письма,
резюме, факсы, календари и т.д.);
разработка документа с помощью мастера
производится путем внесения необходимых
данных в последовательно появляющиеся
диалоговые панели.
22
Способы создания документов
в текстовых редакторах
2.
С помощью шаблонов – используются
пустые заготовки;
шаблоны задают структуру документа, которую
пользователь заполняет (визитная карточка,
факс, письмо и т.д.).
23
Способы создания документов
в текстовых редакторах
3.
Создание Нового документа –
пользователь использует пустой шаблон,
который заполняет содержанием по своему
усмотрению.
24
Параметры страницы
1. Формат страницы – определяет ее размер:
 А3 (42 ×29,7 см) – для объявлений, плакатов;
 А4 (21×29,7 см) – для рефератов, писем, заявлений;
 А5 (21 ×14,8 см) – для справок и т.д.
2. Ориентация страницы – задает
расположение текста и вид страницы на экране
монитора:
 книжная ориентация – для обычных текстов;
 альбомная ориентация – для таблиц с большим
количеством столбцов.
3. Поля – определяют расстояния от краев
страницы до границ текста
25
Колонтитулы
• Колонтитулы – применяются для вывода
на каждой странице документа одинакового
текста (№ страницы, имя автора, название
документа и т.д.)
Вставка объектов в документ
Современные документы могут содержать
текст, изображения, формулы, таблицы и
диаграммы, звуковые и видеофайлы.
27
Редактирование документа
К редактированию относятся такие операции
с символами или фрагментами текста, как:
•копирование;
•перемещение;
•удаление.
28
Сохранение
документов
Для сохранения документа необходимо
применить команду Файл – Сохранить, в
появившемся диалоговом окне выбрать
диск и папку, имя файла и формат файла
29
Форматы текстовых
документов
.txt – универсальный текстовый формат, файлы
имеют небольшой информационный объем и
могут быть прочитаны различными
приложениями, не сохраняется форматирование
текста;
.rtf - универсальный расширенный текстовый
формат, сохраняются результаты
форматирования, большой информационный
объем файлов;
30
Форматы текстовых
документов
.doc – оригинальный формат текстового
редактора Word, понимается всеми текстовыми
редакторами;
.htm (.html) - формат Web-страница,
используется для хранения Web-страниц в
компьютерных сетях.
31
Печать документа
Печать документа – вывод текстовый
информации на бумажный носитель
• Параметры печати: номера страниц для
печати, количество копий и др.
• Рекомендуется осуществить
предварительный просмотр документа
32
Практическое домашнее задание
выполняется по желанию на дополнительную
отметку
1. С помощью Мастера создайте календарь на
следующий месяц.
2. С помощью Шаблона создайте своё резюме.
3. Сохраните созданные документы в своей
папке Текстовые документы
Выполняется в приложении MS Word
33
Справочная информация
Назначение клавиш:
Сочетание клавиш
Назначение
Enter
Ввод команды, перенос мигающего курсора на новую
строку.
Shift
Позволяет печатать символы верхнего регистра и
заглавные (прописные) буквы.
Delete
Удаляет выделенный объект; удаляет символы справа
от мигающего курсора.
← (Backspace)
Удаляет символы слева от мигающего курсора.
Esc
Отмена команд, выход из программы.
Caps Lock
Переход в режим прописных букв.
Ctrl + Alt + Delete
Вывод компьютера из состояния зависания.
Num Lock
Включение правой цифровой клавиатуры.
Shift + Alt
Переключение клавиатуры на другой язык.
Shift + Ctrl
Переключение клавиатуры на другой язык.
34
Справочная информация
Выделение фрагмента:
1. произвольный фрагмент текста – поставить
указатель мыши в начале фрагмента и при нажатой ЛК
перемещать его по тексту, выделяя букву за буквой;
2. одно слово – 2 ЛК по слову;
3. одно предложение – 1 ЛК по предложению при
нажатой клавише Ctrl;
4. одна строка – 1 ЛК в полосе выделения напротив
нужной строки (на левом поле документа, вид
указателя мыши - );
5. абзац – 2 ЛК в полосе выделения;
6. весь документ – 1 ЛК в полосе выделения при
нажатой клавише Ctrl;
7. вертикальный фрагмент текста – при нажатой ЛК
и нажатой клавише Alt перемещать указатель мыши
вниз и вправо.
35
Практическая работа 2.2.
«Вставка в документ формул»
Задание:
Создать текстовый файл и вставить в
него формулу
Файл сохранить в своей папке в
формате odt, под именем:
«Вставка в документ формул»
Подробные рекомендации по выполнению на следующем
слайде
36
37
Форматирование
документа
13.04.2015
Форматирование
документа
Форматирование
–
процесс
представления
внешнего
вида
документа или отдельных его объектов
в требуемой форме.
39
СТРУКТУРНЫЕ ЕДИНИЦЫ ТЕКСТА
символ
Среда текстового редактора
слово
страница
строка
Набираемый пользователем на клавиатуре текст отображается в рабочем поле редактора на экране. Место
воздействия
на рабочем поле отмечается курсором. Курсор имеет вид мигающей черточки или
прямоугольника.
Часто текст имеет больший размер, чем тот, что может поместиться на экране. В этом случае в пределах
рабочего поля располагается только часть текста. Экран является своеобразным окном, через которое можно
просматривать текст. Для перемещения по тексту специальные клавиши клавиатуры или полосы прокрутки в
окне документа.
абзац
..........................................................................................
.............................................................................................
Коротко о главном
Текстовый редактор (ТР) – это прикладная программа, предназначенная для создания и редактирования
текстовых документов, просмотра содержимого документа на экране, изменения формата документа,
распечатки текста на бумаге с помощью принтера.
Стандартными компонентами среды ТР являются: рабочее поле, текстовый курсор, строка состояния, меню
команд, линейки разметки, полосы прокрутки.
раздел
40
Форматирование
символов
Параметры форматирования
символов:
• шрифт;
• размер;
• начертание;
• цвет.
41
Шрифт
• шрифт – это полный набор символов
определенного рисунка:
– название шрифта (Times New Roman,
Arial, Courier New);
– способ представления (растровый,
векторный);
– ширина символов (моноширинные
шрифты);
– шрифты с засечками и рубленые (Times
New Roman, Arial).
42
Размер шрифта
• Измеряется в пунктах (1 пункт
(пт) = 0,376 мм), от 1 до 1638 пт
43
Начертание и вид
символов
• Начертание символов:
- обычное; - курсивное;
- полужирное; - полужирное
курсивное;
44
Форматирование
абзацев
Абзац выделяет часть текста,
представляющую законченную
мысль
Форматирование абзаца:
•выравнивание;
•отступ первой строки;
•отступы слева и справа;
•расстояние между строками.
45
Списки
Нумерованные, маркированные и
многоуровневые списки –
применяются для размещения в
документе различных перечней
Нумерованный
список:
Маркированный
список:
1.Первый элемент
2.Второй элемент
3.Третий элемент
• Первый элемент
• Второй элемент
• Третий элемент
Многоуровневый список:
1. Первый элемент
• Второй уровень
2. Второй элемент
46
Практическая работа 2.5.
«Форматирование документов»
(Материалы →Практические работы)
47
Таблицы
13.04.2015
Назначение
Таблицы используются при создании
текстовых документов, содержащих
большое количество однотипных
названий (расписание уроков),
числовых данных (таблица
Менделеева), изображений с текстовой
подписью (алфавит в букваре).
49
Структура таблицы
Таблицы состоят из строк и столбцов, на
пересечении которых образуются ячейки
50
Вычисления в таблицах
Операции над числами проводятся с
помощью формул.
Формула =SUM(ABOVE) обеспечивает
суммирование чисел во всех
вышерасположенных ячейках столбца.
51
Создание и изменение
таблицы
Последовательность создания таблицы:
Таблица
Вставить
Таблица
При дальнейшем изменении таблицы
доступны:
вставка и удаление строк, столбцов, ячеек;
изменение ширины столбцов, высоты строк (с помощью
мыши или заданием их точных значений в сантиметрах
или процентах);
изменение размеров отдельных ячеек, разделение на
несколько или объединение с соседними.
52
Границы и заливка
Основные параметры ячеек:
• ширина, высота;
• цвет границ;
• цвет фона (заливка).
53
Расписание уроков на неделю
Дни
недели
№ п/п
Предмет
Время начала
урока
Время окончания урока
Домашнее задание
1
Понедельник
2
3
4
5
6
1
2
Вторник
3
4
5
6
1
2
3
Среда
4
5
6
54
Пример таблицы
55
Гипертекст
Гипертекстовый документ – документ,
содержащий ссылки на другие документы
Гиперссылка – выделенный объект, связанный
с другим файлом при помощи скрытого
адреса и реагирующий на щелчок мыши.
Гиперссылка может указывать на закладки,
размещенный в том же документе и на
закладки в других документах.
56
Таблица, содержащая текст,
изображения, числа и формулу
Учебник, стр. 68.
57
Практическая работа 2.4.
«Создание и форматирование
списков»
• Практическая работа № 2.4, стр.204207 учебника.
58
Практическая работа 2.5.
«Таблицы»
• Практическая работа № 2.5, стр.207211 учебника.
Пример таблицы представлен на слайде 57
59
Практическое
домашнее задание
выполняется по желанию на дополнительную отметку
• Создать таблицу «Расписание уроков на
неделю»
• Таблица должна отражать следующую
информацию:
– день недели;
– порядковый номер урока;
– название предмета;
– время начала урока;
– время окончания урока;
– домашнее задание.
Выполняется в приложении MS Word
60
Компьютерные словари и
системы машинного
перевода текстов
13.04.2015
Возможности
компьютерных словарей
1. Многоязычность (англо-русский,
испанско-русский и т.д.)
2. Содержат специализированные
словари
3. Быстрый поиск
4. Возможность ввода
словосочетаний
5. Словари являются
мультимедийными
62
Возможности систем
компьютерного
перевода
• Высокая скорость перевода
многостраничных документов (1 стр/с)
• Высокое
качество
перевода
технической документации, деловой
переписку
и
других
специализированных текстов
Пример: http\\www.translate.ru
63
Ограничения по применению
компьютерного перевода
Системы
компьютерного
перевода
не
применимы для работы с художественными
текстами (они не способны адекватно переводить
используемые средства выразительности языка)
64
Системы оптического
распознавания документов
13.04.2015
Назначение
Системы
оптического
распознавания
символов используются для перевода
текста из бумажного в цифровой
компьютерный формат
66
Последовательность
действий в работе системы
1. Определение структуры размещения
текста (колонки, таблицы, изображения и
т. д.)
2. Разделение фрагментов текста на
изображения отдельных символов
3. Сравнение изображений символов с
шаблонами
67
Система оптического распознавания
текста Cuneiforom
Сканирование
документа
Распознавание
текста
Сохранение
полученного текста
Открыть уже
отсканированный
документ
Разметка
распознаваемого
текста
68
Шаблоны для
распознавания символов
• Растровые – для документов
типографского качества
• Векторные – для документов
низкого качества
69
Пример: Распознаваемый символ
«Б» накладывается на растровые
шаблоны символов
Растровый шаблон сравнивается непосредственно с
распознаваемым символом
70
Пример: Распознаваемый символ
«Б» накладывается на векторные
шаблоны символов
В изображении символа выделяются геометрические
примитивы (отрезки, окружности и др.), после чего
фигура, полученная из них сравнивается с векторным
шаблоном
71
Практическая работа 2.6.
«Распознавание «бумажного» текста и перевод с помощью
компьютерного словаря»
Задание:
1.Распознать энциклопедическую статью
2.Перевести энциклопедическую статью с
английского языка на русский
3.сформировать словарик терминов (таблица
5 терминов из статьи)
Рекомендации по выполнению работы :
Материалы → 2.6. Практическая по распознаванию и
переводу
72