Transcript 8kl12ur

Тексты
в компьютерной
памяти
Цель урока:
познакомиться со
способами
представления и
организации текстов в
компьютерной памяти.
Преимущества компьютерного
документа по сравнению с
бумажным
Компьютер может работать с четырьмя
видами
информации:
текстовой,
графической, числовой и звуковой.
Одним из самых массовых приложений
ЭВМ является работа с текстами:
создание текстовых документов и
хранение их на магнитных носителях в
виде файлов.

СПОСОБЫ ОБРАБОТКИ И ХРАНЕНИЯ ТЕКСТОВ
Ручная
запись текста
на бумаге
Печать
на пишущей
машинке
Тексты
на
бумаге
Печать
на принтере
Бумажная технология
Файлы
Компьютерная технология
Недостатки бумажной технологии
Достоинства компьютерной технологии
• проблемы
редактирования
документов
(зачеркивание,
заклеивание, переписывание заново)
• компактное хранение в файлах на носителях
• книги, документы на бумажном
занимают очень много места
бумажных
стирание,
носителе
• возможность
носителя
многократного
использования
• простота копирования и размножения
• одноразовое использование, перерасход бумаги
• простота редактирования – внесения изменений
• трудности копирования бумажных текстовых
документов
• быстрая передача по сетевым каналам
• трудности передачи текстовой
информации на большие расстояния
бумажной
Как представляются тексты в памяти компьютера
Текстовая информация состоит из символов: букв, цифр,
знаков препинания, скобок и других.
Множество всех символов, с помощью которых записывается
текст, называется алфавитом, а число символов в алфавите —
его мощностью.
Для представления текстовой информации в компьютере
используется алфавит мощностью 256 символов.
Вспомним формулу, связывающую информационный вес
символа алфавита и мощность алфавита:
2i = N
Один символ такого алфавита несет 8 битов информации: 2 в
8 степени равно 256. 8 битов = 1 байт, следовательно:
один символ в компьютерном тексте занимает 1 байт памяти.
Все символы компьютерного алфавита пронумерованы
от 0 до 255. Каждому номеру соответствует
восьмиразрядный двоичный код от 00000000 до
11111111. Этот код просто порядковый номер символа в
двоичной системе счисления.
Таблица, в которой всем символам компьютерного
алфавита поставлены в соответствие порядковые номера,
называется таблицей кодировки.
Международным стандартом для ПК стала
таблица ASCII (читается аски) (Американский
стандартный код для информационного обмена).
На практике можно встретиться и с другой
таблицей – КОИ-8 (Код обмена информацией),
которая
используется
в
глобальных
компьютерных сетях.
Символы с номерами от 0 до 31 принято называть
управляющими. Их функция – управление процессом
вывода текста на экран или печать, подача звукового
сигнала, разметка текста и т.п.
Символ 32 - пробел, т.е. пустая позиция в тексте.
Все остальные отражаются определенными знаками.
В таблице кодировки буквы (прописные и строчные) располагаются в
алфавитном порядке, а цифры упорядочены по возрастанию значений.
Cтандартной
в этой таблице
является только перваяпорядка
половина,
т. е. символы с номерами
от нуля
Такое соблюдение
лексикографического
в расположении
символов
(двоичный код 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры,
называется принципом последовательного кодирования алфавита.
знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная с
10000000 и кончая 11111111, используются в разных вариантах. В русских национальных
кодировках в этой части таблицы размещаются символы русского алфавита.
КОДИРОВАНИЕ ТЕКСТА. ТАБЛИЦА КОДИРОВКИ
Структура кодовой таблицы
Кодировка в ОС Windows – код ANSI
№
Символ
Двоичный код
0
NUL
00000000
1
3OH
00000001
…
…..
……………
31
US
00011111
…
…..
……………
82
R
01010010
83
S
01010011
84
T
01010100
…
…..
……………
127

01111111
…
…..
……………
195
Г
11000011
Кодовая страница CP-1251
196
Д
11000100
128 (10000000) . . . 255 (11111111)
197
Е
11000101
…
…..
……………
254
ю
11111110
Содержит русские буквы, упорядоченные в алфавитной
последовательности (это правило соблюдается не во
всех кодовых страницах)
255
я
11111111
American National Standard Institute
(американский институт стандартизации)
Стандартная часть кода ANSI/ASCII
0 (00000000) . . . 127 (01111111)
Символы с кодами 0 . . . 31 выполняют
управляющие функции. При выводе текста
они не отображаются графи-ческими
знаками.

Кодовая таблица Windows (ANSI, CP-1251)
ASCII

ТЕКСТЫ В КОМПЬЮТЕРНОЙ ПАМЯТИ
• Каждый символ текста представлен в памяти компьютера двоичным кодом
• Слово – последовательность символов, отделенная разделительным знаком или пробелом
• Строка – это последовательность слов, отделенная от другой строки
управляющими кодами “перевод строки” (ASCII=13) и “возврат каретки” (ASCII=10)
• Текстовый файл содержит последовательность кодов символов, разделенную
по строкам. В конце расположен управляющий код “конец файла” (ASCII=26)
Строка
слово
символ
Код ASCII
слово
символ ….. символ
Код ASCII
Строка
Код ASCII
Управляющие
коды (13 + 10)
пробел
символ
Код ASCII
Код ASCII
символ ….. символ
Код ASCII
Строка
.....
Специальные управляющие
коды для разделения текста
на строки (13 + 10)
Код ASCII
Строка
.....
Последовательность кодов ASCII cтрок – текстовый файл
.....
Специальный
управляющий код
26 (конец файла)
Например, внутреннее представление слова
«file». В памяти компьютера оно займет 4 байта
со следующим содержанием:
01100110 01101001 01101100 01100101
Тексты вводятся в память компьютера с
помощью клавиатуры. На клавишах написаны
привычные нам буквы, цифры, знаки
препинания и другие символы. В оперативную
память они попадают в форме двоичного
кода. Из памяти компьютера текст может быть
выведен на экран или на печать в символьной
форме. Но для долговременного хранения его
следует записать на внешний носитель в виде
файла.
В настоящее время существуют
пять
различных
кодировок
кириллицы (КОИ8-Р, Windows,
MS-DOS, Macintosh и ISO). Из-за
этого часто возникают проблемы
с переносом русского текста с
одного компьютера на другой, из
одной программной системы в
другую.
С конца 90-х годов проблема стандартизации
символьного кодирования решается введением
нового международного стандарта, который
называется
Unicode.
Это
16-разрядная
кодировка, т.е. в ней на каждый символ
отводится 2 байта памяти. Конечно, при этом
объем занимаемой памяти увеличивается в 2
раза. Но зато такая кодовая таблица допускает
включение до 65536 символов. Полная
спецификация стандарта Unicode включает в
себя все существующие, вымершие и
искусственно созданные алфавиты мира, а
также
множество
математических,
музыкальных, химических и прочих символов.

ГИПЕРТЕКСТ
Страница 5
1
2
3
4
Страница 2
Страница 12
Страница 10
Страница 8
5
Страница 8
6
Страница 4
7
8
Страница 3
Страница 6
Страница 7
9
10
11
Страница 3
Страница 8
Страница 2
12
Страница 1
Страница 5
ГИПЕРТЕКСТ – это текст, организованный так, что его можно просматривать в
последовательности смысловых связей между его отдельными фрагментами. Такие связи
называются гиперсвязями (гиперссылками)
Вопросы и задания
Вопрос 1.
Почему иногда текст, состоящий из
букв русского алфавита, полученный с
другого компьютера, мы видим на
своем компьютере в виде
"абракадабры"?
Пример 1. Сколько бит памяти
компьютера занимает слово
МИКРОПРОЦЕССОР?
Пример 2. Какой объём памяти
займёт приведённый ниже текст,
если известно, что в нём
используется кодировочная таблица
ASCII?
Happy New Year, dear friends!!?
Пример 3. Какой объём памяти
займёт приведённый ниже текст,
если известно, что в нём
используется кодировочная
таблица ASCII?
Happy New Year, dear friends!!?
Пример. Свободный объем
оперативной памяти компьютера
640 Кбайт. Сколько страниц книги
поместится в ней, если на странице
16 строк по 64 символа в строке?
ТЕКСТОВАЯ ИНФОРМАЦИЯ И КОМПЬЮТЕР
Представление текста
в памяти компьютера
Представление
символов
Таблица
кодировки
Код ASCII
256 символов
1 символ – 1 байт
стандартная часть
коды 0 – 127
альтернативная
часть
коды 128 - 255
Структура
документов
Структурные
единицы
•
•
•
•
•
слово
строка
абзац
страница
раздел
Программы создания
и редактирования текста
Текстовые
редакторы
Текстовые
процессоры
ОСНОВНЫЕ РЕЖИМЫ
• ввод текста
• редактирование
• поиск и замена
• работа с файлами
• правописание
• печать документа
• помощь
ДОПОЛНИТЕЛЬНЫЕ
ФУНКЦИИ
• стили, шаблоны
• списки
• таблицы
• графика
• формулы
Интеллектуальные системы
работы с текстом
Гипертекст
Программы
переводчики
Программы распознавания
печатного текста
Спасибо
за внимание!