Представление и кодирование текстовой информации Кодирование информации Кодирование процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления.

Download Report

Transcript Представление и кодирование текстовой информации Кодирование информации Кодирование процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления.

Представление и
кодирование
текстовой
информации
Кодирование информации
Кодирование
процесс формирования определенного представления
информации. В более узком смысле под термином «кодирование» часто
понимают переход от одной формы представления информации к другой, более
удобной для хранения, передачи и обработки. Обратное преобразование
называется декодированием.
–
Полный набор символов, используемый для кодирования, называется
алфавитом. При вводе знака алфавита в компьютер путем нажатия
соответствующей клавиши на клавиатуре происходит кодирование знака, то
есть преобразование его в компьютерный код. При выводе знака на экран
монитора или принтер происходит обратный процесс – декодирование, когда из
компьютерного кода знак преобразуется в его графическое изображение.
Компьютер может сохранять и распознавать не более двух различных
состояний, поэтому для представления информации используется двоичное
кодирование. Информация кодируется последовательностью электрических
импульсов: есть импульс (1), нет импульса (0), т.е. последовательностью нулей
и единиц. Такое кодирование называется двоичным, а последовательность
нулей и единиц – машинным языком. Каждая цифра машинного двоичного
кода несет количество информации, равное 1 биту.
Почему двоичное кодирование
Начиная с 60-х годов, компьютеры все больше стали
использовать для обработки текстовой информации и в настоящее
время большая часть ПК в мире занято обработкой именно
текстовой информации.
Традиционно для кодирования одного символа используется
количество информации = 1 байту (1 байт = 8 битов).
С точки зрения технической реализации использование двоичной
системы счисления для кодирования информации оказалось намного
более простым, чем применение других способов. Действительно,
удобно кодировать информацию в виде последовательности нулей и
единиц, если представить эти значения как два возможных устойчивых
состояния электронного элемента:
0 – отсутствие электрического сигнала;
1 – наличие электрического сигнала.
Двоичное кодирование
текстовой информации
Кодирование заключается в том, что
каждому символу ставиться в соответствие
уникальный двоичный код от 00000000 до
11111111 (или десятичный код от 0 до 255).
Важно,
что
присвоение
символу
конкретного кода – это вопрос соглашения,
которое фиксируется кодовой таблицей.
Таблица кодировки
Таблица, в которой всем символам
компьютерного
алфавита
поставлены
в
соответствие порядковые номера (коды),
называется таблицей кодировки.
Для разных типов ЭВМ используются
различные кодировки. С распространением IBM
PC международным стандартом стала таблица
кодировки ASCII (American Standart Code for
Information Interchange) – Американский
стандартный код для информационного
обмена.
Таблица кодировки ASCII
Стандартной в этой таблице является только первая
половина, т.е. символы с номерами от 0 (00000000) до
127 (0111111). Сюда входят буква латинского алфавита,
цифры, знаки препинания, скобки и некоторые другие
символы.
Остальные 128 кодов используются в разных
вариантах. В русских кодировках размещаются символы
русского алфавита.
В настоящее время существует 5 разных кодовых
таблиц для русских букв (КОИ8, СР1251, СР866, Mac,
ISO).
В
настоящее
время
получил
широкое
распространение новый международный стандарт
Unicode, который отводит на каждый символ два байта.
С его помощью можно закодировать 65536 (216= 65536 )
различных символов.
Представление текстовой информации
Для представления текстовой информации используют алфавит из 256
символов: букв, цифр, знаков препинания, математических и графических
символов.
Для двоичного кодирования 1 символа необходимо 8 бит информации
или 8 двоичных разрядов, т.е 1 байт.
Каждому символу соответстует свой уникальный код. Таким образом,
человек различает символы по их начертаниям, а компьютер – по их кодам.
Присвоение символу конкретного кода – это вопрос соглашения, которое
фиксируется в кодовой таблице.
В качестве стандарта принята таблица ASCII (американский стандартный
код для информационного обмена). Все символы компьютерного алфавита
пронумерованы от 0 до 255. Первые 33 кода (0-32) соответствуют не символам,
а операциям (ввод пробела, перевод строки и т.д.). Коды с 33 по 127 являются
интернациональными (буквы латинского алфавита, цифры, знаки препинания,
знаки арифметических операций). Вторая половина таблицы (коды 128 – 255)
используется для кодировки букв национальных алфавитов, научных символов,
символов псевдографики.
На разных моделях компьютеров, в разных операционных системах могут
использоваться и разные варианты второй половины кодовой таблицы. К
сожалению, существует 5 различных кодировок русских букв, поэтому тексты,
созданные в одной кодировке, не будут правильно отражаться в другой:
двоичный
код
КОИ-8
UNIX
CP1251
MS Windows
CP866
MS DOS
MAC
Apple
ISO8859-5
ISO
11100100
Д
д
ф
д
ф
11100101
Е
е
х
е
х
В настоящее время распространение получил
новый международный
стандарт Unicode, который отводит на каждый символ 2 байта, что позволяет
включить в код символа информацию о том, какому языку принадлежит символ и
как его надо воспроизводить. С помощью этого стандарта можно закодировать не
256 символов, а N = 2 16 = 65536 символов.
Задание 1.
Закодируйте с помощью кодировочной таблицы ASCII следующие тексты:
Password, Windows, Total Commander
Задание 2.
Декодируйте с помощью кодировочной таблицы ASCII следующий текст:
087 111 114 100
Задание 3.
Как будет выглядеть слово «диск», записанное
в кодировке CP1251, в кодировке CP866?
Таблица кода ASCII
кодировка Windows-1251 (CP1251)
Таблица расширенного кода ASCII
кодировка Windows-1251 (CP1251)
Таблица
кодировка MS DOS CP866
CP866
Практическая
работа
Упражнение 1.
Запустите любое приложение на платформе Windows&Office,например,
Блокнот. С помощью дополнительной цифровой клавиатуры при нажатой
клавиши {Alt} введите число 0224, отпустите клавишу {Alt}, в документе
появиться символ a.Повторите процедуру для числовых кодов от 0225 до
0233, в документе появиться последовательность из 10 символов
(абвгдежзий) Windows (СР1251).
С помощью дополнительной цифровой клавиатуры при нажатой клавиши {Alt}
введите число 224, отпустите клавишу {Alt}, в документе появится символ р.
Повторите процедуру для числовых кодов от 225 до 233, в документе
появится последовательность из 10 символов (рстуфхцчшщ) в кодировке MSDOS (CP866).
Упражнение 2.
Используя Блокнот, определите, какие слова в кодировке Windows (СР1251)
заданы последовательностями числовых кодов:
225, 224, 233.
Используя Блокнот, определите, какие слова в кодировке MS-DOS (CP866)
заданы последовательностями числовых кодов:
161, 160, 169, 226.
Практическая работа
1. Закодируйте с помощью кодировочной таблицы ASCII
Windows;
2. Закодируйте с помощью таблицы символов в кодах ASCII. Для вызова
таблица символов выполни команду в текстовом процессоре
Microsoft WORD
Pascal
3. Декодируйте следующие тексты, заданные десятичным кодом:
а) 087 111 114 100;
б) 068 079 083;
в) 080 097 105 110 116 098 114 117 115 104.
4. Представьте в форме кода слово «бит», в кодировках.
CP866, CP1251, ASCII
5. Как будет выглядеть слово «шэЇюЁьрЄшър» записанное в CP866, в
кодировке CP1251.