Transcript 8kl12ur
Тексты в компьютерной памяти Цель урока: познакомиться со способами представления и организации текстов в компьютерной памяти. Преимущества компьютерного документа по сравнению с бумажным Компьютер может работать с четырьмя видами информации: текстовой, графической, числовой и звуковой. Одним из самых массовых приложений ЭВМ является работа с текстами: создание текстовых документов и хранение их на магнитных носителях в виде файлов. СПОСОБЫ ОБРАБОТКИ И ХРАНЕНИЯ ТЕКСТОВ Ручная запись текста на бумаге Печать на пишущей машинке Тексты на бумаге Печать на принтере Бумажная технология Файлы Компьютерная технология Недостатки бумажной технологии Достоинства компьютерной технологии • проблемы редактирования документов (зачеркивание, заклеивание, переписывание заново) • компактное хранение в файлах на носителях • книги, документы на бумажном занимают очень много места бумажных стирание, носителе • возможность носителя многократного использования • простота копирования и размножения • одноразовое использование, перерасход бумаги • простота редактирования – внесения изменений • трудности копирования бумажных текстовых документов • быстрая передача по сетевым каналам • трудности передачи текстовой информации на большие расстояния бумажной Как представляются тексты в памяти компьютера Текстовая информация состоит из символов: букв, цифр, знаков препинания, скобок и других. Множество всех символов, с помощью которых записывается текст, называется алфавитом, а число символов в алфавите — его мощностью. Для представления текстовой информации в компьютере используется алфавит мощностью 256 символов. Вспомним формулу, связывающую информационный вес символа алфавита и мощность алфавита: 2i = N Один символ такого алфавита несет 8 битов информации: 2 в 8 степени равно 256. 8 битов = 1 байт, следовательно: один символ в компьютерном тексте занимает 1 байт памяти. Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления. Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки. Международным стандартом для ПК стала таблица ASCII (читается аски) (Американский стандартный код для информационного обмена). На практике можно встретиться и с другой таблицей – КОИ-8 (Код обмена информацией), которая используется в глобальных компьютерных сетях. Символы с номерами от 0 до 31 принято называть управляющими. Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п. Символ 32 - пробел, т.е. пустая позиция в тексте. Все остальные отражаются определенными знаками. В таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Cтандартной в этой таблице является только перваяпорядка половина, т. е. символы с номерами от нуля Такое соблюдение лексикографического в расположении символов (двоичный код 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, называется принципом последовательного кодирования алфавита. знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная с 10000000 и кончая 11111111, используются в разных вариантах. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита. КОДИРОВАНИЕ ТЕКСТА. ТАБЛИЦА КОДИРОВКИ Структура кодовой таблицы Кодировка в ОС Windows – код ANSI № Символ Двоичный код 0 NUL 00000000 1 3OH 00000001 … ….. …………… 31 US 00011111 … ….. …………… 82 R 01010010 83 S 01010011 84 T 01010100 … ….. …………… 127 01111111 … ….. …………… 195 Г 11000011 Кодовая страница CP-1251 196 Д 11000100 128 (10000000) . . . 255 (11111111) 197 Е 11000101 … ….. …………… 254 ю 11111110 Содержит русские буквы, упорядоченные в алфавитной последовательности (это правило соблюдается не во всех кодовых страницах) 255 я 11111111 American National Standard Institute (американский институт стандартизации) Стандартная часть кода ANSI/ASCII 0 (00000000) . . . 127 (01111111) Символы с кодами 0 . . . 31 выполняют управляющие функции. При выводе текста они не отображаются графи-ческими знаками. Кодовая таблица Windows (ANSI, CP-1251) ASCII ТЕКСТЫ В КОМПЬЮТЕРНОЙ ПАМЯТИ • Каждый символ текста представлен в памяти компьютера двоичным кодом • Слово – последовательность символов, отделенная разделительным знаком или пробелом • Строка – это последовательность слов, отделенная от другой строки управляющими кодами “перевод строки” (ASCII=13) и “возврат каретки” (ASCII=10) • Текстовый файл содержит последовательность кодов символов, разделенную по строкам. В конце расположен управляющий код “конец файла” (ASCII=26) Строка слово символ Код ASCII слово символ ….. символ Код ASCII Строка Код ASCII Управляющие коды (13 + 10) пробел символ Код ASCII Код ASCII символ ….. символ Код ASCII Строка ..... Специальные управляющие коды для разделения текста на строки (13 + 10) Код ASCII Строка ..... Последовательность кодов ASCII cтрок – текстовый файл ..... Специальный управляющий код 26 (конец файла) Например, внутреннее представление слова «file». В памяти компьютера оно займет 4 байта со следующим содержанием: 01100110 01101001 01101100 01100101 Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в форме двоичного кода. Из памяти компьютера текст может быть выведен на экран или на печать в символьной форме. Но для долговременного хранения его следует записать на внешний носитель в виде файла. В настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows, MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую. С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode. Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов. ГИПЕРТЕКСТ Страница 5 1 2 3 4 Страница 2 Страница 12 Страница 10 Страница 8 5 Страница 8 6 Страница 4 7 8 Страница 3 Страница 6 Страница 7 9 10 11 Страница 3 Страница 8 Страница 2 12 Страница 1 Страница 5 ГИПЕРТЕКСТ – это текст, организованный так, что его можно просматривать в последовательности смысловых связей между его отдельными фрагментами. Такие связи называются гиперсвязями (гиперссылками) Вопросы и задания Вопрос 1. Почему иногда текст, состоящий из букв русского алфавита, полученный с другого компьютера, мы видим на своем компьютере в виде "абракадабры"? Пример 1. Сколько бит памяти компьютера занимает слово МИКРОПРОЦЕССОР? Пример 2. Какой объём памяти займёт приведённый ниже текст, если известно, что в нём используется кодировочная таблица ASCII? Happy New Year, dear friends!!? Пример 3. Какой объём памяти займёт приведённый ниже текст, если известно, что в нём используется кодировочная таблица ASCII? Happy New Year, dear friends!!? Пример. Свободный объем оперативной памяти компьютера 640 Кбайт. Сколько страниц книги поместится в ней, если на странице 16 строк по 64 символа в строке? ТЕКСТОВАЯ ИНФОРМАЦИЯ И КОМПЬЮТЕР Представление текста в памяти компьютера Представление символов Таблица кодировки Код ASCII 256 символов 1 символ – 1 байт стандартная часть коды 0 – 127 альтернативная часть коды 128 - 255 Структура документов Структурные единицы • • • • • слово строка абзац страница раздел Программы создания и редактирования текста Текстовые редакторы Текстовые процессоры ОСНОВНЫЕ РЕЖИМЫ • ввод текста • редактирование • поиск и замена • работа с файлами • правописание • печать документа • помощь ДОПОЛНИТЕЛЬНЫЕ ФУНКЦИИ • стили, шаблоны • списки • таблицы • графика • формулы Интеллектуальные системы работы с текстом Гипертекст Программы переводчики Программы распознавания печатного текста Спасибо за внимание!