4장 멀티미디어의 활용과 기술

Download Report

Transcript 4장 멀티미디어의 활용과 기술

5장 텍스트의 표현
5.1. 문자코드 체계
5.1.1. ASCII 코드
5.1.2. 한글 코드
5.1.3. ISO 2022 코드
5.1.4. 유니코드
5.1.5. KS X 1005-1
5.2. 폰트
5.2.1. 폰트 형식
5.2.2. 문자 편집기
5.3. 텍스트 파일의 형식
5.3.1. TXT
5.3.2. RTF
5.3.3. DOC/HWP
5.3.4. PDF
5.3.5. 마크업 텍스트
5.4. 메모장과 워드패드
1/26
개요
 멀티미디어 구성요소 중 가장 많이 사용되는 것은
텍스트이다. 텍스트는 다른 미디어 들보다 저장 공
간을 극히 적게 차지하면서 가장 많은 정보를 담을
수 있는 효율성이 매우 우수한 미디어이다.
 우리는 ‘독서를 많이 하라’는 말은 많이 듣지만 라디
오를 많이 듣거나 TV나 영화, 만화를 많이 보라는 얘
기는 거의 들을 수 없다.
 텍스트가 주로 사용된 책에는 심오한 지식이나 인생
의 철학 등을 담을 수 있으나 다른 미디어로는 이것
이 거의 불가능하기 때문일 것이다.
2/26
문자코드 체계
 컴퓨터에서 텍스트는 2진수 코드로 인코딩
(encoding) 되어 표현된다.
3/26
ASCII 코드
 ASCII(American Standard Code for Information
Interchange) 코드는 1개의 문자를 8비트를 사용하여 표현하
는 방식으로 최대 256개의 문자를 표현할 수 있다.
 그러나 영문자를 표현하기 위해서는 7비트면 충분하기 때문
에 나머지 128개는 그래픽 문자를 표현하기 위해 사용된다.
4/26
한글 코드
 ASCII 코드는 영문자를 표현하기 위한 것이
기 때문에 한글을 표현하기 위해서는 당연히
별도의 코드 체계가 필요하다
5/26
글자수 계산
 영어권의 문자를 표현하기 위해서는 7비트만
으로 충분하다.
 우리의 한글 문자를 표현하기 위해서는 표
5-3에서 계산된 11,172자를 표현할 공간이
필요하여 2바이트를 사용해야 한다.
6/26
2 바이트 조합형 코드
 한글의 구현 원리에 따라 초성, 중성, 종성을 구분하여 만든
코드이다. 초성, 중성, 종성에 각각 5비트씩을 할당하여 그림
5-2와 같이 한글 문자를 표현하고 있다.
 제 1 바이트의 최상위 비트(MSB: Most Significant Bit)가 0
이면 영문자, 1이면 한글 문자를 나타낸다.
7/26
상용 조합형 코드의 일부
8/26
2 바이트 완성형 코드
 2바이트 완성형 코드는 한글 문자에 기반을 두고 코드를 부
여한 것이다.
 자주 사용되는 2,350자를 추출하여 이들 글자 하나 하나를
완성된 글자로 보고, 가나다 순으로 배열한 것이다.
9/26
조합형 코드와 완성형 코드의 비교
10/26
ISO 2022 코드
 ASCII 코드 체제는 컴퓨터가 영어권 이외의 아시아, 아프리카, 남
미 등의 문화권으로 확산됨에 따라 문제점이 나타나게 되었다. 그
것은 바로 한글이나 한자와 같이 글자 수가 많은 언어들은 1바이
트로 표현할 수 없다는 것이다.
 이러한 점은 상업적인 측면에서 미국 등의 유수의 S/W와 H/W
업체들이 동양권의 컴퓨터 시장을 공략하기 위해 가장 시급히
해결해야 할 문제였다. 이 문제를 해결하기 위해서는 ASCII에서
사용하는 8비트 코드 체계가 아닌 16비트 즉 2바이트 코드 체계
로 변경하는 것이 유일한 해법이었다.
 ISO(International Standards Organization)는 ASCII 코드를 확
장하여 2 바이트 이상의 문자 코드를 사용할 때 준수해야 할 부
호 확장법에 대한 규격을 ISO 2022라는 이름으로 발표하였다.
그러나 이것 역시 문자를 배정할 수 있는 영역이 최대 8,836자
로 제한되어 있고, 영어권 외에서 국제간에 정보를 교환할 때 혼
란을 가져올 수 있다는 단점이 있었다.
11/26
유니코드
 한 문자를 표현하기 위해 영어는 7비트, 비영어는 8
비트, 한글, 한자, 일본어는 16비트가 필요한데, 유
니코드는 이들 문자를 모두 16비트로 표현하도록
통일하였다. 그래서 유니코드에서 최대로 수용할 수
있는 문자 수는 65,536자가 된다
 이 코드 체계에 따르면 한글은 기존처럼 한 음절 당
2바이트로 표현되고, 자소 분리가 용이하며 최대
11,172자까지 표현할 수 있다. 또한 기존에 뒤죽박
죽이었던 배열과는 달리 완벽하게 가나다 순으로 배
열되었기 때문에 조합형 코드의 장점과 완성형 코드
의 장점을 모두 취하게 되었다.
12/26
유니코드에서 지원하는 11,172자 한글 코드
13/26
유니코드로 인코딩하는 방식
 UTF(UCS Transformation Format)-8과 UTF-16이
있다. UTF-8은 유니코드의 각 문자를 표현할 때 1
바이트에서 3바이트까지로 가변적으로 표현한다.
 즉 유니코드 값 0000 - 007F까지는 1 바이트를 사
용하여 표현하고, 그 다음부터 07FF까지는 2 바이
트, 그 다음부터 FFFF까지는 3바이트를 사용한다.
 예를 들어 '가'라는 글자는 UTF-8로 인코딩하면
0xEAB080으로 3 바이트로 표현된다.
 이에 반해 UTF-16은 일반 유니코드 즉 Unicode
2.0/ ISO-10646 UCS-2와 같은 것으로 모든 문자
를 2 바이트로 표현한다
14/26
 Internet Explorer의 [인터넷 옵션]에서 ‘URL을 항상 UTF-8
로 보냄’ 은 URL을 UTF-8로 인코딩하여 웹 서버에게 보내겠
다는 의미이다. 이 옵션이 설정되어 있을 때 URL에 한글이나
특수문자 등이 있으면 대부분의 웹 서버가 이를 제대로 인식
하지 못하므로 이 옵션을 선택하지 않는 것이 좋다.
15/26
KS X 1005-1
 유니코드(ISO/IEC 10646)를 국내 표준화한
것이 KS X 1005-1이다.
16/26
폰트
 문서를 작성할 때 적절한 폰트(font)를 사용하
는 것은 문서의 가독성과 품질에 있어 매우
중요하다. 폰트는 동일한 크기의 글꼴 한 벌
을 지칭하는 용어이다.
 다음 그림에서 ‘바탕, 바탕체’ 하는 것들이
글꼴이고, ‘바탕, 크기 10’이라고 크기까지 지
칭할 때 비로소 폰트라고 한다. 그러나 경우
에 따라 폰트와 글꼴이란 용어가 같은 의미
로 사용되기도 한다
17/26
MS Word에서 글꼴의 속성들
18/26
폰트 형식
 폰트를 표현하는 방법에 따라 크게 비트맵
(bitmap) 폰트와 벡터(vector) 폰트로 구분한
다.
19/26
비트맵 폰트
 비트맵 폰트(bitmap font)는 그림 5-7처럼 폰트를 비트맵으
로 표현한다. 즉 그림에서 A자를 구성하는 검정색 부분에 대
한 픽셀의 비트 값을 1, 그 외 부분을 0의 값으로 표현하여 저
장시키는 것이다.
20/26
벡터 폰트
 벡터 폰트(vector font)는 그림 5-10처럼 문자의 윤곽선을 수
학 함수를 이용하여 표현한다. 즉 그림의 A자 모양에서 고동
색 점과 점 사이를 직선, 곡선 등을 표현하는 수학 함수로 표
현하여 저장시키는 것이다
21/26
벡터 폰트의 특성
 이러한 수학 함수의 특성으로 벡터 폰트는
함수의 매개 변수 값을 변경시켜 문자 크기
를 조절하거나, 수학적인 연산을 통해 쉽게
문자 모양을 변형시킬 수 있다.
 따라서 한 종류의 폰트를 제작하는 것만으로
여러 종류의 폰트를 제작하는 효과를 얻을
수 있다.
 일반적으로 벡터 폰트를 트루 타입(true type)
폰트라고도 한다.
22/26
문자 편집기
 Windows에서 제공하는 사용자 정의 문자 편
집기를 이용하여 특수 문자나 로고 등을
6,400개까지 만들 수 있다.
 실습 p.103
23/26
텍스트 파일의 형식

TXT


RTF


RTF(Rich Text Format) 형식은 대부분의 문서편집기에서 지원하나 완전한 표준화가 되어
있지 않아 만족할 만한 효과는 기대할 수 없다. 특히 ‘한/글’과 MS Word 간에 RTF 파일로
교환하면 ‘표’와 같은 서식에서 많은 문제점을 야기시킨다.
DOC/HWP


서식이 없이 텍스트에 대한 문자 코드(유니코드, ANSI, UTF-8, KS X 1005-1등)만 저장
하는 형식으로 메모장이 대표적으로 이러한 형식을 사용하고 있다.
DOC은 MS Word에서 사용하며, HWP는 한글과컴퓨터사의 ‘한/글’에서 사용하는 문서 저
장 형식이다. HWP는 대부분의 Windows용 문서 편집기들이 완성형 한글코드 체계를 사
용하는 것과는 달리 조합형 한글코드 체계를 사용하고 있다.
PDF

PDF(Portable Document Format)는 Adobe사가 개발한 문서 형식으로 Acrobat Reader
라는 프로그램을 통해 읽을 수 있다. 이 형식은 각기 다른 운영체제(Unix, Windows, Mac
OS 등)에서 작성된 문서라도 모두 똑같은 형태의 문서를 제공하기 때문에, 인터넷에서 문
서를 교류하기 위해 많이 사용되고 있다.
24/26
마크업 텍스트
 마크업(Markup) 문서를 만들기 위해서는 PostScript 언어와
HTML(Hypertext Markup Language) 언어가 사용되고 있다.
다음 표는 이들을 사용하여 작성된 간단한 마크업 텍스트를
보여 주고 있다.
25/26
맺는말
 Unicode의 최대의 수혜자는 소프트웨어 절대 강국인 미국이다.
Unicode가 나오기 전에는 영문판 소프트웨어가 한글화 되기 위
해 보통 6개월 정도의 시간이 소요 되었다. 그래서 미국에서 최
신 버전이 나오면 6개월쯤 뒤에 국내에 한글판이 출시되었던 것
이다.
 그러나 Unicode가 사용된 소프트웨어에서는 프로그램 소스
(source)에서 수정해야 할 필요가 거의 없이 수행 프로그램
(.EXE, DLL)을 가지고 스트링(string) 치환 연산에 의해 영어 표
현을 한글로 바꾸어 줄 수 있다.
 폰트는 80년대 후반까지 매우 활발하게 연구가 진행되고 폰트
개발이 한창이었다. 그러나 이 또한 충분한 형태의 폰트가 제작
되어 이에 대한 논의도 일단락 되었다고 할 수 있다.
 텍스트 표현에서 아직 미흡한 부분은 텍스트 파일간의 호환성
문제이다. 현재 ‘한/글’과 MS Word간에 문서를 완전하게 교환
할 수 없다. 이러한 문제는 기본적으로 두 개의 편집기를 어느
정도 다룰 줄 알아야 한다는 부담을 사용자에게 안겨 주고 있다.
26/26