Transcript mm10.

10장
문자와 폰트들
1

10.1 문자 집합

10.2 폰트들
멀티미디어시스템 2014-1학기
텍스트(Text)

이원적인 본질을 가짐.

언어의 시각적 표현(컨텐트)


그래픽 요소(외형)


2
쓰여진 언어를 기호화하기 위한 비트 패턴이 요구됨.
문자의 정확한 모양, 간격 및 배치(활판 인쇄)
각각의 추상 문자(abstract character) 는 많은 다른 형태의
그래픽 표현(graphic representations)을 가질 수 있다.
멀티미디어시스템 2014-1학기
문자 집합

추상 문자는 알파벳(alphabet) 들로 그룹화 된다.


구별되는 기호들의 어떠한 집합도, 쓰여진 언어의 기본이
될 수 있다.
문자 집합(character set)은 알파벳의 문자들(이들의 문
자 레퍼토리(character repertoire))과 비트 패턴의 매핑
이다.

3
이 레퍼토리 내의 각 문자에 대하여, 문자 집합은 코드 값
(code value)을 정의하며, 이는 그 문자의 코드 포인트(code
point)의 집합에 속하게 된다.
멀티미디어시스템 2014-1학기
ASCII


American Standard Code for Information Interchange
각각의 코드 값은 7 비트, 따라서 128 코드 포인트 가
짐.



4
문자 레퍼토리는 단지 95개 문자에 대해서 구성됨. (나머
지 33 개 값은 제어 문자(control characters)로 사용됨)
문자 레퍼토리는 미식 영어에만 적용됨.
ISO 표준 ISO 646 은 나라에 따라 변형된 ASCII 임. (액
센트를 가진 문자, 화폐 기호)
멀티미디어시스템 2014-1학기
8-비트 문자 집합




8 비트를 사용하면, 코드 포인트 수가 2배가 됨.
호환성을 유지하기 위해, 아래 쪽 절반(0–127)은 USASCII 와 동일하게 유지.
코드 포인트 128–255 는 액센트를 가진 글자, 수학 기
호, 기타 구두점 등에 사용됨.
256 코드 포인트는 여전히 모든 언어를 표현하기에는
불충분. 따라서 여전히 여러 변형을 사용해야 함. ('코
드 페이지')
5
멀티미디어시스템 2014-1학기
ISO 8859

8 비트로 확장된 ASCII 와는 호환성이 없으며, 원래는
제조사들에 의해 개발됨.


표준화가 요구됨.
ISO 8859 는 문자 집합의 모임을 정의한 여러 부분
(multi-part) 으로 된 표준임. 각 부분은 관련된 언어들
의 그룹에 적합하도록 정의됨.

6
ISO 8859-1은 ISO-Latin1로 알려져 있으며, 대부분의 서유럽
언어를 포함함.
멀티미디어시스템 2014-1학기
멀티바이트 문자 집합



256 코드 포인트는 표의문자의 알파벳, 또는 동시에
두 가지 이상의 언어를 사용하기에는 불충분 함.
16-비트(2-바이트) 문자 집합은 65,536 코드 포인트를
가지므로 256개의 8-비트 문자 집합을 동시에 가질 수
있음. 24-비트와 32-비트 집합도 이와 같음.
ISO 10646 은 하이퍼큐브 구조로 구성된 256 그룹 (큐
브)을 가짐.각 그룹은 256 면(plane)과 256 행 (row)을
가지며, 각 행은 256개의 문자를 가짐.
7
멀티미디어시스템 2014-1학기
ISO 10646의 구조


각 코드 포인트는 4개의 요소(g, p, r, c) – group, plane,
row, character 로 나타낼 수 있음.
* 는 0–255 사이의 모든 값을 나타내는데 사용하며, 부
분 집합의 요소를 지정하는 경우에도 사용 가능.


8
(0, 0, 0, *) 는 최하위 바이트만 0으로 설정되지 않은 부분
집합을 나타냄.
ISO 10646 에서, (0, 0, 0, *)는 ISO Latin1 과 동일함.
멀티미디어시스템 2014-1학기
유니코드(Unicode)


16-비트 문자 집합은 산업체 컨소시엄에 의해 개발됨.
유니코드는 한글, 한자, 일본어의 모든 문자를 16비트
로 나타내는데 적합한 CJK 합체(consolidation) 를 사용함.


같게 보이는 문자들은, 비록 실제로는 다를지라도, 같은 위
치를 가짐.
ISO 10646 Basic Multilingual Plane (0, 0, *, *) 은 유니코드
와 동일함.(비록, ISO 10646 은 실제로는 CJK 합체의 사
용이 필요 없지만)
9
멀티미디어시스템 2014-1학기
인코딩


코드 값들을 일련의 바이트로 매핑하는 것.
MIME type 에서의 charset 지정은 인코딩과 문자 집
합을 식별함.



ISO 10646 의 명확한 인코딩은 각각의 32-비트 값
에 대해 4 바이트를 사용.(UCS 4)
BMP 에 대한 값은 0 바이트들을 버림.(UCS 2)

10
즉, text/html; charset = ISO-8859-1
UCS 2 는, 따라서, 유니코드와 동일
멀티미디어시스템 2014-1학기
UTF




11
UCS Transformation Formats 은 Unicode (UCS 2) 값들
에 적용될 수 있음.
UTF-8: ASCII 문자들은 그대로 인코딩됨. 127 보다 큰
값은 최상위 비트를 1로 설정하여, 최대 6바이트 까
지의 길이를 가진 스트링으로 인코딩함.
UTF-7 은, UTF-8 을 7-비트 값으로 더 인코딩 하여,
예전 프로토콜의 문제를 없앰.
UTF-16 은 한 쌍의 16-비트 값을 합쳐 단일 32-비트
값으로 만듦. 유니코드를 BMP 이상으로 확장. (15 개
의 면을 추가)
멀티미디어시스템 2014-1학기
폰트

문자의 시각적 표현을 글리프(glyph)라 함.

디스플레이를 위해, 문자들은 글리프로 바뀌어야
함.

글리프를 정렬하고 모은 것을 폰트(font)라 함.

폰트들은 컴퓨터 시스템의 지정된 장소에 저장되
어 있으며, 문서 내에 포함될 수 있다.

12
만약 폰트가 포함되어 있지 않으면, 그 폰트가 설치되어
있지 않은 시스템에서는 문서가 올바르게 디스플레이
되지 못할 수 있다.
멀티미디어시스템 2014-1학기
폰트의 분류


간격: 단일간격(monospaced) (고정된 폭)/ 비례
(proportional)
세리프(Serif): 세리프/ 상(sans)세리프


모양(Shape): 수직형/이탤릭체/기울임


13
세리프는 문자 모양의 끝부분에 작은 획이 추가된 것.
기울임(Slant)은 사면의 효과이며, 이탤릭체는 기울임
을 가진 다른 형태의 글리프를 사용한 것임.
두께(Weight): bold/normal/light
멀티미디어시스템 2014-1학기
폰트의 선택

텍스트 폰트 – 연속적인 텍스트에 적합. (즉, 책이나 기
사의 본문)


읽기 쉽고, 무난해야 함.
디스플레이 폰트 – 짧은 텍스트로 된 독립된 부분에
적합.(즉, 제목이나 슬로건, 표지 등)

14
짧은 메시지로, 시선을 사로 잡는 디자인이 필요.
멀티미디어시스템 2014-1학기
멀티미디어를 위한 폰트

텍스트 폰트는 문제의 소지가 있음.



낮은 해상도의 컴퓨터 디스플레이는 세밀한 부분의 손실
(즉, 가는 세리프)을 야기하고, 글자 형태를 왜곡시킴.
프린트할 때보다 더 큰 크기를 사용하고(상세리프가 좋
다), 낮은 해상도에서 잘 읽혀지도록 설계된 Arial 이나
Verdana 폰트를 사용하는 것이 좋음.
디스플레이 폰트는 연속적인 텍스트의 작은 부분에
더 적합함.
15
멀티미디어시스템 2014-1학기
폰트 측정

단위들

포인트(Point): 1pt = 1/72" = 0.3528mm



정확한 크기의 표준은 없음.
피카(Pica): 1pc = 12pt
폰트의 몸체 크기(body size) 는 특정 문자의 크기
일 필요가 없음.

16
즉, 10pt Times Roman
멀티미디어시스템 2014-1학기
폰트 용어들




바닥선(Baseline) – 문자가 배열된 바탕의 선
레딩(Leading) – 연속된 바닥선 사이의 거리
x-높이 – 바닥선과 소문자 x의 꼭대기까지의 거리
어센더(Ascender)/디센더(descender) – x-높이 이상의 획/
바닥선 보다 더 아래로 내려간 부분.
17
멀티미디어시스템 2014-1학기
18
멀티미디어시스템 2014-1학기
상대적인 단위들



폰트 크기를 상대적으로 표현할 때 사용함.
1 ex = 폰트의 x-높이
1 em = 몸체 크기



전통적으로 대문자 M의 폭
긴 대쉬( — )를 em-대쉬(dash)라 부름(1em 길이)
1 en = 0.5em

19
짧은 대쉬( – )를 en-대쉬 라 부름 (1en 길이)
멀티미디어시스템 2014-1학기
디지털 폰트

글리프는 곧 이미지이므로, 비트맵 또는 벡터(윤곽선)
폰트를 가질 수 있음.


비트맵 폰트는 스케일 하기가 어렵고, 다른 해상도에서 재
현하기 힘듦.
윤곽선 폰트 포맷:



20
포스트스크립트 타입 1(PostScript Type 1)
트루타입(TrueType)
오픈타입(OpenType)
멀티미디어시스템 2014-1학기
윤곽선(Outline) 폰트


타입 1(Type 1)

문자 모양은 Bézier 곡선에 기반을 둠.

폰트에는, 낮은 해상도에서 모양을 향상시키기 위해 렌더
링 프로그램에서 사용되는, 힌트(hint)가 포함될 수 있음.
트루타입(TrueType)

문자 모양은 2차 방정식 곡선에 기반을 둠.

명령어(Instruction) 들에 의해, 서로 다른 해상도에서 문자
를 어떻게 렌더링 할 것인지를 지정함.
21
멀티미디어시스템 2014-1학기
오픈타입(OpenType) 폰트


새로운, 플랫폼에 무관한 포맷으로 타입1과 트루타입
을 통합한 것임.
각 폰트에는 256 개 보다 더 많은 문자를 가짐.



타입 1과 트루타입은 둘 다 256개로 제한됨.
인코딩은 유니코드에 기반함.
합자의 범위 확대, 옛날 숫자기호, 대문자들의 강조 등
을 지원함.
22
멀티미디어시스템 2014-1학기