12장 MPEG 비디오 부호화 Ⅱ - MPEG

Download Report

Transcript 12장 MPEG 비디오 부호화 Ⅱ - MPEG

12장 MPEG 비디오 부호화 Ⅱ
- MPEG-4, 7과 그 이후
12.1
12.2
12.3
12.4
12.5
12.6
12.7
1
MPEG-4의 개요
MPEG-4의 객체지향 비주얼 부호화
MPEG-4의 합성 객체 부호화
MPEG-4 객체 유형, 프로파일 및 레벨
MPEG-4 Part10/H.264
MPEG-7
MPEG-21
멀티미디어시스템
2010-2학기
12.1 MPEG-4의 개요


MPEG-4: 더 새로운 표준. 압축 외에도, 사용자 상호
작용에 큰 관심을 가짐.
MPEG-4는 새로운 객체지향 부호화(object-based
coding)를 채택함으로써 이전 표준과는 다름:
ᅳ
ᅳ

2
고 압축률을 제공할 뿐만 아니라, 또한 디지털 비디오 합성, 조
작, 인덱싱, 검색에 유리.
그림 12.1은 MPEG-4 비디오가 비주얼 객체에 대해 간단한 연
산에 의하여 어떻게 합성되고 조작되는지를 설명.
MPEG-4 비디오를 위한 비트율은 이제 5kbps에서
10Mbps까지 넓은 범위를 포함.
멀티미디어시스템
2010-2학기
그림 12.1: MPEG-4 비디오의 합성과 조작
3
멀티미디어시스템
2010-2학기
MPEG-4의 개요(계속)
MPEG-4(그림 12.2(b))는 완전히 새로운 표준:

(a) 원하는 오디오 비주얼 장면을 만들기 위해 미디어 객체를
합성.
(b) 서비스의 질(QoS: Quality of Service)을 보장하면서 전송하
기 위해 미디어 데이터의 실체를 위한 비트스트림을 다중
화하고 동기화함.
(c) 수신측에서 오디오비주얼 장면과 상호작용 ᅳ 오디오 및
비디오 압축을 위해 진보된 부호화 모듈과 알고리즘의 툴
박스를 제공.
4
멀티미디어시스템
2010-2학기
그림 12.2: MPEG 표준들의 상호작용 비교: (a) MPEG-1
과 2의 기준 모델(점선으로 표시된 상호작용은 MPEG-2
에 의해서만 제공); (b) MPEG-4 기준 모델
5
멀티미디어시스템
2010-2학기
MPEG-4의 개요(계속)

6
MPEG-4 비주얼 비트스트림의 계층적 구조는 아주 비
디오 객체 지향적이므로, MPEG-1과 MPEG-2의 그것과
는 매우 다름.
그림 12.3: MPEG-4 비주얼 비트스트림에서 장면의
비디오 객체 지향적인
계층적2010-2학기
기술
멀티미디어시스템
MPEG-4의 개요(계속)
1. 비디오 객체 시퀀스(VS) ᅳ 2차원 또는 3차원, 자연적 또는 합성인
객체를 포함하는 완전한 MPEG-4 비주얼 장면을 전달.
2. 비디오 객체(VO) ᅳ 장면의 배경 또는 객체에 해당되는 임의의 (직
사각형이 아닌) 형태가 될 수 있는 장면내의 특정한 객체.
3. 비디오 객체 계층(VOL) ᅳ (다중 계층의) 스케일러블 부호화를 지
원하는 방법에 용이. 한 비디오 객체(VO)는 스케일러블 부호화에
서 여러 개의 비디오 객체 계층들 (VOLs)을 가질 수 있고, 스케일
러블 부호화가 아닌 경우에는 단일의 비디오 객체 계층(VOL)을
가짐.
4. 비디오 객체 평면의 그룹(GOV) ᅳ 비디오 객체 평면들이 함께 그
룹화 되어 있음.(단계는 선택적임)
5. 비디오 객체 평면(VOP) ᅳ 특정한 순간에서 비디오 객체의 스냅사
진.
7
멀티미디어시스템
2010-2학기
12.2 MPEG-4의 객체지향 비주얼 부호화
VOP 기반 부호화 대 프레임 기반 부호화



8
MPEG-1 과 MPEG-2는 VOP 개념을 지원하지 않음. 따라
서, 그들의 부호화 방법은 프레임-기반(frame-based)
으로 일컬어짐.(또한, 블럭-기반 부호화(blocks-based
coding)로 알려져 있음)
그림 12.4(c)는 블럭-기반 부호화를 위해 두 가능한 매
치가 작은 예측 오차를 야기하는 하나의 가능한 예를
실행.
그림 12.4(d)는 각각의 VOP가 임의의 형상이고, 이상적
으로 현실의 객체 움직임과 일치하는 유일한 움직임 벡
터를 얻는 것을 보여줌.
멀티미디어시스템
2010-2학기
그림 12.4: 블록 기반 부호화와 객체 지향 부호화의 비교
9
멀티미디어시스템
2010-2학기
VOP 기반 부호화

또한 MPEG-4 VOP 기반 부호화도 움직임 보상 기술을
이용:



프레임내 부호화된 VOP는 I-VOP로 불림.
프레임간 부호화된 VOP들은 만약 순방향 예측만이 이
용되면 P-VOPs로 불리고, 만약 양방향 예측이 이용되면
B-VOPs로 불림.
VOP들에 대한 새롭게 나타난 어려운 점: 임의의 형상을
가진다는 것인데,VOP의 질감뿐만 아니라 형상 정보도
부호화되어야 함.
주목: 여기서 질감은 실질적으로 VOP내에서 최소의 회
색도(또는 색도)값인 비주얼 내용을 언급함.
10
멀티미디어시스템
2010-2학기
VOP 기반 움직임 보상(MC)

MPEG-4에서 움직임 보상 기반 VOP 부호화는 역시 세 단계
를 포함:
(a) 움직임 예측
(b) 움직임 보상 기반 예측
(c) 예측 오차의 부호화


현재(목표) VOP의 VOP내 화소만이 움직임 보상에서 매칭
되기 위해 고려됨.
움직임 보상을 쉽게 하기 위해, 각 VOP는 많은 매크로블럭
들(MBs)로 나눔. 매크로블럭들은 휘도 영상에서 16×16과
색도 영상에서 8×8이 기본값.
11
멀티미디어시스템
2010-2학기

MPEG-4는 각각의 VOP를 위한 직사각형의 경계 상자를 정
의.(자세한 것은 그림 12.5를 참조)

완전하게 VOP내에 있는 매크로블럭은 내부 매크로블럭
(Interior Macroblocks)으로 불림.
VOP의 경계에 걸쳐있는 매크로블럭은 경계 매크로블럭
(Boundary Macroblocks)으로 불림.

목표 VOP에서 모든 화소가 매칭되는 것을 돕고 변환 부호화
(예, DCT)에서 직사각형 블럭의 강제적인 요구사항을 맞추
기 위해 채워 넣기의 전처리 단계는 움직임 예측에 앞서 기
준 VOP들을 적용함.
주목: 채워 넣기는 기준 VOP에서만 일어남.

12
움직임 보상의 첫 번째 두 단계: 채워넣기와 움직임 벡터 부
호화
멀티미디어시스템
2010-2학기
그림 12.5: VOP의 경계 상자와 경계 매크로블럭
13
멀티미디어시스템
2010-2학기
I. 채워 넣기

기준 VOP에서 모든 경계 매크로블럭들을 위해, 수평
반복 채워 넣기가 먼저 수행되고 수직 반복 채워 넣기
가 뒤따름.
그림 12.6: MPEG-4에서 기준 VOP들을 위한 채워 넣기 순서

14
그 뒤에,VOP의 밖에 있지만 하나 이상의 경계 매크로
블럭들에 이웃한 모든 외부 매크로블럭(Exterior
Macroblocks)들에 대해 확장 채워 넣기가 적용.
멀티미디어시스템
2010-2학기
알고리즘 12.1 수평 반복 채워 넣기:

15
다음의 수직 반복 채워 넣기 알고리즘은 유사한 방법으
로 실행.
멀티미디어시스템 2010-2학기
예제 12.1: 반복 채워 넣기
그림 12.7: 기준 VOP의 경계 매크로블럭에서 반복 채워
넣기의 예: (a) VOP내의 원 화소, (b) 수평 반복 채워 넣
기 후, (c) 뒤따르는 수직 반복 채워 넣기.
16
멀티미디어시스템
2010-2학기
II. 움직임 벡터 부호화
• C(x+k, y+l)는 목표 VOP내 매크로블럭의 화소로 두고,
R(x+i+k, y+j+l)은 기준 VOP내 매크로블럭의 화소로 두
자.
• 두 매크로블럭 사이의 차분을 측정하기 위한 절대 차
분의 합(SAD)은 다음과 같이 정의될 수 있음:
N ᅳ 매크로블럭의 크기. C(p, q)가 목표 VOP내의 화소일 때 Map(p, q) = 1
이고, 그렇지 않으면 Map(p, q) = 0 임.
• 최소 SAD를 주는 벡터(i, j)가 움직임 벡터 MV(u, v)로
채택됨:
17
p ᅳ u와 v를 위해 최대로 허용할 수 있는 크기.
멀티미디어시스템
2010-2학기
질감 부호화


질감은 VOP 내 회색도(또는 색도) 변화와 또는 패턴을
지칭한다.
MPEG-4에서 질감 부호화는 다음과 같은 기반으로 할
수 있음:


DCT 혹은
형태 적응적인 DCT(SA-DCT)
I. DCT 기반 질감 부호화


18
I-VOP에서 VOP의 각 매크로블럭에서 화소의 회색도 값
은 JPEG에서 수행되는 것과 유사하게 DCT와 뒷따르는
VLC를 이용하여 바로 부호화됨.
P-VOP 또는 B-VOP에서, 움직임 보상 기반 부호화를 이
용. ᅳ 그것은 DCT와 VLC에
보내지는 예측 오차임.
멀티미디어시스템 2010-2학기

내부 매크로블럭들을 위한 부호화는:



각 매크로블럭에서 6개의 8×8블럭들로부터 예측 오차
는 전형적인 움직임 예측 단계 뒤에 얻어짐.
경계 매크로블럭들을 위한 부호화는:

19
각 매크로블럭은 휘도 VOP에서 16×16이고, 색도 VOP에
서 8×8임.

VOP밖의 목표 VOP에서 경계 매크로블럭의 부분을 위
해, 이상적으로 예측 오차는 VOP안에서 영에 가깝기 때
문에 영이 DCT에게 보내진 블럭에 채워짐.
움직임 보상 후에, 목표 VOP내의
질감2010-2학기
예측 오차를 얻음.
멀티미디어시스템
II. 경계 매크로블럭들을 위한 형상 적응적
인 DCT(SA-DCT) 기반 부호화
• 형태 적응적인 DCT(SA-DCT)는 경계 매크로블럭들을
위한 또 다른 질감 부호화 방법.
• 그것의 효율성 때문에, SA-DCT는 MPEG-4 버전 2에서
경계 매크로블럭 부호화를 위해 채택.
• 그것은 1차원 DCT-N 변환과 그것의 역변환 IDCT-N을
사용:
– 1차원 DCT-N:
– 1차원 IDCT-N:
20
멀티미디어시스템
2010-2학기


21
SA-DCT는 2차원 DCT이고 그것은 1차원 DCT-N의 두
번 반복을 통해서 분리 가능한 2차원 변환으로 계산됨.
그림 12.8은 형상 적응적인 DCT(SA-DCT)를 이용하여
경계 매크로블럭을 위한 질감 부호화 과정을 설명함.
멀티미디어시스템
2010-2학기
22
그림 12.8: 형상 적응적인 DCT(SA-DCT)를 이용한
경계 매크로블럭들을
위한 질감2010-2학기
부호화
멀티미디어시스템
형상 부호화




MPEG-4는 이진(binary)과 회색도(gray scale)의 두 가지
형태의 형상 정보를 지원.
이진 형상 정보는 VOP의 직사각형 경계 상자와 같은 크기
의 이진 맵(또한 이진 알파맵으로 알려진) 형태를 가질 수
있음.
비트맵에서 1(불투명) 또는 0(투명)의 값은 화소가 VOP의
안인지 밖인지를 나타냄.
회색도 형상 정보는 실제적으로 0(완전하게 투명)부터
255(불투명)까지 범위의 회색 값을 갖는 형상 투명도로 참
조.
23
멀티미디어시스템
2010-2학기
I. 이진 형상 부호화



BABs(이진 알파 블록: Binary Alpha Blocks): 이진 알파 맵
을 더 효율적으로 부호화하기 위해, 그 맵은 16×16 블
럭으로 나누어짐.
경계 BABs는 윤곽선을 포함하고 따라서 VOP를 위한 형
상 정보를 포함. ᅳ 이진 형상 부호화의 대상이 됨.
두 가지 비트맵 기반 알고리즘:
(a) 수정된 수정된 READ(MMR: Modified Modified
READ)
(b) 내용-기반 산술 부호화(CAE: Context-based
Arithmetic Encoding)
24
멀티미디어시스템
2010-2학기
수정된 수정된 READ(MMR)


MMR은 기본적으로 상대적 요소 주소 명명(READ:
Relative Element Address Designate) 알고리즘의 단순화
부류.
READ 알고리즘은 이전과 현재 라인에서 다섯 화소 위치를
확인함으로써 시작:





25
a0: 부호화기와 복호화기 모두에게 알려진 마지막 화소 값;
a1: a0 오른쪽으로의 전이 화소;
a2: a2 오른쪽으로의 두 번째 전이 화소;
b1: 이전 부호화된 라인에서 색이 a0에 반대인 첫 번째 전이
화소;
b2: 이전 부호화된 라인상에서 b1 오른쪽으로의 첫 번째 전
이 화소.
멀티미디어시스템
2010-2학기
수정된 수정된 READ(MMR)(계속)

READ 알고리즘은 이 화소들의 상대적인 위치를 검사
함으로써 동작:


언제든지, 부호화기와 복호화기 모두 a0, b1, b2의 위치를
아는 반면에 a1과 a2의 위치는 부호화기만 알 수 있음.
세 가지 부호화 모드가 이용:
1. 만약 이전 라인과 현재 라인의 런-길이가 유사하다면, a1과 b1 사이
의 거리는 a0와 a1 사이의 거리보다 훨씬 더 작아야 함. 수직모드는
a1 - b1으로 현재 런-길이를 부호화함.
2. 만약 이전 라인이 유사한 런-길이를 갖지 않으면, 현재 런-길이는 1
차원 런-길이 부호화를 이용해서 부호화함. ᅳ 수평모드.
26
3. 만약 a0 ≤ b1 < b2 < a1 이면, 경로 모드에 있다는 것을 가리키는 부호
어(codeword)를 단순히 전송하고 b2 아래의 위치로 a0를 나아가게
멀티미디어시스템 2010-2학기
하고 부호화 과정을 계속함.

실제 구현을 위해 READ 알고리즘을 일부 간략화 할 수 있
음.



27
예를 들어, 만약 ∥a1 - b1∥ < 3 이면, 그것은 수직 모드를 적용
할 수 있다는 것을 나타내기에 충분함.
또한 오류 전파를 막기 위해, k개의 라인마다 일반적인 런길이 부호화를 이용해서 부호화된 라인이 적어도 하나는
포함하도록 k-인자가 정의됨.
이러한 수정은 G3표준에서 사용된 수정된 READ (Modified
READ) 알고리즘을 구성. MMR(수정된 수정된 READ)알고리
즘은 단순히 k-인자에 의해 강요된 제한을 제거함.
멀티미디어시스템
2010-2학기
CAE(내용-기반 산술 부호화)
그림 12.9: 경계 BAB(이진 알파 블럭)내 화소를 위한
CAE의 내용. (a) 인트라-CAE, (b) 인터-CAE.
28
멀티미디어시스템
2010-2학기
CAE(계속)

어떤 특정한 내용(예, 모두 0이거나 1)이 다른 것보다 더
빈번히 나타남.
일부의 이전 통계치를 가지고 이웃 화소의 수를 k라고
할 때, 각각 2k개 내용의 일어날 확률을 나타내기 위해
확률표를 만들 수 있음.


29
각 화소는 그것의 내용을 위한 확률 값을 찾기 위하여
표를 참조할 수 있음. CAE는 단순히 각 BAB에서 16×16
화소를 순차적으로 주사하고 궁극적으로 그 BAB를 위
한 단일의 부동소수점을 가지는 수를 유도하기 위해 산
술 부호화를 적용.
인터-CAE 모드는 인트라-CAE의 자연스러운 확장: 그것
은 목표와 참조 알파맵 모두를 포함.
멀티미디어시스템
2010-2학기
II. 회색도 형상 부호화


여기서 회색도(gray-scale)는 질감이 아닌 형상의 투명도
(transparency)를 기술하기 위해 사용.
MPEG-4에서 회색도 형상 부호화(gray-scale shape coding)
는 위에서 기술한 질감 부호화와 같은 기술을 이용.


30
알파 맵과 블럭 기반 움직임 보상을 이용하고, DCT에 의한
예측 오차를 부호화함.
모든 화소가 VOP내에 있지 않기 때문에 경계 매크로블럭
은 이전처럼 채워 넣기가 필요.
멀티미디어시스템
2010-2학기
정적 질감 부호화

MPEG-4는 정적 객체의 질감을 위한 웨이블릿 부호화
를 이용.

MPEG-4 정적 질감 부호화에서 서브밴드 부호화는 다
음과 같은 방법으로 실행됨:


31

가장 낮은 주파수를 갖는 서브밴드는 DPCM을 이용하
여 부호화됨. 각 계수의 예측은 세 이웃을 기반으로 함.

다음 서브밴드의 부호화는 다중스케일 제로 트리 웨이
블릿 부호화 방법을 기반으로 함.
다중 스케일 제로 트리는 모든 계수의 위치를 더 잘 추
적하기 위하여 가장 낮은 주파수 서브밴드의 각 계수를
위한 부모-자식 관계 트리를 가짐.
또한 양자화의 정도는 데이트율에 영향을 미침.
멀티미디어시스템
2010-2학기
스프라이트 부호화


스프라이트(sprite)는 더 큰 그래픽 영상 또는 영상의
집합 내에서 자유롭게 주위를 움직일 수 있는 그래픽
영상.
배경으로부터 전경 객체를 구분하기 위해, 우리는 스프
라이트 파노라마(sprite panorama)의 개념을 소개: 한
비디오 프레임의 순서에 걸쳐있는 정적 배경을 기술하
는 정지 영상.



32
큰 스프라이트 파노라마 영상은 비디오 순서의 시작에
서 오직 한 번만 부호화되어 복호화기로 보내질 수 있
음.
복호화기가 개별적으로 부호화된 전경 객체와 지금까
지의 카메라 움직임을 기술하는 매개변수를 받을 때, 그
것은 효율적인 방법으로 장면을 재구성 할 수 있음.
그림 12.10은 비디오 프레임의 순서로부터 꿰매진 파노
멀티미디어시스템
라마 영상인 스프라이트를
보여줌. 2010-2학기
그림 12.10: 스프라이트 부호화. (a) 배경의 스프라이트
파노라마 영상, (b) 블루스크린 영상내의 전경 객체(피리
부는 사람) (c) 합성된 비디오 장면
*
33
Simon Fraser University Pipe Band에서
제공한 피리
부는 사람 영상
멀티미디어시스템
2010-2학기
전역 움직임 보상(GMC)

“전역(Global)” - 카메라 움직임으로 인한 전체적인 변화
(팬(pan), 틸트(tilt), 회전(rotation), 줌(zoom))
GMC(Global Motion Compensation)가 없는 이것은 아주 많
은 수의 중요한 움직임 벡터를 가져오는 원인이 됨.

34
GMC 알고리즘 내의 네 가지 주요 구성요소:

전역 움직임 예측

와핑(warping)과 블렌딩(blending)

움직임 궤도 부호화

LMC(지역 움직임 보상: Local Motion Compensation) 또는
GMC의 선택
멀티미디어시스템
2010-2학기


전역 움직임은 스프라이트 S와 전역 움직임 보상된 영
상 I' 사이의 차분 제곱의 합을 최소화 함으로써 계산
됨:
전체 영상에 걸친 움직임은 다음과 같이 정의한 여덟
개의 매개변수를 사용한 원근움직임 모델에 의해 매개
변수화 됨:
12.3 MPEG-4의 합성 객체 부호화
2차원 매쉬 객체 부호화

2차원 매쉬(2D mesh): 다각형 조각을 이용한 2차원 평
면 영역의 모자이크(또는 분할):





36
다각형의 정점들은 매쉬의 노드(node)라고 부름.
가장 대표적인 매쉬는 모든 다각형이 삼각형인 삼각형
매쉬(triangular mesh).
MPEG-4 표면은 두 가지 형태의 2차원 매쉬를 이용 : 균
일 매쉬(unform mesh)와 Delaunay 매쉬
2차원 매쉬 객체 부호화는 간결. 매쉬의 모든 좌표 값은
반화소 정밀도로 부호화됨.
각각의 2차원 매쉬는 매쉬 객체 평면(MOP: mesh object
plane)으로 여겨짐.
멀티미디어시스템 2010-2학기
그림 12.11: 2차원 매쉬 객체 평면(MOP) 부호화 과정
37
멀티미디어시스템
2010-2학기
I. 2차원 매쉬 기하학 부호화

MPEG-4는 다른 3각 측량 구조를 가지는 네 가지 형태
의 균일 매쉬를 허용.
그림 12.12: 균일한 매쉬의 4가지 유형
38
멀티미디어시스템
2010-2학기


정의: 만약 D가 Delaunay 3각 측량이라면, 그것 중의 어
떤 삼각형 tn = (Pi, Pj, Pk)∈D는 tn의 외접원이 그것의 내
부에 어떤 다른 노드 점 Pl을 포함하지 않는다는 속성을
만족함.
비디오 객체를 위한 Delaunay 매쉬는 다음의 단계에서
얻을 수 있음:
1. 매쉬의 경계 노드를 선택함: 다각형은 객체의 경계를
근사화하는데 이용.
2. 내부 노드를 선택함: 객체 경계 내에 있는 특징점(예, 가
장자리 점 또는 모서리)은 매쉬를 위한 내부 노드로 선
택되어짐.
39
3. Delaunay 3각 측량을 실행함: 제한된 Delaunay 3각 측
멀티미디어시스템
2010-2학기
량은 다각형 경계를 제한으로
사용하여
경계와 내부
제한된 Delaunay 3각 측량




내부 가장자리는 새로운 삼각형을 형성하기 위해 먼
저 더해짐.
그 알고리즘은 그것이 국부적으로 Delaunay인 것을 확
신하기 위해 각각 내부의 가장자리를 검사할 것임.
가장자리 jk 를 공유하는 두 삼각형 (Pi, Pj, Pk)와 (Pj, Pk, Pl)
이 주어지고, 만약 그것의 내부에서 (Pi, Pj, Pk)가 Pl를 포
함하거나 (Pj, Pk, Pl)이 Pi를 포함한다면, 는 국부적으로
jk
Delaunay가 아니고 새로운 가장자리 에 의해 교체될il
것임.
만약 Pl이 정확하게 (Pi, Pj, Pk)의 외접원에 있게 된다면
(따라서 Pi 또한 정확하게 (Pj, Pk, Pl)의 외접원에 있게 된
다면), Pi또는 Pl이 네 개의 노드 사이에 가장 큰 x 좌표
를 가질 때만 는 국부적으로
Delaunay로 간주됨.
jk
그림 12.13: Delaunay 매쉬: (a) 경계 노드(P0 ~ P7)과
내부 노드(P8 ~ P13). (b) 제한된 Delaunay 3각 측량에
의해 얻어진 삼각형 매쉬.

처음 위치 (x0, y0)를 제외하고, 다음의 모든 좌표는 차분
이 부호화됨. ᅳ 즉, n ≥ 1일 때,
그 뒤에 dxn, dyn는 가변 길이 부호화됨.
II. 2차원 매쉬 움직임 부호화


새로운 매쉬 구조는 오직 인트라-프레임에서만 생성
될 수 있고, 그것의 3각 위상 기하학은 다음의 인터프레임에서 변경되지 않을 것임. ᅳ 2차원 매쉬 움직
임 예측에서 1대 1사상을 시행함.
어떤 MOP 삼각형 (Pi, Pj, Pk)을 위해, 만약 Pi와 Pj를 위
한 움직임 벡터가 MVi와 MVj로 알려지면, 예측 Predk
은 반화소 정밀도로 반올림되어 Pk의 움직임 벡터를
위해 생성될 것임:
예측 오차 ek는 다음과 같이 부호화됨:
그림 12.14: 2차원 매쉬 움직임 부호화를 위한 MOP
삼각형의 폭 우선 순서
43
멀티미디어시스템
2010-2학기
그림 12.15: 2차원 객체 애니메이션을 위한 매쉬
기반 질감 매핑
44
멀티미디어시스템
2010-2학기
12.3.2 3차원 모델 기반 부호화



비디오에서 사람 얼굴과 몸의 빈번한 출현 때문에, MPEG-4
는 얼굴 객체(face objects)와 몸 객체(body objects)를 위
한 특별한 3차원 모델을 정의함.
이러한 새로운 비디오 객체를 위한 잠재적인 몇 가지의 응
용분야는 원격 회의, 인간-컴퓨터 인터페이스, 게임, 전자상
거래를 포함.
얼굴 또는 몸 객체의 표면이 명암(shaded)을 나타내거나 질
감-사상(texture-mapped)될 수 있도록 MPEG-4는 와이어프레
임(wireframes)의 범위를 뛰어 넘음.
45
멀티미디어시스템
2010-2학기
I. 얼굴 객체 부호화와 애니메이션




46
MPEG-4는 VRML 컨소시엄에 의해 개발된 일반 기본 얼
굴 모델을 채택.
얼굴 애니메이션 매개변수(FAPs: Face Animation
Parameters)는 원하는 애니메이션(원본 “무표정” 얼굴
로부터 유도)을 이루기 위해 기술될 수 있음.
게다가, 얼굴 정의 매개변수(FDPs: Face Definition
Parameters)는 개개의 얼굴을 더 잘 묘사하기 위해 기
술될 수 있음.
그림 12.16은 FDPs를 위한 특징 점을 보여줌. 애니메이
션에 의해 영향을 받을 수 있는 특징 점(FAPs)은 꽉 찬
원으로 보여지고 영향을 받지 않는 다른 것들은 빈 원
으로 보여짐.
멀티미디어시스템
2010-2학기
47
그림 12.16: 얼굴 정의 매개변수를 위한 특징 포인트
(FDPs). (치아(teeth)와 혀(tongue)를 위한 특징 포
인트는 보이지
않음.) 2010-2학기
멀티미디어시스템
II. 몸 객체 부호화와 애니메이션


MPEG-4 버전 2는 얼굴 객체로의 자연스러운 확장인 몸 객
체(body objects)를 도입.
VRML 컨소시엄내의 휴머노이드 애니메이션(H-Anim)그룹
과 작업하여, 기본 자세를 가지는 일반적인 가상 인간 몸을
채택.


48
기본자세는 정면을 향하는 발, 손바닥이 안으로 향하고 옆
쪽에 팔을 두고 서 있는 자세.
296 몸 애니메이션 매개변수(BAPs: Body Animation
Parmeters)가 있음. MPEG-4에 순응하는 어떤 일반적인 몸
에 적용될 때, 그것들은 같은 애니메이션을 생성할 것임.
멀티미디어시스템
2010-2학기




49
상당히 많은 BAPs는 몸의 다른 부분을 연결하는 관절
부분을 기술: 척추, 어깨, 쇄골, 팔꿈치, 손목, 손가락, 엉덩
이, 무릎, 발목, 발가락 ᅳ 각각의 손에만 25개 정도의 자
유도이고, 몸에는 186개 정도의 자유도를 가짐.
몇몇 몸의 움직임은 세부적인 다중 등급 내에서 기술할
수 있음.
특정한 몸을 위해, 몸 정의 매개변수(BDPs: Body
Definition Parameters)는 몸 차원, 몸 표면 기하학, 그
리고 선택적으로 질감을 위해 명시될 수 있음.
BAPs의 부호화는 FAPs의 그것과 유사함: 양자화와 예측
부호화가 이용되고, 예측 오차는 산술 부호화에 의해
멀티미디어시스템 2010-2학기
더욱 압축됨.
12.4 MPEG-4 객체 유형, 프로파일 및 레벨

MPEG-4에서 프로파일(Profiles)과 레벨(Levels)의 표준화
는 두 가지 주요 목적을 가짐:
(a) 구현된 시스템 간의 상호 동작성을 보장
(b) 표준에 대한 순응 시험을 허용


50
MPEG-4는 비주얼 프로파일과 오디오 프로파일 뿐만
아니라 그것의 시스템 부분에서 그래픽 프로파일, 장면
묘사 프로파일, 객체 묘사 프로파일도 명시.
객체 유형(object type)은 비디오 객체를 생성하고 장
면을 결합하는 방법을 만들기 위해 필요한 도구들을 정
의하여 소개함.
멀티미디어시스템
2010-2학기
표 12.1: MPEG-4 자연적인 비주얼 객체
유형을 위한 도구들
51
멀티미디어시스템
2010-2학기
표 12.2: MPEG-4 자연적인 비주얼 객체
유형과 프로파일

52
예를 들면 “메인 프로파일”은 오직 “Simple”, “Core”,
“Main”, “Scalable Still Texture”의 객체 유형을 지원함.
멀티미디어시스템
2010-2학기
표 12.3: Simple, Core, Main 비주얼
프로파일에서의 MPEG-4 레벨
53
멀티미디어시스템
2010-2학기
12.5 MPEG-4 Part 10/H.264




54
이전에 “H.26L”로 알려진, H.264 비디오 압축 표준은
ISO/IEC MPEG과 ITU-T VCEG의 Joint Video Team (JVT)에
의해 개발.
새로운 표준 기반의 소프트웨어를 이용한 예비 연구는
H.264가 MPEG-2 보다 30∼50% 더 나은 압축을 제공하
고, H.263+와 MPEG-4의 개선된 Simple 프로파일보다
30% 더 나은 압축을 제공한다는 것을 제안.
이 연구의 성과는 실질적으로 두 개의 동일한 표준:
ISO MPEG-4 Part10과 ITU-T H.264.
H.264는 현재 많은 잠재적인 응용에서 고 선명도 TV
(HDTV: High Definition TV) 비디오 내용을 전달하는 유력
한 후보 중에 하나.
멀티미디어시스템
2010-2학기

핵심 특징

VLC 기반 엔트로피 부호화:
두 가지 엔트로피 방법은 가변 길이 엔트로피 복호화기
에서 이용: 단일화된-VLC(UVLC)와 내용 적응적
VLC(CAVLC)

움직임 보상(P-예측):
4×4 블럭 크기(16×16, 16×8, 8×16, 8×8, 8×4, 4×8, 4×4)
까지 트리 구조의 움직임 분할을 이용. 이것은 움직이는
객체의 더욱 정확한 움직임 보상을 허용. 게다가 움직임
벡터는 반화소 또는 4분의 1화소 정확도까지 될 수 있
음.
55

인트라-예측 (I-예측):
멀티미디어시스템
2010-2학기



간단한 정수-정밀도 4×4 DCT와 비선형 단계-크기를 갖
는 양자화 방식을 사용.
루프내 디블럭킹 필터
기준선 프로파일 특징
H.264의 기준인 프로파일은 화상 회의와 같은 실시간
대화 응용을 위해 의도되었음.
그것은 위에서 논의한 H.264의 모든 핵심 부호화 도구
들과 다음의 부가적인 오류복원 도구들을 포함하는데,
IP와 무선 네트워크와 같은 오류가 발생할 경향이 있는
네트워크를 위해 허용함.

56

임의의 슬라이드 순서(ASO)
융통성있는 매크로블럭 멀티미디어시스템
순서(FMO)
2010-2학기

메인 프로파일 특징
방송과 저장 매체와 같은 비저지연 응용을 묘사.
메인 프로파일은 모든 기준선 프로파일 특징(ASO, FMO,
잉여 슬라이스는 제외)에 다음을 추가하여 포함:




57
B 슬라이스
내용 적응적 이진 산술 부호화(CABAC)
가중된 예측
확장 프로파일 특징
확장 프로파일(또는 프로파일 X)은 새로운 비디오 스
트리밍 응용을 위해 디자인. 이 프로파일은 비저지연
특징, 비트스트림 스위칭 특징, 더 나은 오차-복원 도구
들을 허용.
멀티미디어시스템 2010-2학기
12.6 MPEG-7



MPEG-7의 주요 목표는 디지털 도서관과 같은 응용에서 오
디오 비주얼 내용 기반 검색(또는 오디오 비주얼 객체 검
색)의 필요성을 충족시키는 것.
그럼에도 불구하고, 그것은 또한 멀티미디어 데이터의 생
성(내용 창작)과 이용(내용 소비)을 포함하는 어떤 멀티미
디어 응용에 적용할 수 있음.
MPEG-7은 2001년 9월에 멀티미디어 내용 묘사 인터페이
스(Multimedia Content Description Interface)라는 공
식 이름으로 국제 표준이 되었음.
58
멀티미디어시스템
2010-2학기
MPEG-7에 의해 지원되는 응용



MPEG-7은 다양한 멀티미디어 응용을 지원. 그것의 데이터
는 정지 영상, 그래픽, 3차원 모델, 오디오, 음성, 비디오, 합
성 정보(이러한 요소들을 결합하는 방법)를 포함.
MPEG-7 데이터 요소는 텍스트 형식(textual format) 또는 이
진 형식(binary format) 또는 두 가지 모두 표현할 수 있음.
그림 12.17은 MPEG-7표준으로부터 이들을 얻을 수 있는
몇몇 가능한 응용을 설명함.
59
멀티미디어시스템
2010-2학기
그림 12.17: MPEG-7을 이용하여 가능한 응용들
60
멀티미디어시스템
2010-2학기
MPEG-7과 멀티미디어 내용 기술

MPEG-7은 기술자(D), 기술 체계(DS), 기술 정의 언어
(DDL)를 개발함. 다음은 몇 가지 중요한 용어들임:






61
특징 ᅳ 데이터의 특색
기술 ᅳ 구조와 내용의 개념적 정보, 저장과 내용의 사
용 등등을 기술하는 구체적으로 설명된 D와 DS의 집합.
기술자(D) ᅳ 특징의 정의(신택스와 시맨틱스)
기술 체계(DS) ᅳ 구조 및 D 와 DS사이 관계의 명세서
기술 정의 언어(DDL) ᅳ DS와 D를 표현하고 결합하기
위한 구문적 규칙
MPEG-7의 범위는 기술을 위해 D, DS와 DDL을 표준화
하는 것임. 기술을 만들고 소비하는 메커니즘과 처리
멀티미디어시스템 2010-2학기
과정은 MPEG-7의 범위 밖임.
기술자(D: Descriptor)

기술자는 성능, 효율, 크기의 비교를 기반으로 선택. 기
본적인 비주얼 특징을 위한 낮은 레벨 비주얼 기술자는
다음을 포함:

색(Color)

62
색 공간 (a) RGB, (b) YCbCr, (c) HSV(색상, 채도, 명암), (d) HMMD
(HueMaxMinDiff), (e) RGB로부터 3×3 행렬에 의해 유도될 수 있는 3
차원 색 공간, (f) 단색

색 양자화 (a) 선형, (b) 비선형, (c) 참조표

우위 색

스케일러블 색

색 레이아웃

색 구조
멀티미디어시스템
2010-2학기


63
질감(Texture)

동질성의 질감

질감 브라우징

에지 히스토그램
형상(Shape)

영역 기반 형상

윤곽 기반 형상

3차원 형상
멀티미디어시스템
2010-2학기



64
움직임(Motion)

카메라 움직임(그림 12.18을 보라)

객체 움직임 궤도

파라메트릭 객체 움직임

움직임 활동
위치 측정(Localization)

영역 경계 설정자

시공간 경계 설정자
기타(Others)

얼굴 인식
멀티미디어시스템
2010-2학기
그림 12.18: 카메라 움직임: 팬, 틸트, 롤, 돌리, 트랙, 붐
65
멀티미디어시스템
2010-2학기
기술 체계(DS: Description Scheme)

기본적인 요소(Basic Elements)




내용 관리(Content Management)




데이터 타입과 수학적 구조
구성
설계 도구
미디어 기술
창작과 생산 기술
내용 사용 기술
내용 기술(Content Description)
66

구조적 기술
멀티미디어시스템
2010-2학기
예를 들면, 분할 DS는 클래스 객체로서 구현될 수 있음. 그것은 다섯
개의 하위 클래스를 가질 수 있음: 오디오 비주얼 분할 DS, 오디오 분
할 DS, 정지 영역 DS, 움직이는 영역 DS, 비디오 분할 DS. 하위 클래스
DS들은 순환적인 그 자신의 하위 클래스를 가짐.
개념적 기술
항해와 접근(Navigation and Access)
 요약
 분할과 분해
 내용의 변화
내용 구성(Content Organization)
 수집물
 모델
사용자 상호 작용(User Interaction)
멀티미디어시스템 2010-2학기
 사용자 선호




67
그림 12.19: MPEG-7 비디오 분할
68
멀티미디어시스템
2010-2학기
그림 12.20: 비디오 요약
69
멀티미디어시스템
2010-2학기
기술 정의 언어(DDL)

MPEG-7은 그것의 기술 정의 언어(DDL: Description
Definition Language)로써 초기에 WWW 컨소시엄(W3C)
에 의해 개발된 XML 스키마 언어를 채택함. XML 스키
마 언어는 오디오비주얼 내용을 위해 명확하게 설계되
지 않았기 때문에 몇 가지를 확장했음:




70
배열과 행렬 데이터 유형
오디오, 비디오, 오디오비주얼 발표를 포함하는 다중의
미디어 유형
MimeType, CountryCode, RegionCode,
CurrencyCode, and CharacterSetCode를 위해 열거
된 데이터 유형
D와 DS를 위한 지적 재산권 관리 및 보호(IPMP:
멀티미디어시스템
2010-2학기
Intellectual Property Management
and Protection)
12.7 MPEG-21



최신 표준의 개발인, MPEG-21: 멀티미디어 프레임워
크는 2000년 6월에 시작되어 예정된 2003년에 국제 표
준이 되었음.
MPEG-21의 버전은 서로 다른 공동체에 의해 사용된 넓
은 범위의 네트워크와 장치를 교차하여 멀티미디어 자
원의 손쉽고 증대된 사용을 가능하게 하는 멀티미디어
프레임워크를 정의하기 위함.
MPEG-21에서 7가지 중요한 요소:


71
디지털 항목 선언 ᅳ 디지털 항목을 선언하기 위한 일
률적이고 신축성있는 추상적 개념과 상호 운용 가능한
스키마를 수립하기 위함.
디지털 항목 확인과 기술 ᅳ 원본, 유형 또는 입자 모양
의 관계없이 디지털 항목의 표준화된 확인과 기술을 위
한 프레임 워크를 수립하기 위함.
멀티미디어시스템
2010-2학기





72
내용 관리와 사용 ᅳ 내용의 관리와 사용(탐색, 캐싱, 파
일 보관, 분배 등)을 돕는 인터페이스와 프로토콜을 제
공하기 위함.
지적 재산권 관리와 보호(IPMP) ᅳ 내용이 신뢰성 있
게 관리되고 보호되는 것을 가능하도록 함.
터미널과 네트워크 ᅳ 넓은 범위의 네트워크와 터미널
을 교차해서 서비스의 질(QoS)을 갖는 내용에 상호 운
용 가능하고 손쉬운 접근을 제공하기 위함.
내용 발표 ᅳ MPEG-21의 목표, 즉 “내용을 언제든지 어
느 곳에서든지”를 추구하기 위한 적절한 방법으로 내용
을 표현하기 위함.
이벤트 보고 ᅳ 성능과 대안을 이해하기 위한 이벤트
(사용자 상호작용)를 보고하기
위한 계량법과 인터페이
멀티미디어시스템 2010-2학기
스를 수립하기 위함.