12장 MPEG 비디오 부호화 Ⅱ - MPEG

Download Report

Transcript 12장 MPEG 비디오 부호화 Ⅱ - MPEG

12장 MPEG 비디오 부호화 Ⅱ
- MPEG-4, 7과 그 이후
12.1
12.2
12.3
12.4
12.5
12.6
12.7
2009-2학기
MPEG-4의 개요
MPEG-4의 객체지향 비주얼 부호화
MPEG-4의 합성 객체 부호화
MPEG-4 객체 유형, 프로파일 및 레벨
MPEG-4 Part10/H.264
MPEG-7
MPEG-21
멀티미디어시스템
1
12.1 MPEG-4의 개요


MPEG-4: 더 새로운 표준. 압축 외에도, 사용자 상호
작용에 큰 관심을 가짐.
MPEG-4는 새로운 객체지향 부호화(object-based
coding)를 채택함으로써 이전 표준과는 다름:
ᅳ
ᅳ

2009-2학기
고 압축률을 제공할 뿐만 아니라, 또한 디지털 비디오 합성, 조
작, 인덱싱, 검색에 유리.
그림 12.1은 MPEG-4 비디오가 비주얼 객체에 대해 간단한 연
산에 의하여 어떻게 합성되고 조작되는지를 설명.
MPEG-4 비디오를 위한 비트율은 이제 5kbps에서
10Mbps까지 넓은 범위를 포함.
멀티미디어시스템
2
그림 12.1: MPEG-4 비디오의 합성과 조작
2009-2학기
멀티미디어시스템
3
MPEG-4의 개요(계속)
• MPEG-4(그림 12.2(b))는 완전히 새로운 표준:
(a) 원하는 오디오 비주얼 장면을 만들기 위해 미디어 객체를 합성.
(b) 서비스의 질(QoS: Quality of Service)을 보장하면서 전송하기 위
해 미디어 데이터의 실체를 위한 비트스트림을 다중화하고 동기
화함.
(c) 수신측에서 오디오비주얼 장면과 상호작용 ᅳ 오디오 및 비디오
압축을 위해 진보된 부호화 모듈과 알고리즘의 툴 박스를 제공.
2009-2학기
멀티미디어시스템
4
그림 12.2: MPEG 표준들의 상호작용 비교: (a) MPEG-1
과 2의 기준 모델(점선으로 표시된 상호작용은 MPEG-2
에 의해서만 제공);
(b) MPEG-4 기준 모델
2009-2학기
멀티미디어시스템
5
MPEG-4의 개요(계속)
• MPEG-4 비주얼 비트스트림의 계층적 구조는 아주
비디오 객체 지향적이므로, MPEG-1과 MPEG-2의
그것과는 매우 다름.
그림 12.3: MPEG-4 비주얼 비트스트림에서 장면의
비디오 객체
지향적인 계층적 기술
2009-2학기
멀티미디어시스템
6
MPEG-4의 개요(계속)
1. 비디오 객체 시퀀스(VS) ᅳ 2차원 또는 3차원, 자연적 또는 합성
인 객체를 포함하는 완전한 MPEG-4 비주얼 장면을 전달.
2. 비디오 객체(VO) ᅳ 장면의 배경 또는 객체에 해당되는 임의의
(직사각형이 아닌) 형태가 될 수 있는 장면내의 특정한 객체.
3. 비디오 객체 계층(VOL) ᅳ (다중 계층의) 스케일러블 부호화를
지원하는 방법에 용이. 한 비디오 객체(VO)는 스케일러블 부호
화에서 여러 개의 비디오 객체 계층들 (VOLs)을 가질 수 있고,
스케일러블 부호화가 아닌 경우에는 단일의 비디오 객체 계층
(VOL)을 가짐.
4. 비디오 객체 평면의 그룹(GOV) ᅳ 비디오 객체 평면들이 함께
그룹화 되어 있음.(단계는 선택적임)
5. 비디오 객체 평면(VOP) ᅳ 특정한 순간에서 비디오 객체의 스냅
사진.
2009-2학기
멀티미디어시스템
7
12.2 MPEG-4의 객체지향 비주얼 부호화
VOP 기반 부호화 대 프레임 기반 부호화
• MPEG-1 과 MPEG-2는 VOP 개념을 지원하지 않음.
따라서, 그들의 부호화 방법은 프레임-기반(framebased)으로 일컬어짐.(또한, 블럭-기반 부호화
(blocks-based coding)로 알려져 있음)
• 그림 12.4(c)는 블럭-기반 부호화를 위해 두 가능한
매치가 작은 예측 오차를 야기하는 하나의 가능한 예
를 실행.
• 그림 12.4(d)는 각각의 VOP가 임의의 형상이고, 이상
적으로 현실의 객체 움직임과 일치하는 유일한 움직
임 벡터를 얻는 것을 보여줌.
2009-2학기
멀티미디어시스템
8
그림 12.4: 블록 기반 부호화와 객체 지향 부호화의 비교
2009-2학기
멀티미디어시스템
9
VOP 기반 부호화
• 또한 MPEG-4 VOP 기반 부호화도 움직임 보상 기술
을 이용:
– 프레임내 부호화된 VOP는 I-VOP로 불림.
– 프레임간 부호화된 VOP들은 만약 순방향 예측만이 이용되
면 P-VOPs로 불리고, 만약 양방향 예측이 이용되면 B-VOPs
로 불림.
• VOP들에 대한 새롭게 나타난 어려운 점: 임의의 형상
을 가진다는 것인데, VOP의 질감뿐만 아니라 형상 정
보도 부호화되어야 함.
주목: 여기서 질감은 실질적으로 VOP내에서 최소의
회색도(또는 색도)값인 비주얼 내용을 언급함.
2009-2학기
멀티미디어시스템
10
VOP 기반 움직임 보상(MC)
• MPEG-4에서 움직임 보상 기반 VOP 부호화는 역시 세
단계를 포함:
(a) 움직임 예측
(b) 움직임 보상 기반 예측
(c) 예측 오차의 부호화
• 현재(목표) VOP의 VOP내 화소만이 움직임 보상에서 매
칭되기 위해 고려됨.
• 움직임 보상을 쉽게 하기 위해, 각 VOP는 많은 매크로블
럭들(MBs)로 나눔. 매크로블럭들은 휘도 영상에서
16×16과 색도 영상에서 8×8이 기본값.
• 움직임 보상의 첫 번째 두 단계: 채워넣기와 움직임 벡터
부호화
2009-2학기
멀티미디어시스템
11
• MPEG-4는 각각의 VOP를 위한 직사각형의 경계 상
자를 정의.(자세한 것은 그림 12.5를 참조)
• 완전하게 VOP내에 있는 매크로블럭은 내부 매크로블
럭(Interior Macroblocks)으로 불림.
VOP의 경계에 걸쳐있는 매크로블럭은 경계 매크로블
럭(Boundary Macroblocks)으로 불림.
• 목표 VOP에서 모든 화소가 매칭되는 것을 돕고 변환
부호화(예, DCT)에서 직사각형 블럭의 강제적인 요구
사항을 맞추기 위해 채워 넣기의 전처리 단계는 움직
임 예측에 앞서 기준 VOP들을 적용함.
주목: 채워 넣기는 기준 VOP에서만 일어남.
2009-2학기
멀티미디어시스템
12
그림 12.5: VOP의 경계 상자와 경계 매크로블럭
2009-2학기
멀티미디어시스템
13
I. 채워 넣기
• 기준 VOP에서 모든 경계 매크로블럭들을 위해, 수평
반복 채워 넣기가 먼저 수행되고 수직 반복 채워 넣
기가 뒤따름.
그림 12.6: MPEG-4에서 기준 VOP들을 위한 채워 넣기 순서
• 그 뒤에, VOP의 밖에 있지만 하나 이상의 경계 매크
로블럭들에 이웃한 모든 외부 매크로블럭(Exterior
Macroblocks)들에 대해 확장 채워 넣기가 적용.
2009-2학기
멀티미디어시스템
14
알고리즘 12.1 수평 반복 채워 넣기:
• 다음의 수직 반복 채워 넣기 알고리즘은 유사한 방법
으로 실행.
2009-2학기
멀티미디어시스템
15
예제 12.1: 반복 채워 넣기
그림 12.7: 기준 VOP의 경계 매크로블럭에서 반복 채워
넣기의 예: (a) VOP내의 원 화소, (b) 수평 반복 채워 넣
기 후, (c) 뒤따르는 수직 반복 채워 넣기.
2009-2학기
멀티미디어시스템
16
멀티미디어 공학, 제5장
II. 움직임 벡터 부호화
• C(x+k, y+l)는 목표 VOP내 매크로블럭의 화소로 두
고, R(x+i+k, y+j+l)은 기준 VOP내 매크로블럭의 화
소로 두자.
• 두 매크로블럭 사이의 차분을 측정하기 위한 절대 차
분의 합(SAD)은 다음과 같이 정의될 수 있음:
N ᅳ 매크로블럭의 크기. C(p, q)가 목표 VOP내의 화소일 때 Map(p, q)
= 1이고, 그렇지 않으면 Map(p, q) = 0 임.
• 최소 SAD를 주는 벡터(i, j)가 움직임 벡터 MV(u, v)로
채택됨:
p ᅳ u와 v를 위해 최대로 허용할 수 있는 크기.
질감 부호화
• MPEG-4에서 질감 부호화는 다음과 같은 기반으로
할 수 있음:
– DCT 혹은
– 형태 적응적인 DCT(SA-DCT)
I. DCT 기반 질감 부호화
• I-VOP에서 VOP의 각 매크로블럭에서 화소의 회색도
값은 JPEG에서 수행되는 것과 유사하게 DCT와 뒷따
르는 VLC를 이용하여 바로 부호화됨.
• P-VOP 또는 B-VOP에서, 움직임 보상 기반 부호화를
이용. ᅳ 그것은 DCT와 VLC에 보내지는 예측 오차임.
2009-2학기
멀티미디어시스템
18
• 내부 매크로블럭들을 위한 부호화는:
– 각 매크로블럭은 휘도 VOP에서 16×16이고, 색도 VOP에서
8×8임.
– 각 매크로블럭에서 6개의 8×8블럭들로부터 예측 오차는 전
형적인 움직임 예측 단계 뒤에 얻어짐.
• 경계 매크로블럭들을 위한 부호화는:
– VOP밖의 목표 VOP에서 경계 매크로블럭의 부분을 위해, 이
상적으로 예측 오차는 VOP안에서 영에 가깝기 때문에 영이
DCT에게 보내진 블럭에 채워짐.
– 움직임 보상 후에, 목표 VOP내의 질감 예측 오차를 얻음.
2009-2학기
멀티미디어시스템
19
멀티미디어 공학, 제5장
II. 경계 매크로블럭들을 위한 형상 적응
적인 DCT(SA-DCT) 기반 부호화
• 형태 적응적인 DCT(SA-DCT)는 경계 매크로블럭들을
위한 또 다른 질감 부호화 방법.
• 그것의 효율성 때문에, SA-DCT는 MPEG-4 버전 2에
서 경계 매크로블럭 부호화를 위해 채택.
• 그것은 1차원 DCT-N 변환과 그것의 역변환 IDCT-N
을 사용:
– 1차원 DCT-N:
– 1차원 IDCT-N:
• SA-DCT는 2차원 DCT이고 그것은 1차원 DCT-N의
두 번 반복을 통해서 분리 가능한 2차원 변환으로 계
산됨.
• 그림 12.8은 형상 적응적인 DCT(SA-DCT)를 이용하
여 경계 매크로블럭을 위한 질감 부호화 과정을 설명
함.
2009-2학기
멀티미디어시스템
21
2009-2학기
그림 12.8: 형상 적응적인 DCT(SA-DCT)를 이용한
경계 매크로블럭들을
멀티미디어시스템 위한 질감 부호화
22
형상 부호화
• MPEG-4는 이진(binary)과 회색도(gray scale)의 두 가지
형태의 형상 정보를 지원.
• 이진 형상 정보는 VOP의 직사각형 경계 상자와 같은 크
기의 이진 맵(또한 이진 알파맵으로 알려진) 형태를 가질
수 있음.
• 비트맵에서 1(불투명) 또는 0(투명)의 값은 화소가 VOP
의 안인지 밖인지를 나타냄.
• 회색도 형상 정보는 실제적으로 0(완전하게 투명)부터
255(불투명)까지 범위의 회색 값을 갖는 형상 투명도로
참조.
2009-2학기
멀티미디어시스템
23
I. 이진 형상 부호화
• BABs(이진 알파 블록: Binary Alpha Blocks): 이진 알
파 맵을 더 효율적으로 부호화하기 위해, 그 맵은
16×16 블럭으로 나누어짐.
• 경계 BABs는 윤곽선을 포함하고 따라서 VOP를 위한
형상 정보를 포함. ᅳ 이진 형상 부호화의 대상이 됨.
• 두 가지 비트맵 기반 알고리즘:
(a) 수정된 수정된 READ(MMR: Modified Modified READ)
(b) 내용-기반 산술 부호화(CAE: Context-based Arithmetic
Encoding)
2009-2학기
멀티미디어시스템
24
수정된 수정된 READ(MMR)
• MMR은 기본적으로 상대적 요소 주소 명명(READ:
Relative Element Address Designate) 알고리즘의 단순
화 부류.
• READ 알고리즘은 이전과 현재 라인에서 다섯 화소 위치
를 확인함으로써 시작:
–
–
–
–
–
a0: 부호화기와 복호화기 모두에게 알려진 마지막 화소 값;
a1: a0 오른쪽으로의 전이 화소;
a2: a2 오른쪽으로의 두 번째 전이 화소;
b1: 이전 부호화된 라인에서 색이 a0에 반대인 첫 번째 전이 화소;
b2: 이전 부호화된 라인상에서 b1 오른쪽으로의 첫 번째 전이 화
소.
2009-2학기
멀티미디어시스템
25
수정된 수정된 READ(MMR)(계속)
• READ 알고리즘은 이 화소들의 상대적인 위치를 검사
함으로써 동작:
– 언제든지, 부호화기와 복호화기 모두 a0, b1, b2의 위치를 아
는 반면에 a1과 a2의 위치는 부호화기만 알 수 있음.
– 세 가지 부호화 모드가 이용:
1. 만약 이전 라인과 현재 라인의 런-길이가 유사하다면, a1과 b1 사
이의 거리는 a0와 a1 사이의 거리보다 훨씬 더 작아야 함. 수직모
드는 a1 - b1으로 현재 런-길이를 부호화함.
2. 만약 이전 라인이 유사한 런-길이를 갖지 않으면, 현재 런-길이는
1차원 런-길이 부호화를 이용해서 부호화함. ᅳ 수평모드.
3. 만약 a0 ≤ b1 < b2 < a1 이면, 경로 모드에 있다는 것을 가리키는
부호어(codeword)를 단순히 전송하고 b2 아래의 위치로 a0를 나
아가게 하고 부호화 과정을 계속함.
2009-2학기
멀티미디어시스템
26
• 실제 구현을 위해 READ 알고리즘을 일부 간략화 할 수
있음.
– 예를 들어, 만약 ∥a1 - b1∥ < 3 이면, 그것은 수직 모드를 적용할
수 있다는 것을 나타내기에 충분함.
– 또한 오류 전파를 막기 위해, k개의 라인마다 일반적인 런-길이
부호화를 이용해서 부호화된 라인이 적어도 하나는 포함하도록
k-인자가 정의됨.
– 이러한 수정은 G3표준에서 사용된 수정된 READ (Modified
READ) 알고리즘을 구성. MMR(수정된 수정된 READ)알고리즘은
단순히 k-인자에 의해 강요된 제한을 제거함.
2009-2학기
멀티미디어시스템
27
CAE(내용-기반 산술 부호화)
그림 12.9: 경계 BAB(이진 알파 블럭)내 화소를 위한
CAE의 내용. (a) 인트라-CAE, (b) 인터-CAE.
2009-2학기
멀티미디어시스템
28
CAE(계속)
• 어떤 특정한 내용(예, 모두 0이거나 1)이 다른 것보다
더 빈번히 나타남.
일부의 이전 통계치를 가지고 이웃 화소의 수를 k라
고 할 때, 각각 2k개 내용의 일어날 확률을 나타내기
위해 확률표를 만들 수 있음.
• 각 화소는 그것의 내용을 위한 확률 값을 찾기 위하
여 표를 참조할 수 있음. CAE는 단순히 각 BAB에서
16×16 화소를 순차적으로 주사하고 궁극적으로 그
BAB를 위한 단일의 부동소수점을 가지는 수를 유도
하기 위해 산술 부호화를 적용.
• 인터-CAE 모드는 인트라-CAE의 자연스러운 확장: 그
것은 목표와 참조 알파맵 모두를 포함.
2009-2학기
멀티미디어시스템
29
II. 회색도 형상 부호화
• 여기서 회색도(gray-scale)는 질감이 아닌 형상의 투명도
(transparency)를 기술하기 위해 사용.
• MPEG-4에서 회색도 형상 부호화(gray-scale shape
coding)는 위에서 기술한 질감 부호화와 같은 기술을 이
용.
– 알파 맵과 블럭 기반 움직임 보상을 이용하고, DCT에 의한 예측
오차를 부호화함.
– 모든 화소가 VOP내에 있지 않기 때문에 경계 매크로블럭은 이
전처럼 채워 넣기가 필요.
2009-2학기
멀티미디어시스템
30
정적 질감 부호화
• MPEG-4는 정적 객체의 질감을 위한 웨이블릿 부호
화를 이용.
• MPEG-4 정적 질감 부호화에서 서브밴드 부호화는
다음과 같은 방법으로 실행됨:
– 가장 낮은 주파수를 갖는 서브밴드는 DPCM을 이용하여 부
호화됨. 각 계수의 예측은 세 이웃을 기반으로 함.
– 다음 서브밴드의 부호화는 다중스케일 제로 트리 웨이블릿
부호화 방법을 기반으로 함.
• 다중 스케일 제로 트리는 모든 계수의 위치를 더 잘
추적하기 위하여 가장 낮은 주파수 서브밴드의 각 계
수를 위한 부모-자식 관계 트리를 가짐.
• 또한 양자화의 정도는 데이트율에 영향을 미침.
2009-2학기
멀티미디어시스템
31
스프라이트 부호화
• 스프라이트(sprite)는 더 큰 그래픽 영상 또는 영상의
집합 내에서 자유롭게 주위를 움직일 수 있는 그래픽
영상.
• 배경으로부터 전경 객체를 구분하기 위해, 우리는 스
프라이트 파노라마(sprite panorama)의 개념을 소개:
한 비디오 프레임의 순서에 걸쳐있는 정적 배경을 기
술하는 정지 영상.
– 큰 스프라이트 파노라마 영상은 비디오 순서의 시작에서 오
직 한 번만 부호화되어 복호화기로 보내질 수 있음.
– 복호화기가 개별적으로 부호화된 전경 객체와 지금까지의
카메라 움직임을 기술하는 매개변수를 받을 때, 그것은 효율
적인 방법으로 장면을 재구성 할 수 있음.
2009-2학기
– 그림 12.10은 비디오 프레임의 순서로부터 꿰매진 파노라마
영상인 스프라이트를 보여줌.
멀티미디어시스템
32
그림 12.10: 스프라이트 부호화. (a) 배경의 스프라이트
파노라마 영상, (b) 블루스크린 영상내의 전경 객체(피리
부는 사람) (c) 합성된 비디오 장면
* Simon Fraser University Pipe
Band에서 제공한 피리 부는 사람 영상
멀티미디어시스템
33
2009-2학기
전역 움직임 보상(GMC)
• “전역(Global)” - 카메라 움직임으로 인한 전체적인 변
화(팬(pan), 틸트(tilt), 회전(rotation), 줌(zoom))
GMC(Global Motion Compensation)가 없는 이것은
아주 많은 수의 중요한 움직임 벡터를 가져오는 원인
이 됨.
• GMC 알고리즘 내의 네 가지 주요 구성요소:
– 전역 움직임 예측
– 와핑(warping)과 블렌딩(blending)
– 움직임 궤도 부호화
– LMC(지역 움직임 보상: Local Motion Compensation) 또는
GMC의 선택
2009-2학기
멀티미디어시스템
34
멀티미디어 공학, 제5장
• 전역 움직임은 스프라이트 S와 전역 움직임 보상된
영상 I' 사이의 차분 제곱의 합을 최소화 함으로써
계산됨:
• 전체 영상에 걸친 움직임은 다음과 같이 정의한 여덟
개의 매개변수를 사용한 원근움직임 모델에 의해 매
개 변수화 됨:
12.3 MPEG-4의 합성 객체 부호화
2차원 매쉬 객체 부호화
• 2차원 매쉬(2D mesh): 다각형 조각을 이용한 2차원
평면 영역의 모자이크(또는 분할):
– 다각형의 정점들은 매쉬의 노드(node)라고 부름.
– 가장 대표적인 매쉬는 모든 다각형이 삼각형인 삼각형 매쉬
(triangular mesh).
– MPEG-4 표면은 두 가지 형태의 2차원 매쉬를 이용 : 균일 매
쉬(unform mesh)와 Delaunay 매쉬
– 2차원 매쉬 객체 부호화는 간결. 매쉬의 모든 좌표 값은 반화
소 정밀도로 부호화됨.
– 각각의 2차원 매쉬는 매쉬 객체 평면(MOP: mesh object
plane)으로 여겨짐.
2009-2학기
멀티미디어시스템
36
그림 12.11: 2차원 매쉬 객체 평면(MOP) 부호화 과정
2009-2학기
멀티미디어시스템
37
I. 2차원 매쉬 기하학 부호화
• MPEG-4는 다른 3각 측량 구조를 가지는 네 가지
형태의 균일 매쉬를 허용.
그림 12.12: 균일한 매쉬의 4가지 유형
2009-2학기
멀티미디어시스템
38
• 정의: 만약 D가 Delaunay 3각 측량이라면, 그것 중의
어떤 삼각형 tn = (Pi, Pj, Pk)∈D는 tn의 외접원이 그것
의 내부에 어떤 다른 노드 점 Pl을 포함하지 않는다는
속성을 만족함.
• 비디오 객체를 위한 Delaunay 매쉬는 다음의 단계에
서 얻을 수 있음:
1. 매쉬의 경계 노드를 선택함: 다각형은 객체의 경계를 근사화
하는데 이용.
2. 내부 노드를 선택함: 객체 경계 내에 있는 특징점(예, 가장자
리 점 또는 모서리)은 매쉬를 위한 내부 노드로 선택되어짐.
3. Delaunay 3각 측량을 실행함: 제한된 Delaunay 3각 측량은
다각형 경계를 제한으로 사용하여 경계와 내부 노드에서 실
행됨.
2009-2학기
멀티미디어시스템
39
멀티미디어 공학, 제5장
제한된 Delaunay 3각 측량
• 내부 가장자리는 새로운 삼각형을 형성하기 위해 먼
저 더해짐.
• 그 알고리즘은 그것이 국부적으로 Delaunay인 것을
확신하기 위해 각각 내부의 가장자리를 검사할 것임.
• 가장자리 jk 를 공유하는 두 삼각형 (Pi, Pj, Pk)와 (Pj,
Pk, Pl)이 주어지고, 만약 그것의 내부에서 (Pi, Pj, Pk)
가 Pl를 포함하거나 (Pj, Pk, Pl)이 Pi를 포함한다면, jk
는 국부적으로 Delaunay가 아니고 새로운 가장자리il
에 의해 교체될 것임.
• 만약 Pl이 정확하게 (Pi, Pj, Pk)의 외접원에 있게 된다
면(따라서 Pi 또한 정확하게 (Pj, Pk, Pl)의 외접원에
있게 된다면), Pi또는 Pl이 네 개의 노드 사이에 가장
큰 x 좌표를 가질 때만
는 국부적으로 Delaunay로
jk
간주됨.
멀티미디어 공학, 제5장
그림 12.13: Delaunay 매쉬: (a) 경계 노드(P0 ~ P7)과
내부 노드(P8 ~ P13). (b) 제한된 Delaunay 3각 측량에
의해 얻어진 삼각형 매쉬.
• 처음 위치 (x0, y0)를 제외하고, 다음의 모든 좌표는
차분이 부호화됨. ᅳ 즉, n ≥ 1일 때,
그 뒤에 dxn, dyn는 가변 길이 부호화됨.
멀티미디어 공학, 제5장
II. 2차원 매쉬 움직임 부호화
• 새로운 매쉬 구조는 오직 인트라-프레임에서만 생
성될 수 있고, 그것의 3각 위상 기하학은 다음의 인
터-프레임에서 변경되지 않을 것임. ᅳ 2차원 매쉬
움직임 예측에서 1대 1사상을 시행함.
• 어떤 MOP 삼각형 (Pi, Pj, Pk)을 위해, 만약 Pi와 Pj를
위한 움직임 벡터가 MVi와 MVj로 알려지면, 예측
Predk은 반화소 정밀도로 반올림되어 Pk의 움직임
벡터를 위해 생성될 것임:
예측 오차 ek는 다음과 같이 부호화됨:
그림 12.14: 2차원 매쉬 움직임 부호화를 위한 MOP
삼각형의 폭 우선 순서
2009-2학기
멀티미디어시스템
43
그림 12.15: 2차원 객체 애니메이션을 위한 매쉬
기반 질감 매핑
2009-2학기
멀티미디어시스템
44
12.3.2 3차원 모델 기반 부호화
• 비디오에서 사람 얼굴과 몸의 빈번한 출현 때문에,
MPEG-4는 얼굴 객체(face objects)와 몸 객체(body
objects)를 위한 특별한 3차원 모델을 정의함.
• 이러한 새로운 비디오 객체를 위한 잠재적인 몇 가지의
응용분야는 원격 회의, 인간-컴퓨터 인터페이스, 게임, 전
자상거래를 포함.
• 얼굴 또는 몸 객체의 표면이 명암(shaded)을 나타내거나
질감-사상(texture-mapped)될 수 있도록 MPEG-4는 와
이어프레임(wireframes)의 범위를 뛰어 넘음.
2009-2학기
멀티미디어시스템
45
I. 얼굴 객체 부호화와 애니메이션
• MPEG-4는 VRML 컨소시엄에 의해 개발된 일반 기본
얼굴 모델을 채택.
• 얼굴 애니메이션 매개변수(FAPs: Face Animation
Parameters)는 원하는 애니메이션(원본 “무표정” 얼
굴로부터 유도)을 이루기 위해 기술될 수 있음.
• 게다가, 얼굴 정의 매개변수(FDPs: Face Definition
Parameters)는 개개의 얼굴을 더 잘 묘사하기 위해
기술될 수 있음.
• 그림 12.16은 FDPs를 위한 특징 점을 보여줌. 애니메
이션에 의해 영향을 받을 수 있는 특징 점(FAPs)은 꽉
찬 원으로 보여지고 영향을 받지 않는 다른 것들은
빈 원으로 보여짐.
2009-2학기
멀티미디어시스템
46
그림 12.16: 얼굴 정의 매개변수를 위한 특징 포인트
(FDPs). (치아(teeth)와 혀(tongue)를 위한 특징 포
인트는
보이지 않음.)
2009-2학기
멀티미디어시스템
47
II. 몸 객체 부호화와 애니메이션
• MPEG-4 버전 2는 얼굴 객체로의 자연스러운 확장인 몸
객체(body objects)를 도입.
• VRML 컨소시엄내의 휴머노이드 애니메이션(H-Anim)그
룹과 작업하여, 기본 자세를 가지는 일반적인 가상 인간
몸을 채택.
– 기본자세는 정면을 향하는 발, 손바닥이 안으로 향하고 옆쪽에
팔을 두고 서 있는 자세.
– 296 몸 애니메이션 매개변수(BAPs: Body Animation
Parmeters)가 있음. MPEG-4에 순응하는 어떤 일반적인 몸에 적
용될 때, 그것들은 같은 애니메이션을 생성할 것임.
2009-2학기
멀티미디어시스템
48
– 상당히 많은 BAPs는 몸의 다른 부분을 연결하는 관절 부분
을 기술: 척추, 어깨, 쇄골, 팔꿈치, 손목, 손가락, 엉덩이, 무릎,
발목, 발가락 ᅳ 각각의 손에만 25개 정도의 자유도이고, 몸
에는 186개 정도의 자유도를 가짐.
– 몇몇 몸의 움직임은 세부적인 다중 등급 내에서 기술할 수
있음.
• 특정한 몸을 위해, 몸 정의 매개변수(BDPs: Body
Definition Parameters)는 몸 차원, 몸 표면 기하학,
그리고 선택적으로 질감을 위해 명시될 수 있음.
• BAPs의 부호화는 FAPs의 그것과 유사함: 양자화와 예
측 부호화가 이용되고, 예측 오차는 산술 부호화에 의
해 더욱 압축됨.
2009-2학기
멀티미디어시스템
49
12.4 MPEG-4 객체 유형, 프로파일 및 레벨
• MPEG-4에서 프로파일(Profiles)과 레벨(Levels)의 표
준화는 두 가지 주요 목적을 가짐:
(a) 구현된 시스템 간의 상호 동작성을 보장
(b) 표준에 대한 순응 시험을 허용
• MPEG-4는 비주얼 프로파일과 오디오 프로파일 뿐만
아니라 그것의 시스템 부분에서 그래픽 프로파일, 장
면 묘사 프로파일, 객체 묘사 프로파일도 명시.
• 객체 유형(object type)은 비디오 객체를 생성하고
장면을 결합하는 방법을 만들기 위해 필요한 도구들
을 정의하여 소개함.
2009-2학기
멀티미디어시스템
50
표 12.1: MPEG-4 자연적인 비주얼 객체
유형을 위한 도구들
2009-2학기
멀티미디어시스템
51
표 12.2: MPEG-4 자연적인 비주얼 객체
유형과 프로파일
• 예를 들면 “메인 프로파일”은 오직 “Simple”, “Core”,
“Main”, “Scalable Still Texture”의 객체 유형을 지원함.
2009-2학기
멀티미디어시스템
52
표 12.3: Simple, Core, Main 비주얼
프로파일에서의 MPEG-4 레벨
2009-2학기
멀티미디어시스템
53
12.5 MPEG-4 Part 10/H.264
• 이전에 “H.26L”로 알려진, H.264 비디오 압축 표준은
ISO/IEC MPEG과 ITU-T VCEG의 Joint Video Team
(JVT)에 의해 개발.
• 새로운 표준 기반의 소프트웨어를 이용한 예비 연구
는 H.264가 MPEG-2 보다 30∼50% 더 나은 압축을
제공하고, H.263+와 MPEG-4의 개선된 Simple 프로
파일보다 30% 더 나은 압축을 제공한다는 것을 제안.
• 이 연구의 성과는 실질적으로 두 개의 동일한 표준:
ISO MPEG-4 Part10과 ITU-T H.264.
• H.264는 현재 많은 잠재적인 응용에서 고 선명도 TV
(HDTV: High Definition TV) 비디오 내용을 전달하는
유력한 후보 중에 하나.
2009-2학기
멀티미디어시스템
54
• 핵심 특징
– VLC 기반 엔트로피 부호화:
두 가지 엔트로피 방법은 가변 길이 엔트로피 복호화기에서
이용: 단일화된-VLC(UVLC)와 내용 적응적 VLC(CAVLC)
– 움직임 보상(P-예측):
4×4 블럭 크기(16×16, 16×8, 8×16, 8×8, 8×4, 4×8, 4×4)까
지 트리 구조의 움직임 분할을 이용. 이것은 움직이는 객체
의 더욱 정확한 움직임 보상을 허용. 게다가 움직임 벡터는
반화소 또는 4분의 1화소 정확도까지 될 수 있음.
– 인트라-예측 (I-예측):
H.264는 H.263+와 같은 이전 비디오 표준보다 더 많은 공간
예측을 이용.
2009-2학기
멀티미디어시스템
55
– 간단한 정수-정밀도 4×4 DCT와 비선형 단계-크기를 갖는
양자화 방식을 사용.
– 루프내 디블럭킹 필터
• 기준선 프로파일 특징
H.264의 기준인 프로파일은 화상 회의와 같은 실시간
대화 응용을 위해 의도되었음.
그것은 위에서 논의한 H.264의 모든 핵심 부호화 도
구들과 다음의 부가적인 오류복원 도구들을 포함하는
데, IP와 무선 네트워크와 같은 오류가 발생할 경향이
있는 네트워크를 위해 허용함.
2009-2학기
– 임의의 슬라이드 순서(ASO)
– 융통성있는 매크로블럭 순서(FMO)
– 잉여 슬라이스
멀티미디어시스템
56
• 메인 프로파일 특징
방송과 저장 매체와 같은 비저지연 응용을 묘사.
메인 프로파일은 모든 기준선 프로파일 특징(ASO,
FMO, 잉여 슬라이스는 제외)에 다음을 추가하여 포
함:
– B 슬라이스
– 내용 적응적 이진 산술 부호화(CABAC)
– 가중된 예측
• 확장 프로파일 특징
2009-2학기
확장 프로파일(또는 프로파일 X)은 새로운 비디오 스
트리밍 응용을 위해 디자인. 이 프로파일은 비저지연
특징, 비트스트림 스위칭 특징, 더 나은 오차-복원 도
구들을 허용.
멀티미디어시스템
57
12.6 MPEG-7
• MPEG-7의 주요 목표는 디지털 도서관과 같은 응용에서
오디오 비주얼 내용 기반 검색(또는 오디오 비주얼 객체
검색)의 필요성을 충족시키는 것.
• 그럼에도 불구하고, 그것은 또한 멀티미디어 데이터의
생성(내용 창작)과 이용(내용 소비)을 포함하는 어떤 멀
티미디어 응용에 적용할 수 있음.
• MPEG-7은 2001년 9월에 멀티미디어 내용 묘사 인터페
이스(Multimedia Content Description Interface)라는
공식 이름으로 국제 표준이 되었음.
2009-2학기
멀티미디어시스템
58
MPEG-7에 의해 지원되는 응용
• MPEG-7은 다양한 멀티미디어 응용을 지원. 그것의 데이
터는 정지 영상, 그래픽, 3차원 모델, 오디오, 음성, 비디
오, 합성 정보(이러한 요소들을 결합하는 방법)를 포함.
• MPEG-7 데이터 요소는 텍스트 형식(textual format) 또
는 이진 형식(binary format) 또는 두 가지 모두 표현할
수 있음.
• 그림 12.17은 MPEG-7표준으로부터 이들을 얻을 수 있는
몇몇 가능한 응용을 설명함.
2009-2학기
멀티미디어시스템
59
그림 12.17: MPEG-7을 이용하여 가능한 응용들
2009-2학기
멀티미디어시스템
60
MPEG-7과 멀티미디어 내용 기술
• MPEG-7은 기술자(D), 기술 체계(DS), 기술 정의 언어
(DDL)를 개발함. 다음은 몇 가지 중요한 용어들임:
– 특징 ᅳ 데이터의 특색
– 기술 ᅳ 구조와 내용의 개념적 정보, 저장과 내용의 사용 등
등을 기술하는 구체적으로 설명된 D와 DS의 집합.
– 기술자(D) ᅳ 특징의 정의(신택스와 시맨틱스)
– 기술 체계(DS) ᅳ 구조 및 D 와 DS사이 관계의 명세서
– 기술 정의 언어(DDL) ᅳ DS와 D를 표현하고 결합하기 위한
구문적 규칙
• MPEG-7의 범위는 기술을 위해 D, DS와 DDL을 표준
화하는 것임. 기술을 만들고 소비하는 메커니즘과 처
리 과정은 MPEG-7의 범위 밖임.
2009-2학기
멀티미디어시스템
61
기술자(D: Descriptor)
• 기술자는 성능, 효율, 크기의 비교를 기반으로 선택.
기본적인 비주얼 특징을 위한 낮은 레벨 비주얼 기술
자는 다음을 포함:
– 색(Color)
• 색 공간 (a) RGB, (b) YCbCr, (c) HSV(색상, 채도, 명암), (d)
HMMD (HueMaxMinDiff), (e) RGB로부터 3×3 행렬에 의해 유
도될 수 있는 3차원 색 공간, (f) 단색
• 색 양자화 (a) 선형, (b) 비선형, (c) 참조표
• 우위 색
• 스케일러블 색
• 색 레이아웃
• 색 구조
2009-2학기
• 프레임의 그룹/ 영상의 그룹(GoF/GoP) 색
멀티미디어시스템
62
– 질감(Texture)
• 동질성의 질감
• 질감 브라우징
• 에지 히스토그램
– 형상(Shape)
• 영역 기반 형상
• 윤곽 기반 형상
• 3차원 형상
2009-2학기
멀티미디어시스템
63
– 움직임(Motion)
• 카메라 움직임(그림 12.18을 보라)
• 객체 움직임 궤도
• 파라메트릭 객체 움직임
• 움직임 활동
– 위치 측정(Localization)
• 영역 경계 설정자
• 시공간 경계 설정자
– 기타(Others)
• 얼굴 인식
2009-2학기
멀티미디어시스템
64
그림 12.18: 카메라 움직임: 팬, 틸트, 롤, 돌리, 트랙, 붐
2009-2학기
멀티미디어시스템
65
기술 체계(DS: Description Scheme)
• 기본적인 요소(Basic Elements)
– 데이터 타입과 수학적 구조
– 구성
– 설계 도구
• 내용 관리(Content Management)
– 미디어 기술
– 창작과 생산 기술
– 내용 사용 기술
• 내용 기술(Content Description)
– 구조적 기술
2009-2학기
멀티미디어시스템
66
예를 들면, 분할 DS는 클래스 객체로서 구현될 수 있음. 그것은 다
섯 개의 하위 클래스를 가질 수 있음: 오디오 비주얼 분할 DS, 오디
오 분할 DS, 정지 영역 DS, 움직이는 영역 DS, 비디오 분할 DS. 하
위 클래스 DS들은 순환적인 그 자신의 하위 클래스를 가짐.
– 개념적 기술
• 항해와 접근(Navigation and Access)
– 요약
– 분할과 분해
– 내용의 변화
• 내용 구성(Content Organization)
– 수집물
– 모델
• 사용자 상호 작용(User Interaction)
– 사용자 선호
2009-2학기
멀티미디어시스템
67
그림 12.19: MPEG-7 비디오 분할
2009-2학기
멀티미디어시스템
68
그림 12.20: 비디오 요약
2009-2학기
멀티미디어시스템
69
기술 정의 언어(DDL)
• MPEG-7은 그것의 기술 정의 언어(DDL: Description
Definition Language)로써 초기에 WWW 컨소시엄
(W3C)에 의해 개발된 XML 스키마 언어를 채택함.
XML 스키마 언어는 오디오비주얼 내용을 위해 명확
하게 설계되지 않았기 때문에 몇 가지를 확장했음:
– 배열과 행렬 데이터 유형
– 오디오, 비디오, 오디오비주얼 발표를 포함하는 다중의 미디
어 유형
– MimeType, CountryCode, RegionCode, CurrencyCode,
and CharacterSetCode를 위해 열거된 데이터 유형
– D와 DS를 위한 지적 재산권 관리 및 보호(IPMP: Intellectual
Property Management and Protection)
2009-2학기
멀티미디어시스템
70
12.7 MPEG-21
• 최신 표준의 개발인, MPEG-21: 멀티미디어 프레임워
크는 2000년 6월에 시작되어 예정된 2003년에 국제
표준이 되었음.
• MPEG-21의 버전은 서로 다른 공동체에 의해 사용된
넓은 범위의 네트워크와 장치를 교차하여 멀티미디어
자원의 손쉽고 증대된 사용을 가능하게 하는 멀티미
디어 프레임워크를 정의하기 위함.
• MPEG-21에서 7가지 중요한 요소:
– 디지털 항목 선언 ᅳ 디지털 항목을 선언하기 위한 일률적이
고 신축성있는 추상적 개념과 상호 운용 가능한 스키마를 수
립하기 위함.
– 디지털 항목 확인과 기술 ᅳ 원본, 유형 또는 입자 모양의 관
계없이 디지털 항목의 표준화된 확인과 기술을 위한 프레임
워크를 수립하기 위함.
2009-2학기
멀티미디어시스템
71
– 내용 관리와 사용 ᅳ 내용의 관리와 사용(탐색, 캐싱, 파일 보
관, 분배 등)을 돕는 인터페이스와 프로토콜을 제공하기 위
함.
– 지적 재산권 관리와 보호(IPMP) ᅳ 내용이 신뢰성 있게 관리
되고 보호되는 것을 가능하도록 함.
– 터미널과 네트워크 ᅳ 넓은 범위의 네트워크와 터미널을 교
차해서 서비스의 질(QoS)을 갖는 내용에 상호 운용 가능하
고 손쉬운 접근을 제공하기 위함.
– 내용 발표 ᅳ MPEG-21의 목표, 즉 “내용을 언제든지 어느
곳에서든지”를 추구하기 위한 적절한 방법으로 내용을 표현
하기 위함.
– 이벤트 보고 ᅳ 성능과 대안을 이해하기 위한 이벤트(사용자
상호작용)를 보고하기 위한 계량법과 인터페이스를 수립하
기 위함.
2009-2학기
멀티미디어시스템
72