12장 MPEG 비디오 부호화 Ⅱ - MPEG

Download Report

Transcript 12장 MPEG 비디오 부호화 Ⅱ - MPEG

12장 MPEG 비디오 부호화 Ⅱ
- MPEG-4, 7과 그 이후
12.1 MPEG-4의 개요
12.2 MPEG-4의 객체지향 비주얼 부호화
12.3 MPEG-4의 합성 객체 부호화
12.4 MPEG-4 객체 유형, 프로파일 및 레벨
12.5 MPEG-4 Part10/H.264
12.6 MPEG-7
12.7 MPEG-21
1
멀티미디어시스템
2013-1학기
12.1 MPEG-4의 개요


MPEG-4: 더 새로운 표준. 압축 외에도, 사용자 상호
작용에 큰 관심을 가짐.
MPEG-4는 새로운 객체지향 부호화(object-based
coding)를 채택함으로써 이전 표준과는 다름:
ᅳ
ᅳ

2
고 압축률을 제공할 뿐만 아니라, 또한 디지털 비디오 합성, 조
작, 인덱싱, 검색에 유리.
그림 12.1은 MPEG-4 비디오가 비주얼 객체에 대해 간단한 연
산에 의하여 어떻게 합성되고 조작되는지를 설명.
MPEG-4 비디오를 위한 비트율은 이제 5kbps에서
10Mbps까지 넓은 범위를 포함.
멀티미디어시스템
2
2013-1학기
VOP: Video Object Plane
그림 12.1: MPEG-4 비디오의 합성과 조작
3
멀티미디어시스템
3
2013-1학기
MPEG-4의 개요(계속)
 MPEG-4(그림 12.2(b))는 완전히 새로운 표준:
(a) 원하는 오디오 비주얼 장면을 만들기 위해 미디어
객체를 합성.
(b) 서비스의 질(QoS: Quality of Service)을 보장하면서 전송
하기 위해 미디어 데이터의 실체를 위한 비트스트림
을 다중화하고 동기화함.
(c) 수신측에서 오디오비주얼 장면과 상호작용 ᅳ 오디
오 및 비디오 압축을 위해 진보된 부호화 모듈과 알
고리즘의 툴 박스를 제공.
4
멀티미디어시스템
4
2013-1학기
그림 12.2: MPEG 표준들의 상호작용 비교: (a) MPEG-1
과 2의 기준 모델(점선으로 표시된 상호작용은 MPEG-2
에 의해서만 제공); (b) MPEG-4 기준 모델
5
멀티미디어시스템
2013-1학기
MPEG-4의 개요(계속)
 MPEG-4 비주얼 비트스트림의 계층적 구조는 아주 비
디오 객체 지향적이므로, MPEG-1과 MPEG-2의 그것과
는 매우 다름.
6
그림 12.3: MPEG-4 비주얼 비트스트림에서 장면의
멀티미디어시스템
비디오 객체 지향적인 계층적 기술 2013-1학기
MPEG-4의 개요(계속)
1. 비디오 객체 시퀀스(VS) ᅳ 2차원 또는 3차원, 자연적 또는 합
성인 객체를 포함하는 완전한 MPEG-4 비주얼 장면을 전달.
2. 비디오 객체(VO) ᅳ 장면의 배경 또는 객체에 해당되는 임의
의 (직사각형이 아닌) 형태가 될 수 있는 장면내의 특정한 객
체.
3. 비디오 객체 계층(VOL) ᅳ (다중 계층의) 스케일러블 부호화
를 지원하는 방법에 용이. 한 비디오 객체(VO)는 스케일러블
부호화에서 여러 개의 비디오 객체 계층들 (VOLs)을 가질 수
있고, 스케일러블 부호화가 아닌 경우에는 단일의 비디오 객
체 계층(VOL)을 가짐.
4. 비디오 객체 평면의 그룹(GOV) ᅳ 비디오 객체 평면들이 함
께 그룹화 되어 있음.(단계는 선택적임)
5. 비디오 객체 평면(VOP) ᅳ 특정한 순간에서 비디오 객체의 스
냅사진.
7
멀티미디어시스템
7
2013-1학기
12.2 MPEG-4의 객체지향 비주얼 부호
화
VOP 기반 부호화 대 프레임 기반 부호화
 MPEG-1 과 MPEG-2는 VOP 개념을 지원하지 않음. 따라서,
그들의 부호화 방법은 프레임-기반(frame-based)으로
일컬어짐.(또한, 블럭-기반 부호화(blocks-based coding)
로 알려져 있음)
 그림 12.4(c)는 블럭-기반 부호화를 위해 두 가능한 매치
가 작은 예측 오차를 야기하는 하나의 가능한 예를 실행.
 그림 12.4(d)는 각각의VOP가 임의의 형상이고, 이상적으
로 현실의 객체 움직임과 일치하는 유일한 움직임 벡터
를 얻는 것을 보여줌.
8
멀티미디어시스템
8
2013-1학기
그림 12.4: 블록 기반 부호화와 객체 지향 부호화의 비교
9
멀티미디어시스템
9
2013-1학기
VOP 기반 부호화
 또한 MPEG-4 VOP 기반 부호화도 움직임 보상 기술을 이
용:
 프레임내 부호화된 VOP는 I-VOP로 불림.
 프레임간 부호화된 VOP들은 만약 순방향 예측만이 이
용되면 P-VOPs로 불리고, 만약 양방향 예측이 이용되
면 B-VOPs로 불림.
 VOP들에 대한 새롭게 나타난 어려운 점: 임의의 형상을
가진다는 것인데, VOP의 질감뿐만 아니라 형상 정보도
부호화되어야 함.
주목: 여기서 질감은 실질적으로VOP내에서 최소의 회
색도(또는 색도)값인 비주얼 내용을 언급함.
1
010
멀티미디어시스템
2013-1학기
VOP 기반 움직임 보상(MC)
 MPEG-4에서 움직임 보상 기반VOP 부호화는 역시 세 단
계를 포함:
(a) 움직임 예측
(b) 움직임 보상 기반 예측
(c) 예측 오차의 부호화
 현재(목표) VOP의VOP내 화소만이 움직임 보상에서 매
칭되기 위해 고려됨.
 움직임 보상을 쉽게 하기 위해, 각VOP는 많은 매크로블
럭들(MBs)로 나눔. 매크로블럭들은 휘도 영상에서
16×16과 색도 영상에서 8×8이 기본값.
1
111
멀티미디어시스템
2013-1학기
 MPEG-4는 각각의 VOP를 위한 직사각형의 경계 상자를 정
의.(자세한 것은 그림 12.5를 참조)
 완전하게 VOP내에 있는 매크로블럭은 내부 매크로블럭
(Interior Macroblocks)으로 불림.
VOP의 경계에 걸쳐있는 매크로블럭은 경계 매크로블럭
(Boundary Macroblocks)으로 불림.
 목표 VOP에서 모든 화소가 매칭되는 것을 돕고 변환 부호화
(예, DCT)에서 직사각형 블럭의 강제적인 요구사항을 맞추기
위해 채워 넣기의 전처리 단계는 움직임 예측에 앞서 기준
VOP들을 적용함.
주목: 채워 넣기는 기준 VOP에서만 일어남.
 움직임 보상의 첫 번째 두 단계: 채워넣기와 움직임 벡터 부
호화
1
212
멀티미디어시스템
2013-1학기
그림 12.5: VOP의 경계 상자와 경계 매크로블럭
1
313
멀티미디어시스템
2013-1학기
I. 채워 넣기
 기준 VOP에서 모든 경계 매크로블럭들을 위해, 수평 반
복 채워 넣기가 먼저 수행되고 수직 반복 채워 넣기가
뒤따름.
그림 12.6: MPEG-4에서 기준 VOP들을 위한 채워 넣기 순서
 그 뒤에, VOP의 밖에 있지만 하나 이상의 경계 매크로블
럭들에 이웃한 모든 외부 매크로블럭(Exterior
Macroblocks)들에 대해 확장 채워 넣기가 적용.
1
414
멀티미디어시스템
2013-1학기
알고리즘 12.1 수평 반복 채워 넣기:
 다음의 수직 반복 채워 넣기 알고리즘은 유사한 방법으로 실
1
515
행.
멀티미디어시스템
2013-1학기
예제 12.1: 반복 채워 넣기
1
616
그림 12.7: 기준 VOP의 경계 매크로블럭에서 반복 채워
넣기의 예: (a) VOP내의 원 화소, (b) 수평 반복 채워 넣
기 후, (c) 뒤따르는 수직 반복 채워 넣기.
멀티미디어시스템
2013-1학기
II. 움직임 벡터 부호화
• C(x+k, y+l)는 목표VOP내 매크로블럭의 화소로 두고,
R(x+i+k, y+j+l)은 기준VOP내 매크로블럭의 화소로 두
자.
• 두 매크로블럭 사이의 차분을 측정하기 위한 절대 차분
의 합(SAD)은 다음과 같이 정의될 수 있음:
N ᅳ 매크로블럭의 크기. C(p, q)가 목표 VOP내의 화소일 때 Map(p, q) = 1이
고, 그렇지 않으면 Map(p, q) = 0 임.
• 최소 SAD를 주는 벡터(i, j)가 움직임 벡터 MV(u, v)로 채
택됨:
1
717
멀티미디어시스템
p ᅳ u와
v를 위해 최대로 허용할 수 있는 크기.
2013-1학기
질감 부호화
 질감은 VOP 내 회색도(또는 색도) 변화와 또는 패턴을
지칭한다.
 MPEG-4에서 질감 부호화는 다음과 같은 기반으로 할 수
있음:
 DCT 혹은
 형태 적응적인 DCT(SA-DCT)
I. DCT 기반 질감 부호화
 I-VOP에서VOP의 각 매크로블럭에서 화소의 회색도 값
은 JPEG에서 수행되는 것과 유사하게 DCT와 뒷따르는
VLC를 이용하여 바로 부호화됨.
 P-VOP 또는 B-VOP에서, 움직임 보상 기반 부호화를 이용.
ᅳ 그것은 DCT와VLC에 보내지는 예측 오차임.
1
818
멀티미디어시스템
2013-1학기
 내부 매크로블럭들을 위한 부호화는:
 각 매크로블럭은 휘도 VOP에서 16×16이고, 색도 VOP에서
8×8임.
 각 매크로블럭에서 6개의 8×8블럭들로부터 예측 오차는
전형적인 움직임 예측 단계 뒤에 얻어짐.
 경계 매크로블럭들을 위한 부호화는:
 VOP밖의 목표 VOP에서 경계 매크로블럭의 부분을 위해,
이상적으로 예측 오차는 VOP안에서 영에 가깝기 때문에
영이 DCT에게 보내진 블럭에 채워짐.
 움직임 보상 후에, 목표 VOP내의 질감 예측 오차를 얻음.
1
919
멀티미디어시스템
2013-1학기
II. 경계 매크로블럭들을 위한 형상 적
응적인 DCT(SA-DCT) 기반 부호화
• 형태 적응적인 DCT(SA-DCT)는 경계 매크로블럭들을
위한 또 다른 질감 부호화 방법.
• 그것의 효율성 때문에, SA-DCT는 MPEG-4 버전 2에서
경계 매크로블럭 부호화를 위해 채택.
• 그것은 1차원 DCT-N 변환과 그것의 역변환 IDCT-N을
사용:
– 1차원 DCT-N:
– 1차원 IDCT-N:
2
020
멀티미디어시스템
2013-1학기
 SA-DCT는 2차원 DCT이고 그것은 1차원 DCT-N의 두 번
반복을 통해서 분리 가능한 2차원 변환으로 계산됨.
 그림 12.8은 형상 적응적인 DCT(SA-DCT)를 이용하여 경
계 매크로블럭을 위한 질감 부호화 과정을 설명함.
2
121
멀티미디어시스템
2013-1학기
2
222
그림 12.8: 형상 적응적인 DCT(SA-DCT)를 이용한
멀티미디어시스템
경계 매크로블럭들을 위한 질감 부호화 2013-1학기
형상 부호화
 VOP 형상 부호화 필요
 MPEG-4는 이진(binary)과 회색도(gray scale)의 두 가지
형태의 형상 정보를 지원.
 이진 형상 정보는VOP의 직사각형 경계 상자와 같은 크
기의 이진 맵(또한 이진 알파맵으로 알려진) 형태를 가
질 수 있음.
 비트맵에서 1(불투명) 또는 0(투명)의 값은 화소가VOP
의 안인지 밖인지를 나타냄.
 회색도 형상 정보는 실제적으로 0(완전하게 투명)부터
255(불투명)까지 범위의 회색 값을 갖는 형상 투명도로
참조.
2
323
멀티미디어시스템
2013-1학기
I. 이진 형상 부호화
 BABs(이진 알파 블록: Binary Alpha Blocks): 이진 알파 맵을 더 효
율적으로 부호화하기 위해, 그 맵은 16×16 블럭으로 나누어
짐.
 경계 BABs는 윤곽선을 포함하고 따라서VOP를 위한 형상 정
보를 포함. ᅳ 이진 형상 부호화의 대상이 됨.
 두 가지 비트맵 기반 알고리즘:
(a) 수정된 수정된 READ(MMR: Modified Modified READ): 팩
스 그룹3 표준에서 채택
(b) 내용-기반 산술 부호화(CAE: Context-based Arithmetic
Encoding): JBIG를 위해 개발되어 채택
2
424
멀티미디어시스템
2013-1학기
수정된 수정된 READ(MMR)
 MMR은 기본적으로 상대적 요소 주소 명명(READ: Relative
Element Address Designate) 알고리즘의 단순화 부류.
 READ 알고리즘의 기본개념: 이전 부호화된 라인 내 화소 위
치와 연관된 현재 라인을 부호화하는 것
 READ 알고리즘은 이전과 현재 라인에서 다섯 화소 위치를
확인함으로써 시작:
a0: 부호화기와 복호화기 모두에게 알려진 마지막 화소 값;
a1: a0 오른쪽으로의 전이 화소;
a2: a2 오른쪽으로의 두 번째 전이 화소;
b1: 이전 부호화된 라인에서 색이 a0에 반대인 첫 번째 전이
화소;
 b2: 이전 부호화된 라인상에서 b1 오른쪽으로의 첫 번째 전
이 화소.




2
525
멀티미디어시스템
2013-1학기
수정된 수정된 READ(MMR)(계속)
 READ 알고리즘은 이 화소들의 상대적인 위치를 검사함
으로써 동작:
 언제든지, 부호화기와 복호화기 모두 a0, b1, b2의 위치
를 아는 반면에 a1과 a2의 위치는 부호화기만 알 수 있
음.
 세 가지 부호화 모드가 이용:
1. 만약 이전 라인과 현재 라인의 런-길이가 유사하다면, a1과 b1 사이의
거리는 a0와 a1 사이의 거리보다 훨씬 더 작아야 함. 수직모드는 a1 b1으로 현재 런-길이를 부호화함.
2. 만약 이전 라인이 유사한 런-길이를 갖지 않으면, 현재 런-길이는 1
차원 런-길이 부호화를 이용해서 부호화함. ᅳ 수평모드.
3. 만약 a0 ≤ b1 < b2 < a1 이면, 경로 모드에 있다는 것을 가리키는 부호어
(codeword)를 단순히 전송하고 b2 아래의 위치로 a0를 나아가게 하고
부호화 과정을 계속함.
2
626
멀티미디어시스템
2013-1학기
 실제 구현을 위해 READ 알고리즘을 일부 간략화 할 수
있음.
 예를 들어, 만약 ∥a1 - b1∥ < 3 이면, 그것은 수직 모드를
적용할 수 있다는 것을 나타내기에 충분함.
 또한 오류 전파를 막기 위해, k개의 라인마다 일반적
인 런-길이 부호화를 이용해서 부호화된 라인이 적어
도 하나는 포함하도록 k-인자가 정의됨.
 이러한 수정은 G3표준에서 사용된 수정된 READ
(Modified READ) 알고리즘을 구성. MMR(수정된 수정된
READ)알고리즘은 단순히 k-인자에 의해 강요된 제한
을 제거함.
2
727
멀티미디어시스템
2013-1학기
CAE(내용-기반 산술 부호화)
-10개의 이웃화소들이 내용을 형성
-그 화소들과 연관된 10개의 이진술자들은
210=1024까지의 가능한 내용을 제공
2
828
-목표와 참조 알파맵 모두 포함
-목표 알파맵의 네개 이웃한
화소와, 참조 알파맵의 다섯 개의
화소를 포함
-29=512개 확률중 하나가 할당
그림 12.9: 경계 BAB(이진 알파 블럭)내 화소를 위한
CAE의 내용. (a) 인트라-CAE, (b) 인터-CAE.2013-1학기
멀티미디어시스템
CAE(계속)
 어떤 특정한 내용(예, 모두 0이거나 1)이 다른 것보다 더
빈번히 나타남.
일부의 이전 통계치를 가지고 이웃 화소의 수를 k라고
할 때, 각각 2k개 내용의 일어날 확률을 나타내기 위해
확률표를 만들 수 있음.
 각 화소는 그것의 내용을 위한 확률 값을 찾기 위하여
표를 참조할 수 있음. CAE는 단순히 각 BAB에서 16×16
화소를 순차적으로 주사하고 궁극적으로 그 BAB를 위한
단일의 부동소수점을 가지는 수를 유도하기 위해 산술
부호화를 적용.
 인터-CAE 모드는 인트라-CAE의 자연스러운 확장: 그것
은 목표와 참조 알파맵 모두를 포함.
2
929
멀티미디어시스템
2013-1학기
II. 회색도 형상 부호화
 여기서 회색도(gray-scale)는 질감이 아닌 형상의 투명
도(transparency)를 기술하기 위해 사용.
 MPEG-4에서 회색도 형상 부호화(gray-scale shape
coding)는 위에서 기술한 질감 부호화와 같은 기술을 이
용.
 알파 맵과 블럭 기반 움직임 보상을 이용하고, DCT에
의한 예측 오차를 부호화함.
 모든 화소가 VOP내에 있지 않기 때문에 경계 매크로
블럭은 이전처럼 채워 넣기가 필요.
 알파맵이 하나 이상의 비트평면을 가질 때 다중 레벨
의 투명도가 도입됨.
3
030
멀티미디어시스템
2013-1학기
정적 질감 부호화
 MPEG-4는 정적 객체의 질감을 위한 웨이블릿 부호화를 이용.
 질감이 3차원 표면 위 매핑시에 특히 적용
 웨이블릿 부호화는 영상을 다중 주파수의 서브밴드로 반복적 분해
가능
 MPEG-4 정적 질감 부호화에서 서브밴드 부호화는 다음과 같은 방법으
로 실행됨:
 가장 낮은 주파수를 갖는 서브밴드는 DPCM을 이용하여 부호화됨. 각
계수의 예측은 세 이웃을 기반으로 함.
 다음 서브밴드의 부호화는 다중스케일 제로 트리 웨이블릿 부호화
방법을 기반으로 함.
 다중 스케일 제로 트리는 모든 계수의 위치를 더 잘 추적하기 위하여 가
장 낮은 주파수 서브밴드의 각 계수를 위한 부모-자식 관계 트리를 가짐.
 또한 양자화의 정도는 데이트율에 영향을 미침.
3
131
멀티미디어시스템
2013-1학기
스프라이트 부호화
 스프라이트(sprite)는 더 큰 그래픽 영상 또는 영상의 집합 내에
서 자유롭게 주위를 움직일 수 있는 그래픽 영상.
 배경으로부터 전경 객체를 구분하기 위해, 우리는 스프라이트
파노라마(sprite panorama)의 개념을 소개: 한 비디오 프레임의
순서에 걸쳐있는 정적 배경을 기술하는 정지 영상.
 영상꿰매기(stitching) 과 와핑(warping) 기술 이용
 큰 스프라이트 파노라마 영상은 비디오 순서의 시작에서 오직
한 번만 부호화되어 복호화기로 보내질 수 있음.
 복호화기가 개별적으로 부호화된 전경 객체와 지금까지의 카
메라 움직임을 기술하는 매개변수를 받을 때, 그것은 효율적
인 방법으로 장면을 재구성 할 수 있음.
 그림 12.10은 비디오 프레임의 순서로부터 꿰매진 파노라마 영
상인 스프라이트를 보여줌.
3
232
멀티미디어시스템
2013-1학기
그림 12.10: 스프라이트 부호화. (a) 배경의 스프라이트
파노라마 영상, (b) 블루스크린 영상내의 전경 객체(피리
부는 사람) (c) 합성된 비디오 장면
3
333
멀티미디어시스템
* Simon Fraser University Pipe Band에서 제공한 피리 부는 2013-1학기
사람 영상
전역 움직임 보상(GMC)
 팬, 틸트, 회전, 줌 등 보통의 카메라 움직임은 연속적인 비디오 프레임 사
이의 빠른 내용 변화를 일으킴
 전형적인 블록 기반 움직임 보상은 아주 많은 수의 중요한 움직임 벡터
를 가져와서
 움직임 이동 모델로 모두 기술하기 어렵다.
 GMC (Global Motion Compensation)으로 해결
 “전역(Global)” - 카메라 움직임으로 인한 전체적인 변화(팬(pan), 틸트(tilt), 회
전(rotation), 줌(zoom))
GMC(Global Motion Compensation)가 없는 이것은 아주 많은 수의 중요한 움직임
벡터를 가져오는 원인이 됨.
 GMC 알고리즘 내의 네 가지 주요 구성요소:
 전역 움직임 예측
 와핑(warping)과 블렌딩(blending)
 움직임 궤도 부호화
 LMC(지역 움직임 보상: Local Motion Compensation) 또는 GMC의 선택
3
434
멀티미디어시스템
2013-1학기
 전역움직임 예측은 스프라이트에 대하여 현재 영상의
움직임을 계산
 전역 움직임은 스프라이트 S와 전역 움직임 보상된 영
상 I' 사이의 차분 제곱의 합을 최소화 함으로써 계산됨:
 전체 영상에 걸친 움직임은 다음과 같이 정의한 여덟 개
의 매개변수를 사용한 원근움직임 모델(perspective
motion model)에 의해 매개 변수화 됨:
35
 와핑과 블렌딩
 움직임 파라미터가 계산되면 배경 영상은 스프라이트에 대
하여 정렬하기 위해 와핑된다.
 와핑된 영상은 새로운 스프라이트 생성을 위해 현재 스프라
이트와 혼합된다.
 움직임 궤적 부호화
 직접적으로 움직임 파라미터를 전송하는 대신에 기준점의
변위(displacements)만을 부호화한다.  궤적부호화라고 함
 지역 움직임 보상(LMC) 또는 GMC 의 선택
 움직이는 배경에 GMC, 전경에는 LMC 적용
36
12.3 MPEG-4의 합성 객체 부호화
2차원 매쉬 객체 부호화
 2차원 매쉬(2D mesh): 다각형 조각을 이용한 2차원 평면 영역의 모자
이크(또는 분할):
 다각형의 정점들은 매쉬의 노드(node)라고 부름.
 가장 대표적인 매쉬는 모든 다각형이 삼각형인 삼각형 매쉬
(triangular mesh).
 MPEG-4 표면은 두 가지 형태의 2차원 매쉬를 이용 : 균일 매쉬
(unform mesh)와 Delaunay 매쉬
 합성 애니메이션 객체와 자연 비디오 객체 모델링에 이용
 2차원 매쉬 객체 부호화는 간결. 매쉬의 모든 좌표 값은 반화소 정
밀도로 부호화됨.
 각각의 2차원 매쉬는 매쉬 객체 평면(MOP: mesh object plane)으로 여겨
짐.
3
737
멀티미디어시스템
2013-1학기
변위 데이터
움직임의 예측 오차
-부호화는 기하학 부호화와 움직임 부호화로 나누어짐.
그림 12.11: 2차원 매쉬 객체 평면(MOP) 부호화 과정
3
838
멀티미디어시스템
2013-1학기
I. 2차원 매쉬 기하학 부호화
 MPEG-4는 다른 3각 측량 구조(triangulation structure)를
가지는 네 가지 형태의 균일 매쉬를 허용.
그림 12.12: 균일한 매쉬의 4가지 유형
각각의 균일 메쉬는 5개 파라미터로 기술: 처음 두 개는 행과 열의 노드 수, 다음 두 개는
각 직사각형의 수평/수직 크기, 마지막은 균일 메쉬의 타입을 나타냄
3
939
멀티미디어시스템
2013-1학기
 Delaunay 메쉬는 임의 형상의 2차원 객체를 위한 더 나
은 객체 기반 메쉬 표현.
 정의: 만약 D가 Delaunay 3각 측량이라면, 그것 중의 어떤
삼각형 tn = (Pi, Pj, Pk)∈D는 tn의 외접원이 그것의 내부에
어떤 다른 노드 점 Pl을 포함하지 않는다는 속성을 만족
함.
 비디오 객체를 위한 Delaunay 매쉬는 다음의 단계에서 얻
을 수 있음:
1. 매쉬의 경계 노드를 선택함: 다각형은 객체의 경계를
근사화하는데 이용.
2. 내부 노드를 선택함: 객체 경계 내에 있는 특징점(예,
가장자리 점 또는 모서리)은 매쉬를 위한 내부 노드
로 선택되어짐.
3. Delaunay 3각 측량을 실행함: 제한된 Delaunay 3각 측
량은 다각형 경계를 제한으로 사용하여 경계와 내부
노드에서 실행됨.
4
040
멀티미디어시스템
2013-1학기
제한된 Delaunay 3각 측량
 내부 가장자리는 새로운 삼각형을 형성하기 위해 먼저 더
해짐.
 그 알고리즘은 그것이 국부적으로 Delaunay인 것을 확신하
기 위해 각각 내부의 가장자리를 검사할 것임.
 가장자리jk 를 공유하는 두 삼각형 (Pi, Pj, Pk)와 (Pj, Pk, Pl)이
주어지고, 만약 그것의 내부에서 (Pi, Pj, Pk)가 Pl를 포함하
거나 (Pj, Pk, Pl)이 Pi를 포함한다면, jk 는 국부적으로
Delaunay가 아니고 새로운 가장자리 il에 의해 교체될 것임.
 만약 Pl이 정확하게 (Pi, Pj, Pk)의 외접원에 있게 된다면(따
라서 Pi 또한 정확하게 (Pj, Pk, Pl)의 외접원에 있게 된다면),
Pi또는 Pl이 네 개의 노드 사이에 가장 큰 x 좌표를 가질 때
만 는 국부적으로 Delaunay로 간주됨.
jk
41
그림 12.13: Delaunay 매쉬: (a) 경계 노드(P0 ~ P7)과
내부 노드(P8 ~ P13). (b) 제한된 Delaunay 3각 측량에
의해 얻어진 삼각형 매쉬.
 처음 위치 (x0, y0)를 제외하고, 다음의 모든 좌표는 차분
이 부호화됨. ᅳ 즉, n ≥ 1일 때,
42
그 뒤에 dxn, dyn는 가변 길이 부호화됨.
II. 2차원 매쉬 움직임 부호화
 새로운 매쉬 구조는 오직 인트라-프레임에서만 생성
될 수 있고, 그것의 3각 위상 기하학은 다음의 인터-프
레임에서 변경되지 않을 것임. ᅳ 2차원 매쉬 움직임
예측에서 1대 1사상을 시행함.
 어떤 MOP 삼각형 (Pi, Pj, Pk)을 위해, 만약 Pi와 Pj를 위한
움직임 벡터가 MVi와 MVj로 알려지면, 예측 Predk은 반
화소 정밀도로 반올림되어 Pk의 움직임 벡터를 위해
생성될 것임:
예측 오차 ek는 다음과 같이 부호화됨:
43
움직임 벡터의 예측은 초기 삼각형 to에서 시작
-MOP내의 다른 노드를 위한 움직임 벡터는
차분이 부호화됨
-폭-우선순위로 진행.
그림 12.14: 2차원 매쉬 움직임 부호화를 위한 MOP
삼각형의 폭 우선 순서
4
444
멀티미디어시스템
2013-1학기
그림 12.15: 2차원 객체 애니메이션을 위한 매쉬
기반 질감 매핑
4
545
멀티미디어시스템
2013-1학기
12.3.2 3차원 모델 기반 부호화
 비디오에서 사람 얼굴과 몸의 빈번한 출현 때문에,
MPEG-4는 얼굴 객체(face objects)와 몸 객체(body
objects)를 위한 특별한 3차원 모델을 정의함.
 이러한 새로운 비디오 객체를 위한 잠재적인 몇 가지의
응용분야는 원격 회의, 인간-컴퓨터 인터페이스, 게임,
전자상거래를 포함.
 얼굴 또는 몸 객체의 표면이 명암(shaded)을 나타내거나
질감-사상(texture-mapped)될 수 있도록 MPEG-4는 와이어
프레임(wireframes)의 범위를 뛰어 넘음.
4
646
멀티미디어시스템
2013-1학기
I. 얼굴 객체 부호화와 애니메이션
 MPEG-4는VRML 컨소시엄에 의해 개발된 일반 기본 얼
굴 모델을 채택.
 얼굴 애니메이션 매개변수(FAPs: Face Animation
Parameters)는 원하는 애니메이션(원본 “무표정” 얼굴로
부터 유도)을 이루기 위해 기술될 수 있음.
 게다가, 얼굴 정의 매개변수(FDPs: Face Definition
Parameters)는 개개의 얼굴을 더 잘 묘사하기 위해 기술
될 수 있음.
 그림 12.16은 FDPs를 위한 특징 점을 보여줌. 애니메이션
에 의해 영향을 받을 수 있는 특징 점(FAPs)은 꽉 찬 원으
로 보여지고 영향을 받지 않는 다른 것들은 빈 원으로
보여짐.
4
747
멀티미디어시스템
2013-1학기
4
848
그림 12.16: 얼굴 정의 매개변수를 위한 특징 포인트
(FDPs). (치아(teeth)와 혀(tongue)를 위한 특징 포
멀티미디어시스템
2013-1학기
인트는 보이지 않음.)
II. 몸 객체 부호화와 애니메이션
 MPEG-4 버전 2는 얼굴 객체로의 자연스러운 확장인 몸
객체(body objects)를 도입.
 VRML 컨소시엄내의 휴머노이드 애니메이션(H-Anim)그
룹과 작업하여, 기본 자세를 가지는 일반적인 가상 인간
몸을 채택.
 기본자세는 정면을 향하는 발, 손바닥이 안으로 향하
고 옆쪽에 팔을 두고 서 있는 자세.
 296 몸 애니메이션 매개변수(BAPs: Body Animation
Parmeters)가 있음. MPEG-4에 순응하는 어떤 일반적
인 몸에 적용될 때, 그것들은 같은 애니메이션을 생성
할 것임.
4
949
멀티미디어시스템
2013-1학기
 상당히 많은 BAPs는 몸의 다른 부분을 연결하는 관절
부분을 기술: 척추, 어깨, 쇄골, 팔꿈치, 손목, 손가락,
엉덩이, 무릎, 발목, 발가락 ᅳ 각각의 손에만 25개 정
도의 자유도이고, 몸에는 186개 정도의 자유도를 가짐.
 몇몇 몸의 움직임은 세부적인 다중 등급 내에서 기술
할 수 있음.
 특정한 몸을 위해, 몸 정의 매개변수(BDPs: Body
Definition Parameters)는 몸 차원, 몸 표면 기하학, 그리
고 선택적으로 질감을 위해 명시될 수 있음.
 BAPs의 부호화는 FAPs의 그것과 유사함: 양자화와 예측
부호화가 이용되고, 예측 오차는 산술 부호화에 의해 더
욱 압축됨.
5
050
멀티미디어시스템
2013-1학기
12.4 MPEG-4 객체 유형, 프로파일 및 레벨
 MPEG-4에서 프로파일(Profiles)과 레벨(Levels)의 표준화는
두 가지 주요 목적을 가짐:
(a) 구현된 시스템 간의 상호 동작성을 보장
(b) 표준에 대한 순응 시험을 허용
 MPEG-4는 비주얼 프로파일과 오디오 프로파일 뿐만 아
니라 그것의 시스템 부분에서 그래픽 프로파일, 장면 묘
사 프로파일, 객체 묘사 프로파일도 명시.
 객체 유형(object type)은 비디오 객체를 생성하고 장면
을 결합하는 방법을 만들기 위해 필요한 도구들을 정의
하여 소개함.
5
151
멀티미디어시스템
2013-1학기
표 12.1: MPEG-4 자연적인 비주얼 객체
유형을 위한 도구들
5
252
멀티미디어시스템
2013-1학기
표 12.2: MPEG-4 자연적인 비주얼 객체
유형과 프로파일
 예를 들면 “메인 프로파일”은 오직 “Simple”, “Core”, “Main”,
“Scalable Still Texture”의 객체 유형을 지원함.
5
353
멀티미디어시스템
2013-1학기
표 12.3: Simple, Core, Main 비주얼
프로파일에서의 MPEG-4 레벨
5
454
멀티미디어시스템
2013-1학기
12.5 MPEG-4 Part 10/H.264
 이전에 “H.26L”로 알려진, H.264 비디오 압축 표준은
ISO/IEC MPEG과 ITU-T VCEG의 Joint Video Team (JVT)에 의
해 개발.
 새로운 표준 기반의 소프트웨어를 이용한 예비 연구는
H.264가 MPEG-2 보다 30∼50% 더 나은 압축을 제공하고,
H.263+와 MPEG-4의 개선된 Simple 프로파일보다 30% 더
나은 압축을 제공한다는 것을 제안.
 이 연구의 성과는 실질적으로 두 개의 동일한 표준: ISO
MPEG-4 Part10과 ITU-T H.264.
 H.264는 현재 많은 잠재적인 응용에서 고 선명도 TV
(HDTV: High Definition TV) 비디오 내용을 전달하는 유력한
후보 중에 하나.
5
555
멀티미디어시스템
2013-1학기
 핵심 특징
 VLC 기반 엔트로피 부호화:
두 가지 엔트로피 방법은 가변 길이 엔트로피 복호화기에
서 이용: 단일화된-VLC(UVLC)와 내용 적응적 VLC(CAVLC)
 움직임 보상(P-예측):
4×4 블럭 크기(16×16, 16×8, 8×16, 8×8, 8×4, 4×8, 4×4)까지
트리 구조의 움직임 분할을 이용. 이것은 움직이는 객체의
더욱 정확한 움직임 보상을 허용. 게다가 움직임 벡터는 반
화소 또는 4분의 1화소 정확도까지 될 수 있음.
 인트라-예측 (I-예측):
H.264는 H.263+와 같은 이전 비디오 표준보다 더 많은 공간
예측을 이용.
5
656
멀티미디어시스템
2013-1학기
 변환, 주사, 양자화: 간단한 정수-정밀도 4×4 DCT와
비선형 단계-크기를 갖는 양자화 방식을 사용.
 H.264에서 정확한 P-와 I-의 예측에 의해 오차 화소의 공간 상
관도는 낮기 때문에 4x4 DCT 로 충분
 루프내 디블럭킹 필터: H.264는 정교한 신호 적응적인
디블록킹 필터를 명시
 일련의 필터 세트는 4x4 블록 에지에 적용
 표준의 주관적인 품질을 증가시킴
5
757
멀티미디어시스템
2013-1학기
 기준선 프로파일 특징
H.264의 기준선 프로파일은 화상 회의와 같은 실시간 대
화 응용을 위해 의도되었음.
그것은 위에서 논의한 H.264의 모든 핵심 부호화 도구들
과 다음의 부가적인 오류복원 도구들을 포함하는데, IP
와 무선 네트워크와 같은 오류가 발생할 경향이 있는 네
트워크를 위해 허용함.
 임의의 슬라이드 순서(ASO): 단순 증가가 아님.
 융통성있는 매크로블럭 순서(FMO): 매크로 블록은 래
스터 주사 순서가 아닌 임의의 순서로 복호화
 잉여 슬라이스: 슬라이스의 잉여 복사분은 오차 복원
력 개선
5
858
멀티미디어시스템
2013-1학기
 메인 프로파일 특징
방송과 저장 매체와 같은 비저지연(non-low-delay) 응용을
묘사.
메인 프로파일은 모든 기준선 프로파일 특징(ASO, FMO,
잉여 슬라이스는 제외)에 다음을 추가하여 포함:
 B 슬라이스: H.264 의 쌍예측 모드는 융통성 제공.
 내용 적응적 이진 산술 부호화(CABAC): 다른 데이터타
입과 내용에 대해 다른 적응적 통계치 모델을 이용하
는 이진 산술 부호화
 가중된 예측: 조명의 변화나 페이딩(fading)과 같은 다
른 전역 효과를 예측하기 위해 전역가중치를 각 슬라
이스에 명시
5
959
멀티미디어시스템
2013-1학기
 확장 프로파일 특징
 확장 프로파일(또는 프로파일 X)은 새로운 비디오 스트리밍 응
용을 위해 디자인. 이 프로파일은 비저지연 특징, 비트스트림 스
위칭 특징, 더 나은 오차-복원 도구들을 허용.
 모든 기준선 프로파일 기능과 다음 특징 포함
 B 슬라이스
 가중된 예측
 슬라이스 데이터 분할
 SP와 SI 슬라이스 타입: 특별한 시간적 예측 모드가 포함된 슬
라이스
6
060
멀티미디어시스템
2013-1학기
12.6 MPEG-7
 MPEG-7의 주요 목표는 디지털 도서관과 같은 응용에서
오디오 비주얼 내용 기반 검색(또는 오디오 비주얼 객체
검색)의 필요성을 충족시키는 것.
 그럼에도 불구하고, 그것은 또한 멀티미디어 데이터의
생성(내용 창작)과 이용(내용 소비)을 포함하는 어떤 멀
티미디어 응용에 적용할 수 있음.
 MPEG-7은 2001년 9월에 멀티미디어 내용 묘사 인터페이
스(Multimedia Content Description Interface)라는 공식
이름으로 국제 표준이 되었음.
6
161
멀티미디어시스템
2013-1학기
MPEG-7에 의해 지원되는 응용
 MPEG-7은 다양한 멀티미디어 응용을 지원. 그것의 데이
터는 정지 영상, 그래픽, 3차원 모델, 오디오, 음성, 비디
오, 합성 정보(이러한 요소들을 결합하는 방법)를 포함.
 MPEG-7 데이터 요소는 텍스트 형식(textual format) 또는 이
진 형식(binary format) 또는 두 가지 모두 표현할 수 있음.
 그림 12.17은 MPEG-7표준으로부터 이들을 얻을 수 있는
몇몇 가능한 응용을 설명함.
6
262
멀티미디어시스템
2013-1학기
그림 12.17: MPEG-7을 이용하여 가능한 응용들
6
363
멀티미디어시스템
2013-1학기
MPEG-7과 멀티미디어 내용 기술
 MPEG-7은 기술자(D), 기술 체계(DS), 기술 정의 언어(DDL)를
개발함. 다음은 몇 가지 중요한 용어들임:
 특징 ᅳ 데이터의 특색
 기술 ᅳ 구조와 내용의 개념적 정보, 저장과 내용의 사용
등등을 기술하는 구체적으로 설명된 D와 DS의 집합.
 기술자(D) ᅳ 특징의 정의(신택스와 시맨틱스)
 기술 체계(DS) ᅳ 구조 및 D 와 DS사이 관계의 명세서
 기술 정의 언어(DDL) ᅳ DS와 D를 표현하고 결합하기 위한
구문적 규칙
 MPEG-7의 범위는 기술을 위해 D, DS와 DDL을 표준화하는 것
임. 기술을 만들고 소비하는 메커니즘과 처리 과정은 MPEG-7
의 범위 밖임.
6
464
멀티미디어시스템
2013-1학기
기술자(D: Descriptor)
 MPEG-7 서술자는 색깔, 질감, 형상, 움직임과 같은 낮은 레벨 특징과 이벤
트, 추상적 개념과 같은 높은 레벨 특징을 모두 서술
 기술자는 성능, 효율, 크기의 비교를 기반으로 선택. 기본적인 비주얼 특징
을 위한 낮은 레벨 비주얼 기술자는 다음을 포함:
 색(Color)
 색 공간 (a) RGB, (b) YCbCr, (c) HSV(색상, 채도, 명암), (d) HMMD






6
565
(HueMaxMinDiff), (e) RGB로부터 3×3 행렬에 의해 유도될 수 있는 3차
원 색 공간, (f) 단색
색 양자화 (a) 선형, (b) 비선형, (c) 참조표
우위 색: 각 영역 혹은 영상에서 대표적인(dorminant) 색
스케일러블 색: HSV 색 공간의 색 히스토그램
색 레이아웃: 색 레이아웃 기반 검색을 위한 색의 공간 분포
색 구조: 색 구성 요소의 주파수
프레임의 그룹/ 영상의 그룹(GoF/GoP) 색
멀티미디어시스템
2013-1학기
 질감(Texture)
 동질성의 질감: 정량적으로 동질성의 질감 영역을 표현하기 위해
Gabor 필터 이용
 질감 브라우징: 동질성의 질감 표현과 탐색을 위해 에지의 규칙성, 조
악함, 방향성을 서술
 에지 히스토그램: 네 개의 방향성 (0º, 45º, 90º, 135º) 에지와 하나의 방
향성 없는 에지의 공간적 분포를 나타냄
 형상(Shape)
 영역 기반 형상: ART(Anglular Radial Transform) 계수 집합이 객체의 형상
을 서술하기 위해 이용된다.
 윤곽 기반 형상: 스케일과 회전에 불변이고 유연한 움직임과 형상의
부분 겹침에 강건한 CSS(Curvature Scale Space) 표현이 이용된다.
 3차원 형상: 3차원 메시와 형상 인덱스를 기술한다.
6
666
멀티미디어시스템
2013-1학기
 움직임(Motion)
 카메라 움직임(그림 12.18을 보라)
 객체 움직임 궤도
 파라메트릭 객체 움직임
 움직임 활동
 위치 측정(Localization)
 영역 경계 설정자
 시공간 경계 설정자
 기타(Others)
 얼굴 인식: 정규화된 얼굴 영상은 1차원 벡터로 표현. 그 외는 49개 기
본 벡터의 집합으로 표현
6
767
멀티미디어시스템
2013-1학기
6
868
그림
12.18: 카메라 움직임: 팬, 틸트, 롤, 돌리, 트랙,
붐
멀티미디어시스템
2013-1학기
기술 체계(DS: Description Scheme)
 기본적인 요소(Basic Elements)
 데이터 타입과 수학적 구조: 벡터, 행렬, 히스토그램 등
 구성: 미디어 파일과 국부화된 부분, 영역을 링크
 설계 도구: 기본 요소, 최고 레벨 요소, 패키지 도구
 내용 관리(Content Management)
 미디어 기술: 하나의 DS, 미디어 정보, 미디어 검증, 부호화
방법 등
 창작과 생산 기술: 창작, 분류 등
 내용 사용 기술: 사용 권리, 사용 기록 등
 내용 기술(Content Description)
 구조적 기술: 세그먼트 DS는 내용의 구조적 측명 기술. 세
그먼트는 오디오비주얼 객체의 부분. 세그먼트 트리, 세그
먼트 그래프 이용.
6
969
멀티미디어시스템
2013-1학기
예를 들면, 분할 DS는 클래스 객체로서 구현될 수 있음. 그것은 다섯 개
의 하위 클래스를 가질 수 있음: 오디오 비주얼 분할 DS, 오디오 분할
DS, 정지 영역 DS, 움직이는 영역 DS, 비디오 분할 DS. 하위 클래스 DS
들은 순환적인 그 자신의 하위 클래스를 가짐.
 개념적 기술: 이벤트 DS, 객체 DS, 상태 DS, 개념 DS 와
같은 높은 레벨의 내용 서술 포함
 항해와 접근(Navigation and Access)
 요약: 키프레임만 보여줌. 비디오 요약 제공. 요약 DS,
계층적 요약 DS, 하이라이트레벨 DS, 순차요약 DS 지
원.
 분할과 분해: 뷰(view) 분할과 분해 참조
 내용의 변화: 변화 DS는 영상 해상도, 프레임율, 컬러
감축 등 원래 데이터의 변화 명시
7
070
멀티미디어시스템
2013-1학기
 내용 구성(Content Organization)
 수집물: 수집 구조 DS 는 오디오비주얼 내용을 그룹화.
 모델: 모델 DS는 수집물의 속성과 특징에 관한 모델과
통계치를 추출하는 확률 모델 DS, 분석 모델 DS 등 포
함
 사용자 상호 작용(User Interaction)
 사용자 선호: DS들은 내용 타입, 탐색 모드 등에 의해
선호도가 변경되는지 서술
7
171
멀티미디어시스템
2013-1학기
- 해양 구조 임무를 위한 비디오 세그먼트
- 세 움직임 영역으로 된 비디오 세그먼트 기술
-세그먼트 그래프는 비디오 프레임 공간관계와 영역의
움직임의 합성을 보여줌
7
272
그림 12.19: MPEG-7 비디오 분할
멀티미디어시스템
2013-1학기
-퍼레이드와 경주 비디오의 요약
-요약은 세 레벨 계층으로 구성
그림 12.20: 비디오 요약
7
373
멀티미디어시스템
2013-1학기
기술 정의 언어(DDL)
 MPEG-7은 그것의 기술 정의 언어(DDL: Description Definition
Language)로써 초기에 WWW 컨소시엄(W3C)에 의해 개발된
XML 스키마 언어를 채택함. XML 스키마 언어는 오디오비주
얼 내용을 위해 명확하게 설계되지 않았기 때문에 몇 가지를
확장했음:
 배열과 행렬 데이터 유형
 오디오, 비디오, 오디오비주얼 발표를 포함하는 다중의 미
디어 유형
 MimeType, CountryCode, RegionCode, CurrencyCode, and
CharacterSetCode를 위해 열거된 데이터 유형
 D와 DS를 위한 지적 재산권 관리 및 보호(IPMP: Intellectual
Property Management and Protection)
7
474
멀티미디어시스템
2013-1학기
12.7 MPEG-21
 최신 표준의 개발인, MPEG-21: 멀티미디어 프레임워크
는 2000년 6월에 시작되어 예정된 2003년에 국제 표준이
되었음.
 MPEG-21의 버전은 서로 다른 공동체에 의해 사용된 넓
은 범위의 네트워크와 장치를 교차하여 멀티미디어 자
원의 손쉽고 증대된 사용을 가능하게 하는 멀티미디어
프레임워크를 정의하기 위함.
 MPEG-21에서 7가지 중요한 요소:
 디지털 항목 선언 ᅳ 디지털 항목을 선언하기 위한 일
률적이고 신축성있는 추상적 개념과 상호 운용 가능
한 스키마를 수립하기 위함.
 디지털 항목 확인과 기술 ᅳ 원본, 유형 또는 입자 모
양의 관계없이 디지털 항목의 표준화된 확인과 기술
을 위한 프레임 워크를 수립하기 위함.
7
575
멀티미디어시스템
2013-1학기
 내용 관리와 사용 ᅳ 내용의 관리와 사용(탐색, 캐싱, 파일
보관, 분배 등)을 돕는 인터페이스와 프로토콜을 제공하기
위함.
 지적 재산권 관리와 보호(IPMP) ᅳ 내용이 신뢰성 있게 관
리되고 보호되는 것을 가능하도록 함.
 터미널과 네트워크 ᅳ 넓은 범위의 네트워크와 터미널을
교차해서 서비스의 질(QoS)을 갖는 내용에 상호 운용 가능
하고 손쉬운 접근을 제공하기 위함.
 내용 발표 ᅳ MPEG-21의 목표, 즉 “내용을 언제든지 어느
곳에서든지”를 추구하기 위한 적절한 방법으로 내용을 표
현하기 위함.
 이벤트 보고 ᅳ 성능과 대안을 이해하기 위한 이벤트(사용
자 상호작용)를 보고하기 위한 계량법과 인터페이스를 수
립하기 위함.
7
676
멀티미디어시스템
2013-1학기