제 6장 MPEG

Download Report

Transcript 제 6장 MPEG

제 6장 MPEG
1
1.MPEG의 개요
1.1 MPEG의 모임

MPEG : 국 제 표 준 화 기 구 (ISO,
International Standard rganization)와 국
제 전기기술위원회(IEC, International
Electrotechnical Commission) 가 정 보
표현의 표준화를 위해 구성한 공동 기술
위 원 회 1(JTC1, Joint Technical
Committee 1) 산하

전문 부회 29(SC29, Sub-Committee
29)에서 동영상 부호화 (동영상, 소리 압
축 및 동기화) 표준을 만드는 목적으로
구
성된 작업 그룹 11(WG11, Work
Group 11)의 별칭임
2
1.2 MPEG의 구성
1.2 MPEG의 구성
3
2.1 MPEG-1의 개념
및 특징

MPEG-1
- CD-ROM과 같은 저장 미디어에 대한 재생용으로
고안
- 부호화에는 다소 시간이 걸리지만, 복호화에는 실
시간 처리가 가능
2.1 MPEG-1의 개념 및 특징

H.261과 JPEG을 기본으로 하되, 이를 개량하
여 만든 것으로서, 1.5 Mbps까지의 부호화 비트
율(bit rate)을 지원

화 면 의 구 조 로 서 새 로 운 GOP(Group Of
Pictures) 구조를 채용함

프레임 단위의 압축은 물론 프레임간의 연관
성을 이용한 압축방법 적용

2차원 공간상의 중복을 제거하기 위해 DCT
이용
4
2.1 MPEG-1의 개념 및
특징


비디오 시퀀스가 갖는 시간축 상의 중복을 없
애기 위해 움직임 보상방법을 이용
프레임 메모리 2장을 사용하여 쌍방향 예측
수행

임의 접근(Random access)을 가능케 하기 위
해, 프레임내 부호화 화면(I picture)을 주기적으
로 도입하고, 프레임내 부호화 화면이 적어도 1
장 들어가는 GOP 구조를 제공함

CD-ROM과 같은 읽기 전용 기억장치(Readonly memory)에서의 이용을 주요 대상으로 하
였으므로 부호화에 소요되는 시간은 어느 정도
허용된 반면, 복호 처리는 실시간으로 가능하게
함

스크린 포맷에 있어서 화면 크기를 자유롭게
선택할 수 있도록 함(두 가지 형태의 SIF
(Source Input Format) 지 원 . NTSC 용 :
352 ?240 화 소 에 초 당 30 프 레 임 , PAL 용 :
352 ?288 화소에 초당 25프레임으로 각각 구성
되어 있음)
5
2.2 픽처 타입
2.2 픽처 타입
① I 픽처 (Intra-Picture)
- 인트라 부호화 영상의 약칭으로 프레임내의
부호화 영상을 말함
- 하나의 프레임으로부터 압축되어 독립적으
로 복원이 가능한 프레임
- 움직임 보상을 이용하지 않고 해당 프레임
만을 DCT해서 부호화함
6
2.2 픽처 타입
② P 픽처 (Unidirectionally Predicted Pictures)
- 예측 부호화영상의 약칭으로서 프레임 간(Intraframe) 순방향 예측 부호화 영상을 말함
- I 또는 다른 P 픽처를 기준으로 삼아 움직임을 보
상한후, 나머지 차이분을 DCT 변환하여 부호화
함
③ B 픽처 (Bidirectionally Predictive Pictures)
- 쌍방향 예측 부호화 영상으로서 과거로부터 예측
하는 순방향 프레임간 예측 부호화 방식과 미래
로부터 예측하는 역 방향 프레임간 예측 부호화
방식을 모두 수행함
- I, P 픽처를 먼저 처리한 후 B 픽처를 부호화하므
로 원래 화면의 순서와 화면의 처리순서가 달라
짐
7
2.2 픽처 타입
8
2.4 MPEG-1의 데이터
구조
2.4 MPEG-1의 데이터 구조
① 시퀀스 층
- 화면 크기나 화면률(가로 : 세로 비율) 등과
같이 일련의
같은 속성을 갖는 화면 그룹
- 시 퀀 스 헤 더 화 면 의 수 평 크 기 (Horizontal
Size : HS), 화면의 수직크기(Vertical Size :
VS), 화소의 종횡비(Pel Aspect Ratio : PAL),
영상의 표시주기(Picture Rate : PR), 초당 비
트 수 (Bit Rate : BR), 시 퀀 스 종 료 코 드
(Sequence End Code : SEC) '000001B8' 순
서로 표시
② GOP(Group Of Pictures) 층
- 랜덤 액세스가 가능한 독립적인 부호화단위
9
2.4 MPEG-1의 데이터
구조
③ 픽처 층
- 픽처 타입등과 같이 1장의 스크린에 공통된 속성
으로서 임의 길이의 슬라이스로 분해됨
- 픽처층 개시코드(Picture Start Code : PSC), 화면
의 순서를 나타내는 TR(Temporal Reference), 픽
처타입, 움직임 벡터가 정수 단위인지를 나타내
는 플래그, 움직임벡터의 프레임 간격이 이어짐
④ 슬라이스 층
- 매크로 블록(MB)이 여러 개 합쳐진 것을 말함
- 슬라이드 수직위치를 포함한 개시코드 다음에는
양자화
스케일 값이 오고 부가정보를 덧붙일
수 있음
⑤ 매크로 블록(MB) 층
- 슬라이스 층을 더욱 분할한 MB에 공통인 정보를
포함, 휘도 신호(Y)와 색신호(Cb, Cr)블록으로 구
성
10
2.4 MPEG-1의 데이터
구조
⑥ 블록 층
DCT 처리 단위로서 8? 비트의 크기를 가지
며, 블록층의 종료는 EOB로 표시
11
2.5 MPEG 오디오
1)개요
- 고품질 스테레오 부호화를 위한 ISO/IEC의 표준
방식으로서, MPEG 내에서 동영상 부호화와 병행
하여 표준화됨
-
최소가청한계 : 인간이 감지하는 음의 최소레벨
을 말하며, 음의 고저에 따라 다름
- 마스킹 특성 : 왜곡이나 배경잡음의 감지한계와 관
계가 있으며 특정음의 감지한계는 함께 들리는
다른 음에 의해 크게 변함
- MPEG 오디오 부호화시 먼저 크리티컬 밴드등의
청각심리를 효율적으로 이용하기 위하여 서브밴
드로 오디오 주파수 대역을 세분화함
- 다음 각 대역별로 양자화를 행하는데, 이때 청각
심리모델의 결과가 제어신호로서 이용됨
- 양자화된 결과에 대해서 최종적으로 부호화를 행
함
12
2.5 MPEG 오디오
13
2.5 MPEG 오디오
2) MPEG 오디오 압축원리
- 악음신호 등을 표본화하는데 많이 사용하는
PCM 부호에서는 40 kHz 이상의 표본화 주
파수와 16비트 정도의 비트 수가 필요함
- 디지털화에 따라 발생하는 잡음에너지를 임
계영역 안에 들어가게 함으로써 이들 잡음
이 인간에 들리지 않게 함
14
2.5 MPEG 오디오
3) MPEG 오디오 알고리즘
15
2.5 MPEG 오디오
4) MPEG 오디오 데이터 구조
16
MPEG AUDIO
17
목차



음성의 기본
MPEG AUDIO의 개념
MPEG AUDIO의 압축원리




가변장부호화
(엔트로피 부호화(Entropy encoding)
지각부호화(Perceptual Coding)
MPEG AUDIO의 알고리즘
MPEG AUDIO의 구조와 비트열 구성
18
목차

MP3(MPEG-1 Audio Layer 3)

MP4(MPEG-2 AAC(Advanced Audio
Coding))
19
음성의 기본



인간이 들을 수 있는 가청 주파수(보통 오디
오라 한다)
 20 ~ 20kHz
인간이 내는 음향신호 = 음성(speech)
 600 ~ 6000Hz
 보통 3.4kHz 이내이다.
소리세기
 소리파형의 진폭(amplitude)
 데시벨 (dB : decibel)
 dB = 20 log 10 (A/B) 20dB 10배
 일상적인 대화에 해당되는 소리 세기 :
70dB
20
MPEG AUDIO의 개념

MPEG 오디오는 고품질, 고성능률 스테레오 부호화를 위
한 ISO/IEC의 표준방식이다.

MPEG AUDIO 부호화시에는 CD-DA(Compact DiscDigital Audio)나 DAT(Digital Audio Tape)와 동일한 표본
화 주파수를 사용

기존 디지털 오디오는 샘플링 주파수 32kHz, 44.1kHz,
48kHz의 PCM(Pulse Code Modulation)부호가 널리 사용.


16x44100x2 = 약 1.4Mbps
MPEG AUDIO는 128~254kbps정도로 부호화 가능
21
MPEG AUDIO의 압축원
리

가변적 부호화
 비손실 압
축

지각부호화
 인간의 감
각을 최대
한 이용한
압축
22
MPEG AUDIO의
압축원리
PCM 오디
오 셈플
33, 44.1,
48kHz
Mappi
ng
서브 밴드
분석필터
양자화
및
부호화
Frame
Packin
g
청각
심리
MPEG AUDIO 부호
화기
부호화
Frame
비트 스
트림
Unpack
ing
Recons
truction
MPEG-1 AUDIO 복
호화기
모델
Inverse
PCM
Mappin
g
DAT
A
23
가변적 부호화

가변-길이 부호화(run-length coding)

허프만 부호화(Huffman coding)
24
지각 부호화

최소가청한계

마스킹 특성
25
최소가청한계

최소 가청한계보다 커야 들을 수 있다.
26
마스킹 특성


마스커(Masker) : 마스킹하는 음
마스키(Maskee) : 마스킹 되어 들리지
않는 음
27
마스킹 특성

크리티컬 밴드(Critical Band;임계영역) : 마스킹 되는
영역
28
MPEG AUDIO의 알고리즘
모드
통상 사용되는 비트율
사용되는 부호화방식
하드웨어
규모
계층 1
128kbps(mono)
256kbps(stereo)
32서브밴드
스케일 팩터
비트할당
384샘플/프레임
작다
계층 2
96kbps(mono)
192kbps(stereo)
32서브밴드
스케일 팩터
비트할당
3개조 1152샘플/프레임
중간
계층 3
64kbps(mono)
128kbps(stereo)
32서브밴드
스케일 팩터
비트할당
384샘플/프레임
허프만 부호화
크다
29
MPEG AUDIO의
알고리즘

서브 밴드 부호화


스케일 팩터


32개 주파수 대역으로 세분화 하여 부
호화.
양자화 잡음을 제한.
적응 비트 할당

부호화 비트 조절

그룹 부호화

허프만 부호화
30
MPEG AUDIO의 구조와 비트열 구
성

AAU(Audio Access Unit) - MPEG AUDIO 스트림
의 한 프레임 , 단독으로 복호할 수 있는 최소단위
 부가 데이터 영역 – AAU의 끝에 도달하지 않
는 경우의 남는 부분, 이 부분은 오디오 이외의
데이터가 삽입될 수 있다.
AAU
AAU
Header(32bit)
AAU
AAU
Error
Check
AAU
Audio
Data
AAU
……
부가 데이
터
31
MP3

MPEG-1 Audio Layer 3

MP3는 오디오 데이터의 압축기술로서
MPEG -1기능 사양 중 일부이다
32
MP4

MP4의 공식 명칭은
MPEG-2 AAC(Advanced Audio Coding)로 MPEG2 NBC(Non Backwards ompatibility)라고도 부른다

MPEG-2에서 파생되었다

MP4
 저작권 복제 방지 시스템을 강화했다.
 사용자마다 인증된 키를 주고 곡을 다운
로드할 때 키에 맞는 암호를 걸어 배포
한다.
33
MP3 & MP4



MP3
 곡 전체의 정보를 담는 헤더 뒤에 데이
터가 프레임이라는 단위로 저장된다.
 이 프레임의 크기는 고정되어 있어 압축
률이 높은 부분에서도 쓸모 없는 용량을
차지한다.
MP4
 프레임은 가변 구조로 압축률에 따라 크
기 가 변하므로 전체 파일의 용량이 훨
씬 줄어든다.
파일 크기

MP4 =(1/3) MP3
34
3. MPEG-2 부호화
방식

기술적으로는 통신 미디어용인 H.261이나 저
장 미디어용인 MPEG-1을 기반으로 개발

대상 영상을 현행 TV품질 이상으로 하고 실제
표준화 작업에 있어서도 통신, 가전, 컴퓨터, 방
송 등 각 분야로 광범위 하게 응용 가능

고화질 디지털 영상을 이용하여 가라오케, 영화,
멀티미디어 시스템 등에 활용 가능

메인 프로파일(Main profile) : 대부분의 어플리
케이션을 지원하기 위해 정의되었으며, 2 ∼15
Mbps 정도의 비디오 압축률을 제공

TV, 케이블 방송, 위성 방송, 디지털 VCR을 포
함한 광 저장매체 등에서 비디오 서비스를 제공

단순 프로파일(Simple profile)은 상대적으로 비
용을 줄이기 위해 설계되었으며 상대적으로 비
디오 처리에 대한 요구사항이 약함
35
3.1 MPEG-2 개념 및
특징

3.1 MPEG-2 개념 및 특징

저장 미디어뿐 아니라 통신, 방송 미디어에
서 적용 가능

현행 TV 품질이상의 고품질 영상을 대상으
로 하며,HDTV 서비스까지 확장 가능

MPEG-1과의 호환 가능하여, MPEG-1 비
트 스트림도 복호화 가능

MPEG-1, H.261 과 는 달 리 순 차 주 사
(sequential scan) 은 물 론 비 월 주 사
(Interlaced scan)도 처리 가능

비트 스트림에 대한 확장성(Scalability)을
가지고 있어서, 공간 해상도와 시간 해상도
가 다른 2종류 이상의 영상을 복원할 수 있
는 능력을 가짐
36
3.2 MPEG-2 부호 및 복
원 알고리즘

MPEG-1과의 차이점

여러 가지 영상 포맷을 지원

MPEG-1 알고리즘을 포함하고 있어서, MPEG1에 대한 호환성 (compatibility)은 물론, 뛰어난
확장성을 제공

빨리 감기, 느린 재생 등과 같은 강력한 트릭 모
드(trick mode)를 지원하는 도구를 제공
3.2 MPEG-2 부호 및 복원 알고리즘

프레임 구조 및 필드 구조
- 프레임용 DCT와 필드용 DCT가 있고, 픽처 타입
의 식별 에서도 프레임과 필드의 구별이 가능
- 픽처에 프레임이 할당된 경우를 프레임 구조라고
하고,
픽처에 필드가 할당된 경우를 필드 구조
라고 함
37
3.2 MPEG-2 부호 및 복
원 알고리즘
frame input
DCT
¾çÀÚÈ-
VLC
¹öÆÛ
IDCT
¿ª¾çÀÚÈ-
+
+

-
+

Prediction
MV
Motion
estimation
Frame Stores
그림 6.12 부호화기
Coded
Data
Variable
Length
Decoding
Inverse
Scan
Inverse
Quantization
Inverse
DCT
Framestore
Memory
Motion
Compensation
Decoded
samples
그림 6.13 간략화된 복호화기 블럭도
38
3.2 MPEG-2 부호 및 복
원 알고리즘

움직임 보상 방법
39
3.2 MPEG-2 부호 및 복
원 알고리즘

양방향 예측방법
- 프레임 구조 : P-픽처는 최근에 복원된 I-픽처나
P-픽처를 참조 프레임으로 사용
- B 픽처는 양방향 예측을 위해 최근 복원된 미래
와 과거의 I-픽처나 P-픽처를 각각 1장씩 과거
프레임과 미래 프레임 에 대한 참조 프레임으
로 사용
- 필드 구조 : P 필드는 최근에 복원된 I 필드나 P
필드의 2장을 사용
- B-픽처는 최근 복호된 I-픽처나 P-픽처를 참조하
는데, 프레임 구조에서는 미래의 한 장의 프레임
과 과거의 한 장의 프레임을, 필드 구조에서는
미래의 두 장의 프레임과 과거의 두 장의 프레
임을 참조함
40
MPEG-2 ENCODER
41
Introduction


MPEG : ISO 와 IEC 가 정보표준화를 위
해 구성한 공동 기술 위원회
동영상 부호화 표준을 만드는 그룹
 동영상 압축
 통신, 동기화
 오디오 압축
 부호화
42
MPEG 구성
MPEG-1
1993년 표준화 완료(ISO/IEC 11172)
1.5Mbps 이하, VTR화질(SIF 영상)
Video CD용, 2 채널 stereo
MPEG-2
1995년 표준화 완료(ISO/IEC 13818)
Laser Disc급 이상의 화질, 5.1 채널 입체 음향
4Mbps 이상, 방송용, DVD, digital, DBS, HDTV, VOD에
활용
MPEG-4
1999년 표준화 완료 예정(버젼 1)
고 압축율, 저 전송용, 24Kbps~2Mbps
객체 지향부호기법, 비디오 전화(Video Phone),
멀티미디어 데이터베이스(인터넷)
MPEG-7
내용기반 검색을 필요로 하는 분야에 응용
설명기법과 색인기술 집합의 표준화,
색인정의언어 표준화, 색인의 코딩방식 표준화
현재 연구 진행중
43
MPEG-2 특징
 기본 코덱은 H.263 이나 MPEG-1 과 동일
DCT, 움직임 예측, 가변길이 부호화,반
복길이 부호화, GOP 구조 등등
 프레임과 필드구조의 영상포멧 지원
 고화질 고품질 영상 제공
 트릭모드(빨리감기, 느린재생) 개선
 오류에 대한 내성강화
 스케일러빌러티( Scalability) 기능
 시간적, 공간적

44
Video System Sequence
Sequence GOP GOP
Header
… GOP GOP
MPEG Video Stream
GOP
Picture Picture Picture
Header
Sequence
end code
……………
Picture
Picture Slice Slice Slice ……… Slice
Header
Slice MB MB MB ……………
Header
MB
MB Header block(0) block(1) ……… block(n) EOMB
Differential DC Coeff. Run_Level VLC Run_Level VLC End of Block
45
MPEG Video Stream
-
6 개의 layer 구성

Sequence layer


GOP layer


매크로 블록이 여러 개 합쳐진 것을 말하
며, 여러 픽처에 걸쳐 있을수 있음.
Macroblock layer


픽처 타입과 같이 1장의 스크린에 공통
된 속성으로서 임의 길이의 슬라이스로
분해됨.
Slice layer


랜덤 액세스가 가능한 독립적인 부호화
단위
Picture layer


화면 크기나 화면률(가로 : 세로 비
율) 등과 같이 일련의 같은 속성을
갖는 화면 그룹
슬라이스 층을 더욱 분할한 MB에 공통인
정보를 포함, 휘도 신호(Y)와 색신호(Cb,
Cr)블록으로 구성
Block layer

DCT 처리 단위로서 8×8 비트의 크기를
가지며, 블록층의 종료는 EOB로 표시
46
MPEG 데이터 구조
47
MPEG Encoder
48
MPEG 압축 알고리즘

공간적 상관관계
 영상의 공간적 중
복성을 제거함으로
서 압축함.
 DCT
 양자화
 부호

시간적 상관관계
 영상의 시간적인
중복성 특징을 이
용.
 움직임 예측
 움직임 보상
 DPCM
발생 확률에 따른
압축


Huffman coding
가변길이 부호화
49
시간적 상관관계에 따른 동영상
압축




동영상은 공간적인 중복성 보다는 시간적
인 중복성이 높다.
영상전체를 부호화 하지 않고 움직임이 있
는 블록만 압축.
움직임 예측을 통한 움직임 블록 검출.
I,B,P 타입의 GOP 구조 갖음
50
MPEG Picture Type



I Picture(Intra-Picture)
 프레임내의 부호화 영상.
 움직임 예측을 하지않음.
P Picture( Predicted Pictures)
 프레임간 순방향 부호화 영상.
 프레임간의 에러 전송을 함.
B Picture(Bidirectionally Predicted
Pictures)
 쌍방향 예측 부호화 영상.
Forward
prediction
GOP 구조
1
2
3
4
5
6
7
8
9
I
B
B
B
P
B
B
B
I
Bidirectional
prediction
Transmission Order : 1 5 2 3
49678
51
MPEG 에서의 움직임
예측
과거 화
면
미래 화
면
순방향
예측
사이에 위치 하는
화면
과거의 영상으로
부터의 순방향 예
측
미래의 영상으로
부터의 역방향
예측
52
움직임 예측 수행과정
(Motion Estimation)
53
움직인 예측 알고리즘


매크로 블록단위(16*16)로 움직임 벡터 계산.
블록매칭 알고리즘 사용
 전탐색 블록 매칭 알고리즘.
 고속 블록 매칭 알고리즘.
 2차원 로그 탐색 알고리즘
 교차 탐색 알고리즘.
54
전탐색 블록 매칭
알고리즘
탐색 영역 설정
1 3
2
MAD,MSD 함수를 통해 모든 픽
셀에 대한 차이 값의 합이 가장
작은 곳을 찾아 움직임 백터를 계
산한다. 또한 움직임 백터의 존재
여부나 움직임 예측을 적용할것
인지에 대한 기준값이 되기도 한
다.
탐색 영역은 9 단계로 구분되어 있으
며, 영상에 따라 탐색범위가 달라진다.
MAD, MSD 의 최소비용 함수
MSD(d ) 
1
( f ( x  d x , y  d y , t0 )  f ( x, y, t1 ))2

MN ( x , y )R
MAD(d ) 
1
MN

f ( x  d x , y  d y , t0 )  f ( x, y, t 1 )
( x , y )R
55
움직임 보상 및 압축
이전영상
움직임 예측영상이전영상에 움직임
+
움직임 백터
A
B
백터를 적용한후
이웃픽셀과 보간을
통해 새로운 영상
을 재생
DPCM
DCT
VLC
현재영상
B
블록매칭 기법사용
움직임 백터 계산
Bit Stream
56
DCT, 양자화, 가변길이 부
호화
-DCT : 영상을 주파수로 분해 (사람의
눈에 덜 민감한 고주파 영역을 제거할
수 있음
-양자화 : DCT 계수를 일정크기의 비트
로 표현함으로서 압축을 수행
-가변길이 부호화: 자주발생되는 계수
에 적은 비트를 할당하여 부호화함.
57
DCT 압축 과정
58
가변길이 부호화

DC 부호화
 DC 계수는 이전
블록의 DC 계수
에서 현블록의
DC 계수를 뺀 값
을 코딩(DPCM)
 부호화 비트=
Category
Code+ DC 계수;

AC 부호화
 부호화 비트= 0
의 개수 4bit+
Category
Code+ AC 계수
 0의 계수로 끝나
는 지점에 EOB
코드 추가
59
움직임 벡터의 가변길이 부
호화



움직임 벡터값을 가변길
이 코드화 함.
전 매크로 블록의 백터와
현 블록의 벡터을 뺀 값을
코딩
움직임 벡터수는 엄청나게
많아서 모두 가변길이 테
이블을 만들 수 없다. 때문
에 몇 개의 그룹으로 나누
어서 코딩하게 되며, 테이
블에 없는 값은 그대로 코
딩한다.
가변길이 코드
…
0000 1001
-6
0000 1011
-5
0000 111
-4
0001 1
-3
0011
-2
011
-1
1
0
101
1
0010
2
0001 0
3
0000 110
4
0000 1010
5
0000 1000
6
…
60
비트율 제어
Rate Control



입력버퍼가 넘치거나 고갈 되지 않도록 조
절함. 적절한 화질을 유지
화면의 복잡도와 픽처 형식(I,B,P)에 따 라
비트를 할당. (ex 양자화 스케일 변경)
비트율제어 3 단계 알고리즘
 목표 비트 할당
 비트율 제어
 적용 양자화
61
MPEG AUDIO




MPEG AUDIO는 고품질 스테레오 부호화를 위한
ISO/IEC의 표준 방식
MPEG 내에서 동영상 부호화와 병행하여 표준화
MPEG AUDIO 부호화시에는 CD-DA나 DAT와 동일
한 표본화 주파수를 사용
MPEG AUDIO에서 사용하는 청각심리로는 최소 가
청한계와 마스킹 특성을 들을수 있다.
 마스킹 특성 – 특정음의 감지 한계는 함께 들리
는 다름음에 의해 크게 변하는데 고요한 환경에
서는 작은 소리도 들을수 있지만 소란한 곳에서
는 작은 소리는 들을수 없는데, 이를 ‘마스킹 효
과’라고 한다.
62
AUDIO 압축 방법
63
MPEG AUDIO
MPEG-1 AUDIO 부
호화기
PCM 오디
오 셈플
33, 44.1,
48kHz
Mappi
ng
양자화
및
부호화
Frame
부호화
Packin
g
비트 스
트림
청각 심
리
모델
MPEG-1 AUDIO 복
호화기
부호화
Frame
비트 스
트림
Unpack
ing
Recons
tru
ction
Inverse
PCM
Mappin
g
DAT
A
64
마스킹 효과
시간적
주파수 (Crigtical Band)
65
AUDIO 압축 원리
서브 밴드 부호화
 32개 주파수 대역으로 세분화 하여 부
호화.
 스케일 팩터
 양자화 잡음을 제한.
 적응 비트 할당
 부호화 비트 조절
 그룹 부호화
 허프만 부호화

66
MPEG AUDIO 데이터 구
조

AAU(Audio Access Unit) - MPEG AUDIO 스트림의 한
프레임 , 단독으로 복호할수 있는 최소단위
 부가 데이터 영역 – AAU의 끝에 도달하지 않는 경우
의 남는 부분, 이 부분은 오디오 이외의 데이터가 삽
입될수 있다.
AAU
AAU
Header(32bit)
AAU
AAU
Error
Check
AAU
Audio
Data
AAU
……
부가 데이
터
프레임의 구조
67
MPEG-2 DECODER
68
MPEG-2 복호기 전체구조
MPEG File open
1
시작 코드 판별
Bit 초기화(buffer) 3
2
Get_header
Get_seq_hdr
Ext_user_data 확장 데이터 처리
Get_gop_hdr
4
Get_pic_hdr
5
10
11
Decoder & Dithering
초기화
Frame_재순서화
7
6
Frame_number
Get_MBs
Get_slice_start
Macroblock_mode
12
8
Motion vector값
Display
Block_decode
File close
9
Motion_compensation
Saturation & Mismatch control
idct
add_block
69
복호기 전체구조2




처음으로 파일을 열어 복호기 에 필요한 버퍼와 포
인터를 초기화 시킨다.
다음으로 2번의 get_header()를 수행하는데 이과정
은 3-4까지 의 과정으로 MPEG-2 비트트스림을 복
호화 하는데 필요한 헤더정보를 복호화 하는 루틴이
다. 모든과정에서 처음 수행과정은 각 신텍스에서
시작코드를 분석하게 되어있다.
다음으로 복호화의 초기 파라미터와 디스플레이 초
기화 과정을 거친다. 이후 실질적인 데이터의 복호
화 처리는 6번~9번 까지 반복을 통하여 이루어 진다.
8번 과정은 픽처를 복호화 하기 위한 프레임 재순서
화 과정, 즉 움직임 보상에 따른 설정을 수행하고 각
각의 메크로 블록을 복호화 하기 위하여 메크로 블
록의 상위 구조인 슬라이스 헤더 파일을 얻어온다.
이후 각각의 매크로 블록 단위로 현 픽처의 모든 매
크로 블록이 복호화 될때 까지 반복하며, 반복 과정
에는 현 매크로 블록의 모든 정보를 가지고 있는 매
크로 블록 모드라는 루틴을 수행한다.
70
복호기 전체구조 3




이후 P나 B 영상에서 존재하는 움직임 벡터 값을 얻
어오고 이 움직임 벡터 값을 가지고 움직임 보상 루
팅을 수행한다. I픽처의 경우 움직임 보상을 하지 않
고 바로 각각의 블록에 대하여 가변길이 복호화 과
정을 거치며 가변길이 복호화 중에 역양자화 처리를
함께 수행한다.
이후 포화처리와 불일치 제어과정을 거치는데 이 과
정은 계수 값의 범위가 부호기의 DCT와 복호기의
DCT가 맞지 않아 에러가 누적되는 것을 방지하기
위한 것이다. 이과정이 끝나면 역DCT과정을 수행하
고 add_block()에서는 부호기에 서 수행한 DPCM
과정을 역으로 거쳐 실질적인 픽처를 만들어 낸다.
이후 현재의 픽처가 모두 복호화 되면 다시
get_header() 과정을 거쳐 다음의 픽쳐를 복호화 한
다.
즉 파일의 open에서 close의 반복루프로서 영상이
복호화 되어진다.
71
복호화 전체 루틴
open MPEG
input file
initbits()
getheader()
initdecoder()
init_dither(nDitherType)
init_display(“”);l
framenum=0
getpicture(framenum)
getheader()
putlast(framenum)
close(base. infile)
72
복호화 루틴 설명






먼저 MPEG-2 파일 포멧 형식의 파일을 읽어들
인다.
다음으로 복호화 과정을 위한 초기비트를 설정
한다. 복호기에서 각각 프레임에 대해 버퍼를
사용하여 데이터를 처리하기 때문에 꼭 비트 초
기화 과정이 필요하다.
getheader()함수는 처음프레임의 헤더를 복호
화 한다. 다음에 나오는 initdecoder() 함수는
복호기의 초기화 과정으로 프레임에 대한 모든
정보를 포함한다.
init_dither()함수는 화면에 RGB형태로 동영상
을 보여주기 위한 작업으로 각각의 픽셀타입에
따라 픽셀 값이 변화하는 과정이 포함되어 있다.
getpicture()함수는 복호기의 핵심 처리과정이
포함되어 있는 곳으로 실질적으로 영상을 복호
화 하는 곳이다.
각 프레임에 대하여 헤더를 복호한 후에 각 데
이터의 복호 순으로 반복을 통하여 모든 프레임
이 복호화 되는 것이다.
73
복호기의 초기화





staic void initdecoder()
소스코드에서 가장 중요한 부분은 세부분으
로 나뉘어 진다. 처음부분은 프레임에 관한
부분이고 두번째는 프레임의 대한 영상크기,
즉 버퍼를 설정하는 부분이고 마지막으로
IDCT를 하기 위한 초기화 과정이다.
다음으로 MPEG-1의 파라미터 인데, 이유
는 MPEG-1과 MPEG-2의 처리과정이 차
이가 있기 때문이다.
다음으로 전체영상에서의 매크로블록의 개
수와 영상의 크기 그리고 밝기와 색차 형태
의 블록 크기를 구하는 식이 존재한다. 이후
영상의 크기를 기반으로 각프레임의 버퍼를
구하는 과정이 있다.
IDCT과정을 위한 각 계수를 이곳에서 미리
생성한다.
74
Initdecoder() 1
75
Initdecoder() 2
76
비트레벨 루틴[getbits]

이곳에서 실행되는 과정이 바로 MPEG-2
압축파일에서 비트 정보를 읽어들이는 것이
다. 비트스트림을 읽어들이는 부분, 움직임
벡터값을 읽어들이는 부분, 매크로 블록의
정보를 읽어들이는 부분은 이과정을 통해서
이루어진다.

비트초기화 과정 [ initbits() ]
 비트의 초기화 과정은 비트레벨루틴에
서 처리한다. 위과정은 복호화 하기 위
해 처음으로 비트를 초기화 하는 과정이
다.

비트 read
[ getbit() ]
 실질적으로 비트를 읽어들이는 부분이
다. 즉 소스상에서 비트를 읽어 들인다.
77
MPEG-2 비트스트림 헤
더 복호
Video sequence
sequence
header GOP
GOP
…
sequence
header GOP GOP ..
GOP
header picturepicturepicture picture ….
picture
header
slice
header
slice
slice slice
macroblock
….
macroblock
MPEG-2 비디오 데이터 계층 구조
slice
Picture
sequence
header
squence
layer
Group of picture
layer
picture
layer
macrobl
ock
..
macroblock
Slice
layer
78
MPEG-2 비트스트림 헤
더 복호2




중요한 정보는 헤더에 포함하고 있다. 한 시퀸스에
서 전체적으로 필요한 정보는 시퀸스 헤더, 편집을
위한 정보는 GOP헤더 ,픽처마다 필요한 정보는 픽
처 헤더에 설정되어 있다
비디오 시퀸스 층은 일련의 같은 속성을 갖는 화면
그룹으로서 화면크기, 화면 종횡비, 프레임 레이트,
비트 레이트, 비디오 버퍼크기, 양자화 메트릭스 등
을 가지고 있다.
GOP층은 랜덤억세스의 단위가 되는 화면 그룹의 최
소단위로 편집을 위한 정보와 시퀸스 시작으로 부터
의 시간등을 가지고 있다.
픽처층은 한장의 화면에 공통된 특성으로
temporal_reference, 픽처 코딩 타입, vbv_delay, 화
면 부호화 모드등이 설정되어 있고 확장 헤더에는
강제적으로 항상 들어가는 시퀸스 확장과 픽처 코딩
확장이 있고, 선택적으로 사용되는 확장 비트 스트
림이 존재한다.
79
MPEG-2 비트스트림 헤
더 복호3






시퀸스 확장은 시퀸스 헤더의 변수들의 값이 너무
클때의 확장 비트(extension bit)들이 주로 들어간다.
픽처코딩 확장은 한픽처를 복호화 할때 사용하여 복
호화에 필요한 intra_dc_precision, top_field_first,
repeat_first_field, q_scale_type, alternate_scan 같
은 정보가 포함된다.
시퀸스 디스플레이 확장에는 비디오 형태 나 색차신
호 , 디스플레이 크기 에 관한것이 포함된다.
양자화 메트릭스 확장에는 2개의 양자화 메트릭스에
관한 정보가 있고
시퀸스 스케일러블 확장은 스케일러빌리티에 사용
되는 변수와 스케일러블 모드가 포함 되어있다.
슬라이스 층은 한장의 화면을 임의의 길이로 분할한
소화면에 공통적인 정보 가 포함 되어 있다.
80
시작코드의 복호화
startcode()

비트 스트림에서는 각각의 요소에 시작코드
가 있다. 즉 시퀸스, 픽처등 헤더의 시작을
알리는 코드며 하나의 입력스트림으로 부터
픽처시작코드나 시퀸스 끝이 나오기 전까지
반복하여 헤더를 복호화 한다. 복호화하기
위하여 비트를 읽어 오는 부분을
startcode()가 수행한다.

시작코드의 예
접두시작코드: 00 00 00 00 00 01
시작코드
: B3
81
시작코드의 복호화
82
시작코드의 복호화
startcode()
Mpeg-2 data 소스
83
시퀸스 헤더의 복호화

비디오 시퀸스는 코딩된 비디오 스트림의
가장 상위 구조이다. Mpeg-2 비트스르림
은 이 시퀸스의 시작부터 끝사이에 존재하
게 된다. 이곳은 MPEG-2에서 가장 기본적
이고 중요한 정보들이 존재하는 곳으로 부
호기에서 생성한 비트를 읽어 복호화 처리
를 하게 되어있다.

시퀸스 헤더의 복호화는 부호화 과정의 역
과정을 거처 데이터을 처리한다.

static void getseqhdr()
84
헤더 복호화 1



GOP 헤더 (getgopheader) 복호화
 static void getgophdr()
 GOP는 전송순서를 기준으로 I픽처에서 다음 I
픽처까지의 묶음을 의미한다. MPEG-1에서는
필수지만, MPEG-2에서는 GOP헤더가 없어도
된다.
픽처헤더 (getpicturehdr) 복호화
 픽처헤더는 하나의 화면에대한 모든 정보를 포
함하고 있다.
확장과 사용자 데이터 처리
 extension_and_user_data()루틴은 확장과 사용
자 데이터를 처리하는 부분이다.
 기본적 처리 방법은 다음비트들이
extension_start_code이면 확장 처리하기 위한
확장 데이터 부분과 사용자 데이터를 처리하기
위한 user_data()를 실행하는 것이다.
85
헤더 복호화 2



확장과 사용자 데이터 처리
 extension_data()의 매개 변수가 0일때는
시퀸스 디스플레이 확장이나 시퀸스 스케
일러블 확장을 읽는다. 그리고 2일때 는 양
자화 매트릭스 확장이나 저작권 확장, 픽처
디스플레이 확장, 픽처 공간 스케일러블 확
장부 , 픽처 시간 스케일러블 확장 등을 읽
게 된다.
시퀸스 확장 복호화
 시퀸스 확장은 시퀸스 헤더에 있는 전반적
인 정보를 보완하거나 시퀸스 헤더에 없는
정보들을 부가적으로 갖는 것을 의미한다.
 static void sequence_extension()
시퀸스 디스플레이 확장 ( Sequence display
extension )
 복호기에서 여러가지 화면 출력 방식을 표
현하기 위해 사용된다. 부호기쪽에서 각각
의 값을 설정하고 복호기 쪽에서는 그값을
비트레벨루틴을 통하여 읽어오는 부분이다.
86
헤더 복호화 3



시퀸스 디스플레이 확장 ( Sequence display
extension )
 static void sequence_display_extension()
시퀸스 스케일러블 확장
 MPEG-2 시퀸스 스케일러빌리티에 관한 정보
를 갖고 있다. 즉 MPEG-2 비트 스트림을 분할
하여 확장 가능하도록 만드는 기능으로, 확장으
로 인하여 내부적인 오류를 보안하고 디스플레
이 장치나 네트워크 회선의 속도에 따라 적합한
동영상 표시를 할수 있는 기능을 가지고 있다.
 static void sequence_scalable_extension()
픽처 코딩 확장
 현재 픽처의 독특한 특징을 나타내며 영화에서
사용하는 화면을 tv로 바꾸는 기능등 픽처의 확
장부분에 대한 모든 데이터를 가지고 있다.
87
헤더 복호화 4



양자화 메트릭스 확장
 양자화 메트릭스는 양자화하는 스텝값으로
각각의 양자화 데이터를 복원하는 기능을
하고 있다.
 static void quant_matrix_extension()
픽처 디스플레이 확장
 픽처가 화면상에서 처리 표현되는 위치를
조절할수 있는 정보를 가지고 있다.
 static void picture_display_extension()
슬라이스 헤더 복호
 한 픽처 내에서 슬라이스의 최소 개수는 하
나이고 최대개수는 매크로 블록의 개수와
동일하다 각 슬라이스 들은 슬라이스 시작
코드로 시작된다. 그 뒤에 바로 위치하는
것은 위치를 결정하는 코드와 양자화 스텝
사이즈를 결정하는 코드이다.
88
프레임 복호 getpicture
[framenum]

초기화 루틴을 거친후에 가장 처음으로 수
행되는 과정이 바로 프레임을 복호화 하는
부분이다. 이부분은 한장의 픽처 안에 있는
메크로 블록의 개수 만큼의 반복을 통하여
프레임을 복호화하는 상위 루틴이다.
getpicture()에서 16*16의 모든 매크로 블
록에 대한 정보 및 DCT, 양자화, 가변길이
부호화 과정이 수행된다.

getpicture()에서 제일 처음으로 수행되는
과정은 프레임 재순서화 과정이다. 현재 복
호화가 된 픽처를 다음 픽처가 참조하여 사
용할수 있도록 픽처의 자리를 이동시켜주는
과정이다.
89
프레임복호화 루틴
picture decoding
프레임 재순서화
(frame reordering)
프레임의 매크로 블록을 읽음 Get_MBs
슬라이스의 시작코드을 읽음 Get_slice_start
마지막 프레임
매크로 블록의 타입을 읽음 Macroblock_mode
까지 반복하여
수행
움직임 백터 값 읽음 Motion_vector
블록 복호화 Block_decode
움직임 보상 Motion_compensation
각 블록에 대한 오차와 IDCT 수행
saturation & Mismatch control
IDCT
픽처의 예측차 보상
90
블록 복호화 [Block
decoding]

comp는 블록의 개수를 말하며 4:2:0 포맷
을 예로 들면 밝이 4개 블록(8*8) 색차 2개
블록으로 구성되어 지는 것이다. 여기서 하
나의 매크로 블록(16*16)을 반복하면서 실
제로느 8*8블록을 복호화 하게 되어있다.
스케일러빌리티의 데이터 분할 과정에서는
베이스 레이어를 레이어 데이터에 넣고 작
업을 하며 스케일과정은 cbp를 처리하는
루틴으로 블록이 코드화 되었는지 아니면
스킵되었는지를 조사하는 루틴이다. 다음과
정에서는 픽처가 움직임 보상이 있는 B, P
픽처일경우에는 6번과 7번의 인터블록을
처리하게 되고, 움직임 보상을 처리하지 않
는 I픽처는 바로 DCT처리가 되는 인트라
블록으로 복호화 되어있다.
91
실질적인 픽처 생성[ Copy
or add block data into
picture]

움직임 보상작업이 모두 끝난후에 마지막으
로 처리하는 과정이다. 이곳에서는 각각의
블록에 대하여 범위 값을 제한하고 블록에
대한 IDCT 과정 및 addblock() 과정 수행하
는 곳이다. 부호기 에서는 DPCM 과정으로
영상을 처리한다고 하였다. 즉, 부호기에서
소개하였듯이 영상과 영상사이의 모든 데이
터를 부호화 하여 전송하는 것이 아니라 이
전 영상과의 차이 값만을 부호화 하여 만든
차이 값과 복호화한 영상을 더하여 원영상
을 만들어야 한다. 이과정이 바로
addblock()란 과정이다.
92
실질적인 픽처생성 코드
/* copy or add block data into picture */
for (comp=0; comp<block_count; comp++)
{
/* SCALABILITY: SNR */
/* ISO/IEC 13818-2 section 7.8.3.4: Addition of coefficients from
the two a layers */
if (Two_Streams && enhan.scalable_mode==SC_SNR)
Sum_Block(comp); /* add SNR enhancement layer data to base layer */
/* MPEG-2 saturation and mismatch control */
/* base layer could be MPEG-1 stream, enhancement MPEG-2 SNR */
/* ISO/IEC 13818-2 section 7.4.3 and 7.4.4: Saturation and Mismatch control */
if ((Two_Streams && enhan.scalable_mode==SC_SNR) || ld->MPEG2_Flag)
Saturate(ld->block[comp]);
/* ISO/IEC 13818-2 section Annex A: inverse DCT */
if (Reference_IDCT_Flag)
Reference_IDCT(ld->block[comp]);
else
Fast_IDCT(ld->block[comp]);
Add_Block(comp,bx,by,dct_type,(macroblock_type & MACROBLOCK_INTRA)==0);
}
93
실질적인 픽처 생성코드

위 코드에서 보여지는 대표적인 루틴은
saturate(), idct(), addblock() 루틴이다. 우
선 sumblock()루틴 이라는 것은 스케일러
블 기능으로 기본계층(base layer) 의 데이
터와 향상계층( enhancement layer)의 데
이터를 더하여 주는 부분으로 일반적으로는
이과정을 수행하지 않고 바로 불일치 제어
(mismatch control)과 포화 처리
( saturation) 과정을 수행한다.

포화 처리 과정은 데이터의 범위를 제한하
는 것이다.
 여기서는 [-2048: +2048]로 제한한다.
94
IDCT 블록 복호화


역 양자화된 DCT 계수들은 역DCT를 수행
하게 된다.
IDCT초기화
void Initialize_Fast_IDCT()
{
int i;
iclp = iclip+512;
for (i= -512; i<512; i++)
iclp[i] = (i<-256) ? -256 : ((i>255) ? 255 : i);
}
DCT의 값을 제한하는 초기화 루틴이다.
95
DCT 처리과정

역DCT의 처리과정의 처음 루틴은 다음
과 같이 idctref()와 idct()의 두 가지 형
태로 나누어 진다. idct() 과정은
inverse fast discrete cosine transform
루틴이면 idctref() 과정은 inverse
discrete Fourier transform , double
precision 의 과정을 수행한다.
invers DCT
Y
N
refidct
idctref(id->block[comp]);
idct(id->block[comp]);
96
addblock()


IDCT이후의 마지막 수행 과정인
addblock() 과정은 부호기에서 영상을
생성할때 DPCM 방법으로 생성하므로
완전한 영상을 재구성하기 위해서는 이
전의 영상 의 차이 값과 현재의 영상의
픽셀 값을 더하여 원 영상을 수행하는
과정이 필요하다.
static void addlbock( int comp , int
bx, int by , int dct_type, int addflag)
97
디스플레이

복호기의 가장 마지막 처리과정인 dithering
은 복호된 이미지 정보를 영상 출력 시스템
에 맞도록 변환해 주는 과정이다. MPEG-2
에서는 Y,Cb,Cr의 표현을 사용하는데 이렇
게 하는 이유는 인간의 시각 특성상 색차신
호보다 밝기 신호에 더 민감하기 때문에 밝
이 신호는 모두 사용하고 색차 신호를 줄여
서 압축효율을 더 증가 시킬수 있기 때문이
다.

Dithering 처리를 위해서는 먼저 복호된
Y,Cb,Cr 각각의 컴포넌트를 메모리에 분리
저장한후 각 픽셀에 따라서 4x4 dither
matrix 의 형태로 상위 라인부터 4개의 픽셀
씩 건너 뛰면서 영상의 모든 픽셀을 변화한
다. 이후 BMP 형태로 바꾸어 복호 순서에
따라 화면에 I, B,B, P, B, B… 순서로 출력
하게 된다.
98
디스플레이
99
디스플레이
100
3.4 MPEG-2 오디오
3.4 MPEG-2 오디오

MPEG-1 오디오 방식 기능에 추가된
기능
- 멀티채널(MC ; Multichannel) : 5 채널 +
LFE(Low frequency Effect)의 멀티채널 사
운드 부호화
- 멀티링구얼(ML; Multiligual) : 7개 국어
- 저 표 본 화 주 파 수 (LSF ; Low Sampling
Frequency ) : 16kHz, 22.05 kHz, 24kHz의
표본화 주파수
101
4. MPEG-4
4.1 개요

내 용 기 반 의 대 화 형 기 능 (content-based
interactivity)

객체 (Object) 단위로 데이터를 처리

영상내의 의미있는 내용물들을 각각 다른 객
체로 부호화하고, 이를 혼합하여 하나의 화면을
구성, 추후 원하는 객체만을 추출하여 재사용하
거나, 객체들을 이용하여 전체 데이터를 재구성
할 수 있음

다양한 전송환경의 수용성 및 오류에 대한 강
인성

공중 전화망 (PSTN)등과 같은 수십 kbps의 초
저속 전송에서 부터, 저장 매체나 고화질 방송
등과 같은, 수 Mbps의 초고 속 전송에까지 다
양한 전송환경을 수용할 수 있도록 함
102
4.1 개요

자 연 영 상 (natural image) 및 합 성 영 상
(synthetic image)의 부호화

카메라로부터 얻어진 자연영상, 컴퓨터 그래픽
등에 의하여 생성된 인공영상 (artificial image)
과 자연영상 등이 혼합된 합성영상의 효율적인
부호화를 가능케 함

보다 높은 압축효율 : 수십 kbps 수준의 초저
속 부호화시에 MPEG-4의 영상품질은 기존방
식에 비해 상당히 우수함

소스 : 장면에 대한 이진형상(Binary format for
scene; BIFS), 비디오, 오디오, 애니메이션, 문자
등이 포함된 멀티미디어 데이터로 구성

이들이 디멀티플렉서를 통해 단일매체로 분할
됨

분할된 데이터 : 다시 특정한 응용을 위해 몇
개씩 통합되어 사용자에게 제공됨
103
4.3 MPEG-4 의 특징
4.3 MPEG-4 의 특징

소리와 영상 정보들은 소리/영상 객체(AVO,
Audio/Visual Objects)라 하고, 이들이 동기
화 될 수 있도록 하여, 마이크, 카메라, 컴퓨
터 등의 서로 다른 매체를 통해 만들어진 정
보들을 하나로 모을 수 있도록 함

장면들에서 소리/영상 객체들이 서로 복합
되어 하나의 객체를 이룰 수 있도록 함

서로 다중화 및 동기화를 통해 장면들을 네
트워크 채널들로 전송될 수 있도록 함

사용자가 장면들을 이들 소리/영상 객체
들을 이용해 상호 작용이 가능하게 함
104
MPEG-4
About MPEG-4
105
Contents

MPEG1-2 비교 & MPEG4 표준 개요 및 특징

MPEG4 비디오 코덱의 구성

MPEG4 비디오 간략한 부호화 기술
106
MPEG 의 종류
MPEG-21 MM Framework, E Commerce
MPEG-7
Data Base Searching
MPEG-4
???
MPEG-2
Broadcasting, Digital TV
MPEG-1
Storage Media, Video CD
107
MPEG-4 의 새로운 표준

멀티미디어 압축 표준(A/V 객체 부호화)



다양한 응용을 위한 일반적인 TOOL BOX
내용기반 양방향성 지원
MPEG4 표준의 주요 특징





접근 용이성 (Accessibility)
재사용성 (Usability)
양방향 대화형 (Interactivity)
오류에 강인성 (Error Resilience)
계위성 지원 (Scalability)
108
MPEG-4 의 목표

동영상에서 비쥬얼 객체를 쉽게 이용




자연 영상과 합성 영상의 처리
자연 음향과 합성 음향의 처리
다양한 멀티미디어 응용에 접합
동영상의 재활용성 증대




컴퓨터 데이터 형태로 처리
여러 가지 저장매체에 저장
전송망을 통한 송신 및 수신
방송망을 통한 분배
109
MPEG4 의 요구 사항

내용기반 양방향성





높은 압축 효율



내용기반 멀티미디어 데이터 접근 도구
내용기반 조작 및 비트열 편집
자연/합성 데이터의 혼합 부호화
시간축의 임의 접근성 개선
저장과 전송을 위한 부호화 효율 개선
여러 데이터열의 동시 부호화
범용 접근성


전송 오류 환경에서 강인성
내용기반 계위성
110
객체기반 부호화

비디오 객체 : 장면 처리의 기본 단위

VOP(Video Object Plane) : 어떤 순간의 비디오 객체

인코더



VOP의 부호화
재현에 필요한 편집 정보
디코더

필요에 따라 편집 과정의 변경 가능
111
MPEG-4 = Object-based
Coding ?!
VOP1
VOP2
VOP3
112
객체기반 부호화의 특징

장면에서 개별적인 객체의 부호화

기존의 화면 단위 부호화를 포용


전화면을 하나의 객체로 간주
VOP의 표현
 Shape, Motion and Texture
113
MPEG-4 비디오 부호화
구성
VOP 0
Coding
Input
VOP
Definition
VOP 1
Coding
MUX
Bitstream
VOP 2
Coding
VOP 0
Decoding
Bitstream
DEMUX
VOP 1
Decoding
Composition Output
VOP 2
Decoding
114
VOP(Video Object Plane) 종류
와 특징

I – VOP (Inter coded vop)



P – VOP (Predictive coded vop)


다른 화면을 사용하지 않고 독립적 부호화
부호화 비트열에서 접근점 제공
과거의 I-vop나 P-vop에서 움직임 보상 예측
B – VOP (Bidirectionally-predictive coded vop)



과거나 미래의 I/P-vop에서 양방향 보상 예측
압축 효율이 가장 좋음
다른 화면의 부호화에는 사용되지 않음
115
VOP Reordering

B-vop가 사용될 때 VOP 재배치가 필요함
At the encoder input
1 2 3 4 5 6 7 8 9 10 11 12
13
I B B P B B P B B I B B
P
At the encoder output and the decoder
input
1 4 2 3 7 5 6 10 8 9 13 11
12
I P B B P B B I B B P B
B
At the decoder output
1 2 3 4 5 6 7 8 9 10 11 12
13
116
MPEG-4 비디오 부호화
기술

Shape coding

Motion estimation and motion compensation

Static sprite coding
117
Shape 부호화

VOP 생성


Binary Alpha Plane (BAP)


Binary Shape 정보
Binary Alpha Block (BAB)


장면에서 의미에 따라 객체 분할
Bounding Rectangle 구성 단위, 16X16 Blocks
BAB 단위로 BAP 부호화



Context Information
Motion Compensation
Arithmetic Coding
118
객체 분할
Video sequence
Global Motion Compensation
Scene Cut Detection
Temporal Segmentation
Spatial Segmentation
Combination of temporal
and spatial results
Sequence of object masks
119
VOP Formation
가장 적은 BAB가 포함되도록 VOP형성

Control MB
..
.
...
Tightest Rectangle
Object
Extended
Bounding
Box
Intelligently generated VOP
: control point
120
산술 부호화(Context-based
Arithmetic Encoding)
ck= 0 for transparent pixels
 ck= 1 for opaque pixels

C   ck  2k
k
c9 c8 c7
Current BAB
Motion compensated
BAB
c6 c5 c4 c3 c2
c3 c2 c1
c8
c1 c0 ?
c0 ?부호화 방 c7 c6 c5
부호화 방
향
향
부호화 VOP
(a) INTRA template
c4
참조 VOP
(b) INTER template
121
Motion Compensated
Decoding

Padding technique
 Applied for the reference VOP

Unrestricted motion compensation

Four MV motion compensation

Overlapped motion compensation
122
Motion Compensation
for Shape

MVDs = MVs – MVPs



MVDs : 형상 움직임 벡터 차분치(motion vector
difference for shape)
MVs : 형상 움직임 벡터(motion vector for shape)
MVPs : 형상 움직임 벡터 예측치(motion vector
predictor for shape)
MVPs 의 부호
MVs2
Block (8x8)
MVs3
MV2
MV3
MV1
MVs1
Current shape
macroblock
(1) MV for shape
Corresponding texture
macroblock (16x16)
(2) MV for texture
123
Sprite Decoding
VOL
Bitstream
Shape/Texture
Decoding
VOP
Bitstream
Shape/Texture
Decoding
Warping Vector
Decoding
Sprite Buffer
Warping
Reconstructed
Samples
124
125
5. MPEG-7
5.1 배경 및 목적

비디오, 오디오, 음성 및 정지 영상을 포함하
는 다양한 형태의 멀티미디어 자료로부터 사용
자가 원하는 내용의 정보를 효율적으로 찾아내
고 그 정보를 사용자가 원하는 형태로 변형, 또
는 전송할 수 있도록 하는 기술의 필요성

멀티미디어 자료의 효율적인 색인화와 검색
(indexing & retrieval)을 목적으로 멀티미디어 자
료의 표현 형식(기술, description)에 대한 기술
이 개발되고 표준화 필요성 증대

멀티미디어의 내용 자체 또는 사용자가 관심
있는 자료를 빠르고 효율적으로 찾도록 도와주
도록 함
126
5.1 배경 및 목적

낮은 추상 단계 기술(lower abstraction level
description)
- 비디오 : 모양(shape), 크기(size), 질감(texture),
색 상 (color), 위 치 의 이 동
(movement, and
position) 등.
-오디오 : 키(key), 분위기(mood), 템포(tempo), 템
포 변화(tempo changes), 음악적 공간에서의 위
치(position in sound space) 등.

높은 추상 단계 기술(higher abstraction level
description)
- 의미론적 정보(semantic information)
예) 차 지나가는 소리가 들리는 가운데 왼쪽에서
갈색
개가 짖어대고 오른 쪽에서는 파란 공이 떨어
짐
127
5. MPEG-7
128
Content





MPEG-7의
MPEG-7의
MPEG-7의
MPEG-7의
MPEG-7의
배경 및 목적
응용분야
요구사항
내용기반 검색
표준화 동향 및 추진 일정
129
배경



인터넷 이용 증가, 디지털 방송 서비스의
도입에 따라 다양한 형태의 멀티미디어 정
보통신 서비스가 확대됨에 따라
세계 여러 각지에서 디지털로 처리된 오디
오, 비디오 관련한 정보들이 날로 증가함에
따라
기존의 WWW(World Wide Web)에서 사용
되는 어휘에 의존한 정보 표현 및 탐색 방
법이 멀티미디어 정보의 이용에 매우 부적
절함에 따라
130
목적



내용 기반 멀티미디어 정보 검색을 효율적으로 지
원하기 위함
멀티미디어의 내용 자체 또는 사용자가 관심 있는
자료를 빠르고 효율적으로 찾도록 도와주도록 하는
것
JPEG,MPEG-1,MPEG-2의 정보의 효율적인 저장
및 전송 측면에 치중한것을 해결하기 위해서
131
MPEG-7의 표준화



MPEG-7이란 다양한 멀티미디어 정보를 기술하기
위한 표준화 방안
PCM,MPEG-1,MPEG-2,MPEG-4와 같은 기존의
표준화들에 기초
MPEG-1,MPEG-2의 움직임 벡터를 검출하는 부분
과 MPEG-4의 모양기술자등이 MPEG-7에 유용하
게 이용
132
MPEG-7 표준의 범위
Multimedia
Feature
Extraction
Standard
Description
Search
Engine
Scope of MPEG-7 standardization
133
MPEG-7의 표준화 사
항

기술자(Descriptors : D)와 기술 구조(Description
Scheme : DS)

기술 구조를 표현하기 위한 기술정의언어
(Description Definition Language : DDL)

색인, 저장 및 전송을 효율적으로 하기 위하여 사용
될 코딩된 기술(Coded Description)
134
MPEG-7에서 정의하는
용어




데이터(Data)는 표현 형식에 상관없이 오
디오비쥬얼 정보를 의미
특징(Feature)은 오디오비쥬얼 정보의 성
격이나 속성
기술자(Descriptor)는 특징을 어떤 값에 연
결시켜주는 도구
기술 구조(Description Scheme)는 데이터
를 여러 개의 기술자로 나타내기 위한 그릇
135
오디오비쥬얼 데이터의 대표
적인 특징 및 기술자의 예
136
MPEG-7 기술
137
MPEG-7의 응용분야










교육에서의 멀티미디어 자료 이용
언론 분야(이름, 음성 또는 얼굴 정보를 사용하여
어떤 정치가의 연설 장면을 찾을 경우)
여행 정보 안내, 지리 정보 서비스
역사 박물관, 미술품 전시 등의 문화적인 서비스
게임 검색, 가라오케에서의 노래 검색 등 오락 분
야
사람의 특징 인식 등 범죄 수사
지도 제작, 생태 조사, 자연 자원 관리 등의 원격
탐사
건축, 부동산, 내부 장식 관련 정보 검색
영화, 비디오, 라디오 정보의 저장 및 검색
원격 구매
138
MPEG-7의 응용례
MPEG-7 Description
Definition Language
(DDL)
DDL
DS
MPEG-7 Description
Scheme (DS)
D
D
DS
D
D
Descriptor (D)
Description
Generation
Search/
Query
Engine
Bitstream Syntax
MPEG-7
Description
Multimedia
Content
Encoder
Coded MPEG-7
Description
Decoder
User
Filter
Agents
139
MPEG-7에 관한 요구
사항

기술정의 언어에 대한 요구 사항

오디오비쥬얼 데이터에 공통적으로 적용되
는 요구 사항

기능적인 관점에서의 요구 사항
140
기술정의 언어에 대한 요
구 사항




MPEG-7 응용 분야를 지원하는 어떤 기술
구조도 쉽게 생성되어야 한다
문법이 모호하지 않고 인터프리터 등에 의
해 쉽게 파싱(parsing)될 수 있어야 한다
오디오비쥬얼 데이터를 포함한 복합적인
멀티미디어 정보에 대한 기술구조를 생성
할 수 있어야 한다
기술구조 내에 그 코드를 포함시킬 수 있는
기능을 가져야 한다
141
오디오비쥬얼 데이터에 공통적
으로 적용되는 요구 사항







데이터에 부가된 주석, 데이터의 시공간적인 구조,
주/객관적 특징, 또는 사건이나 활동 등의 개념까지
도 포함하는 모든 특징의 표현을 지원하여야 한다
사용자의 요구에 적절히 대응할 수 있는 계층적인
내용 압축 및 표현 방식을 지원하여야 한다
비쥬얼 질의를 사용해서 오디오 정보를 찾고 오디
오 질의를 사용하여 비디오 정보를 찾을 수 있도록
Cross-modality를 지원하여야 한다
MPEG-7의 여러 가지 기술구조 상호간의 호환성
특징별 우선 순위 지정
기술자의 Scalability 지원
텍스트 기반 기술자의 경우 사용 언어의 지정, 모든
언어를 지원할 수 있는 글자 세트, 그리고 언어 사
이의 변환을 위한 도구 등이 제공되어야 한다
142
기능적인 관점에서의 요구
사항

내용 기반 검색 및 유사도 기반 검색 기능
의 제공

데이터와 동기화되어 제공되거나
(Streamed) 또는 데이터와 별도로 제공되
는(Stored) 기술자의 지원

대화형 질의의 지원

소스 데이터 또는 관련 정보의 위치를 알려
줄 수 있는 기능

정보의 개략적인 파악(preview)이 가능하
도록 브라우징(Browsing) 기능의 지원
143
MPEG-7의 내용기반 정보
검색

상위 레벨 내용에 기반한 검색 방법

상위 레벨의 내용에는 의미 정보들이 포함

하위 레벨 내용에 기반한 검색 방법

하위 레벨의 내용에는 키워드, 형태, 색, 크
기, 위치, 방향성, 멜로디 등이 포함
144
내용기반 정보검색의
종류







오디오 데이터에 대한 내용기반 검색
정지 영상 데이터에 대한 내용기반 검색
동영상 데이터에 대한 내용기반 검색
영상의 정보만을 사용한 내용기반 검색
문자정보 또는 영상과 문자정보를 함께 사용한
내용기반 검색
오디오 정보 또는 영상과 오디오 정보를 함께 사
용한 내용기반 검색
영상, 문자, 오디오정보를 사용한 내용기반 검색
145
표준화 동향 및 추진 일
정

MPEG-7 표준화는 그 요구 사항을 정의하
는 단계에 있으며, 표준 시험용 데이터
(Standard Test Material)를 수집하고 제안
서의 평가 기준 및 방법도 아울러 만들어가
고 있다
146
MPEG의 추진화 과정
(경쟁 단계)
1.
제안 요구서(Call for Proposal : CFP)가
공고
2.
일정한 기간동안 기술 제안서를 받음
3.
그 중 요구 사항이 잘 반영되고 객관적으
로 성능이 우수한 제안서 들을 바탕으로
통합 시험 모델(Experimentation Model :
XM)을 만든다
147
MPEG-7의 향후 일정
148
결론

MPEG-7 표준화는 오디오비쥬얼 데이터
가 갖고 있는 다양하고 풍부한 특징 및 내
용을 어떻게 표준화된 방식으로 표현할 것
인가에 주된 목표두고 있다

MPEG-7은 디지털 AV 신호 처리, 컴퓨터
비젼, 자연어 처리, 멀티미디어, 음성 인식
및 데이터베이스 분야를 포함한 다양한 영
역의 지식들이 복합적으로 활용될 것
149