Transcript 投影片 1

深入多媒體晶片系統技術發展
視訊媒體
Instructor: Shao-Yi Chien
1
Outline
• 視訊原理簡介
• 視訊檔案格式
• MPEG-2視訊壓縮標準簡介
• MPEG-4編解碼技術意義
• H.264編解碼技術
2
視訊媒體
• 視訊原理簡介
• 視訊檔案格式
• MPEG-2視訊壓縮標準簡介
• MPEG-4編解碼技術意義
• H.264編解碼技術
3
視訊原理簡介(1/3)
• 視訊媒體的基本原理是透過人類眼睛的視覺暫留,將一連串的靜
態影像做快速而連續的播放。只要播放的速度夠快,肉眼便難以
察覺影像與影像之間的變化,而把它視為是連續的視訊訊息。
• 對於傳統的視訊資料,它是用類比的方式紀錄每張影像的內容(底
片)再利用放映機做快速的播放。因此若要利用數位技術處理視訊
資料,首先必須要考慮的是視訊資料的數位化,將視訊資料由傳
統的類比式資料來源如攝影機經由視訊擷取設備將它轉換成數位
化的方式加以儲存。
• 而對於數位化之後的視訊資料而言,我們首先會面臨到的問題在
於資料量過大。由於視訊的原理在於利用肉眼的視覺暫留,因此
影像連續播放速度大約需要達到每秒鐘三十張影像。換言之,短
短一分鐘長度的影片,轉換成為數位化的視訊資料之後需要儲存
30x60=1800張影像。
• 若以每張影像大小為352x240畫素,每一個畫素用3個bytes來儲
存其顏色資訊(高彩),那麼這一分鐘的影片需要
(1800x352x240x3)共435MBytes的儲存空間。
4
視訊原理簡介(2/3)
• 觀察到上述對於一分鐘視訊短片的儲存空間計算,我
們可以發現影響視訊資料儲存空間的主要因素有下列
兩點:


第一、單一影像的儲存空間
第二、儲存影像的張數
• 因此,要以較少的儲存空間來處理視訊資料首先必須
要減少單一影像的儲存空間。
• 我們可以套用在上一章當中所介紹的關於影像壓縮的
部分,利用影像壓縮的技術可以用比較簡潔的方式來
儲存每一張單一的影像。
• 其次,要減少儲存的影像張數,我們可以觀察視訊資
料中連續影像之間的關係。
5
視訊原理簡介(3/3)
• 由於每秒鐘需要播放連續的30張影像,每一張影像之間的物體移
動變化並不曾太大,如此方能利用視覺暫留的原理來達到動態播
放的效果而不會造成不連續的現象。
• 因此,利用這樣的特性,我們不需要將每張影像都紀錄下來,只
需要從影像序列當中挑出一些關鍵畫格(Keyframe)利用影像壓縮
的方式加以儲存。
• 而介於關鍵畫格之間的其他畫格,則只需儲存與關鍵畫格影像之
間變化的資訊即可。相對於整張影像而言,關鍵畫格問的變化較
小,只需少許的儲存空間。
• 因此原先需要儲存大量的影像資訊,現在只需儲存部分關鍵畫格
的影像以及期間各影像的變化即可,如此一來將可以大量的減少
資料的儲存量。
• 舉例而言,像是電視新聞的片段,當主播在播報新聞的時候,往
往只有其臉部的表情會有所變化,大部分的背景甚至其上半身都
是保持固定不變的狀態,因此對於非關鍵畫格的部分,我們只需
紀錄臉部的表情的變化,而保留其它像是背景以及主播上半身的
資訊即可,不需紀錄整張影像完整的資訊。
6
視訊媒體
• 視訊原理簡介
• 視訊檔案格式
• MPEG-2視訊壓縮標準簡介
• MPEG-4編解碼技術意義
• H.264編解碼技術
7
視訊檔案格式
• MPEG系列
• AVI
• QuickTime
• 常見的串流視訊
• 視訊播放規格
8
MPEG系列
• MPEG系列的壓縮標準當中,依照其目的不同,大致
可以區分成下列幾種規格。



以壓縮為主的MPEG-1、MPEG-2
以互動及編輯為目的的MPEG-4
以多媒體資料描述與檢索為目的的MPEG-7等標準
• 當然 MPEG系列中的不同規格,在壓縮後會產生不同
的資料量。
9
MPEG-1 (1/6)
• 在MPEG-1的標準當中,主要是以儲存為其應用範
疇,因此其位元率訂在大約1.5Mbps。MPEG-1對於
書面的解析度以及播放速度的標準分別是

NTSC系統:352x240、30FPS(Frame Per Second)

PAL系統:352x288、25FPS
• 其中 NTSC (National Television System
Committee)是美國國家電視畫面播放標準,PAL
(Phase Alternation by Line) 則是歐洲電視畫面播放
標準。
10
MPEG-1 (2/6)
• 在MPEG的標準之中是採用較為符合人類感官知覺的
YCrCb色彩模型,因此在視訊資料當中的每一張影像的色
彩要先從RGB的色彩模型轉換成利用YCrCb的方式來加
以表示。
• 對於單一影像的壓縮而言,它是採用類似於JPEG的壓縮
方式,首先將影像區分成較小的8x8區塊,按著對每一個
區塊內的所有畫素進行離散餘弦轉換DCT ( Discrete
Cosine Transform ),將原本畫素的色彩值依照其分布的
情形轉換成DCT係數。
• 我們可借由量化( Quantization ) 的方式可以將一些人類
視覺上較不敏感的細微變化加以濾除,按著以Zig-Zag的
方式將原先約二維資料轉換成一維的序列同時加以編碼儲
存。
11
MPEG-1 (3/6)
• 在影像的壓縮部分,MPEG-1採用的色差比例為4:2:0,也就是
說在畫面上中每四個Y值,對應到一個Cr值以及一個Cb值 (相當
於縱軸與橫軸的資訊均減半,如圖1所示),
• 這是因為人類的感官知覺對於亮度(Y)的敏感度較高。
• 也因此,它只保留了亮度完整的資訊,而以較少的資訊來儲存其
他兩種彩色的色差,藉以產生較大的壓縮比率。
圖1:色差比例圖示(4:2:0)
12
MPEG-1 (4/6)
• 而對於影像序列(image sequence) 的儲存方面,由於相鄰的影
像多半具有相似內容,因此 在MPEG-1的壓縮標準當中只需在影
像序列當中選擇一些 I 畫格(Intra Picture) 。
• 對於這些畫格的內容採用前述影像壓縮方式加以儲存,而對於兩
張 I 畫格之間的影像,則是採用動態補償(Motion
Compensation)的 方式來預測以及插入其它的畫格。
• 換言之,在兩張 I 畫格當中,它會依照比例在相關的位置當中置
入一定數量的P畫格(Predicted Frame)以及B畫格(Bidirectional Frame)。
• 所謂的P畫格是利用前一個 I 畫格再加上位移向量(Motion
Vector)來加以預測P畫格本身的內容(如圖2下方的Forward
Prediction)。而B畫格則是利用前後的 I 畫格以及P畫格,以內插
法的方式加以產生B畫格本身的內容(如圖2上方的Backward
Prediction與Forward Prediction)。
13
MPEG-1 (5/6)
• 也就是說,P畫格以及B畫格並不需要紀錄畫格內的全
部資訊,只需紀錄與前後 I 畫格或P畫格內容的差異
性。
• 藉著紀錄的資訊可以預測或插入該畫格本身的內容。一
般而言,一段播放的影像序列GOP(Group of Picture)
可以表示成IBBPBBPBBPBBPBBI這樣的畫格順序(如
圖2) 。
• 大約在每12到15張影像之中插入一張 I 畫格,只有這張
畫格需要藉由其內容進行影像壓縮儲存,其餘的畫格(B
或P)都可以利用預測或是內差的方式加以產生,因此它
可以保持很高的壓縮比率。
14
MPEG-1 (6/6)
圖2:GOP的圖示
15
MPEG-2 (1/2)
• MPEG-2沿用了MPEG-1的標準,並且加以擴充,它的解析度擴
增成NTSC系統:720x480,PAL系統:720x576,而其色差比例
則由原先的4:2:0擴增了4:2:2(橫軸減半,如圖3所示)以及
4:4:4兩種模式。
• 其中4:2:2的色差比例是將橫向的色彩資訊加以減半儲存,也
就是說每兩個亮度資訊(Y)對應到單一的一個色彩資訊,
• 而4:4:4則是保留了所有的色彩資訊。由此可以發現,在
MPEG-2的標準之下,除了解析度的增高之外,對於色彩的儲存
也將會較MPEG-1標準來得豐富許多。
圖3:色差比例圖示(4:2:2)
16
MPEG-2 (2/2)
• 而它的畫面掃描方式,除了原先MPEG-1所使用的逐列掃描方式
之外,也增加了交錯式(Interlace)的掃描方式。
• 至於對單一畫格的壓縮方式則是沿用MPEG-1當中以DCT轉換配
合量子化的方式來對單一畫格進行壓縮,而影像序列的壓縮及表
示方法也是利用I、P、B (image sequences) 畫格配合動態補償
(Motion Compensation) 的方式來加以完成。
• MPEG-2對於視訊的解析度以及畫質有所加強,但相對的所需要
的儲存空間也較大,適逢DVD新規格的制定可以在相同大小的光
碟片當中儲存更高容量的資料。也因此提供了MPEG-2一個合適
的應用範疇。目前所見的DVD光碟其視訊壓縮格式採用了MPEG2的標準,可以獲得比VCD更高的畫質。
17
MPEG-4 (1/2)
• 有別於先前所提出的MPEG-1、2系列,MPEG-4的標
準除了要將視訊資料壓縮到極低的位元比率之外,它
還提供了使用者與視訊內涵之間的互動編輯
(interactivity)的能力。
• 和前幾個MPEG系列所不同的是,MPEG-4不再是以
一張一張的畫格影像作為其處理的基本單位,它將視
訊當中的各種不同的資料以各式各樣的「物件」
(Video Object)來加以表示,
• 而所有的壓縮以及資料傳遞的過程都是以「物件」作
為基本的單位來加以處理。因此使用者端接收到了各
個「物件」之後可以自行作物件資料的編輯組合以及
互動。
18
MPEG-4 (2/2)
• MPEG-4的應用主要可以分為視訊傳遞以及編輯兩方
面。由於MPEG-4的標準提供了極高的壓縮比例以及
較低的位元比例,因此可以應用於頻寬較低的環境之
中。
• 此外,由於視訊資料均表示成各式的「物件」,因此
藉由「物件」的重組可以達到視訊編輯的效果,提供
使用者依據自己的需求或是互動而創造出不同的視訊
畫面。
19
MPEG-7 (1/3)
•
MPEG-7主要是制定出一套多媒體描述介面
(Multimedia Content Description Interface),藉由
這個描述介面可以做到依內容來檢索多媒體資料的功
能(Content-Based Retrieval) 。
•
MPEG-7的範疇主要是著重在資料的描述以及描述方
式之上,至於檢索的方式則不包括在其中。資料的描
述以及描述方式可以透過描述定義語言(Description
Definition Language)來加以定義。
•
在MPEG-7中,每一份多媒體資料的描述都是利用描
述元(D-Descriptor)以及描述結構(DS-Description
Scheme)來組成。
•
其中,描述結構主要是用結構化的方式來說明如何描
述多媒體資料,包括與其他描述結構
•
描述元之間的關係,而描述元則是實際用來描述多媒
體資料的內容。圖4的範例說明了描述元以及描述結
構之間的關係。
20
圖4:描述結構範例
MPEG-7 (2/3)
• 假如我們要描述一張影像,我們可以將它視為背景以及許多的區
域(Region)所組成的。
• 對背景而言,我們可能只需考慮其顏色 (color)及紋理(Texture)
的資訊,而對每一個區域而言,我們可能需要考慮其顏色、形狀
Shape)以及紋理的資訊。
• 藉由背景以及區域的描述可以用來構成整張影像的內容。因此,
在MPEG-7的標準之下,我們可以將影像描述定義成包含兩種不
同的DS (Description scheme):背景以及區域。
• 對背景而言,我們只需紀錄它的顏色資訊(顏色描述元Color
Descriptor)以及紋理資訊(紋理描述元Texture Descriptor),而
對於區域而言,我們需要考慮的則是包括了顏色描述元(Color
Descriptor)、形狀描述元(Shape Descriptor)以及紋理描述元
(Texture Descriptor)。
21
MPEG-7 (3/3)
• 在MPEG-7的標準之內制定了許多的描述結構以及描
述元,可以用來描述各式的多媒體資料內涵,而使用
者也可以透過描述定義語言DDL來依據不同的應用定
義新的描述結構DS以及描述元D。
• 接收端則可以藉由DDL來建構出相對應的DS及D ,並
且依據其描述方式正確的還原出多媒體資料的內涵資
訊。
22
影像描述結構範例
23
AVI (1/2)
• AVI (Audio Video lnterleave)是由微軟公司(Microsoft)所開發出來的
一種視訊格式,在個人電腦上是三種廣泛被使用的視訊技術之一(另為
兩種分別是MPEG及QuickTime)。AVI採用RIFF (Resource
Interchange File Format)格式,使得它的播放較為容易。
• AVI格式可以將各媒體資料以資料流(Data Stream)的方式儲存,所謂
Interleave意指音訊資料是與視訊資料一起交錯安排使得他們可以天
衣無縫的一起加以播放。
• 由於Windows作業系統的普及,連帶的也使得它成為目前在
Windows作業平台上最廣泛被運用的音訊/視訊格式。然而,由於在
AVI的格式中只描述了音訊以及視訊資料流儲存在檔案之中的結構,
並未特別指定它編碼的方式,因此它可以透過許多不同的編碼方式加
以儲存。
• 目前一般的AVI檔案可以未經壓縮或是透過任一種codec(編碼與解碼
工具)來壓縮編碼,codec的種類繁多,目前較常被使用的有MotionJPEG,DivX以及MPEG-4等。
24
AVI (2/2)
• 在AVI檔案之中會有一段FourCC來描述這個AVI檔案
是利用何種codec來編碼的。在Windows作業環境之
中,如果我們找到了正確的codec,那麼要播放AVI格
式的視訊檔案是很容易的一件事。
• 有許多的Windows應用程式都可以支援播放AVI個式
的視訊檔案,其中最廣泛被使用的當屬微軟公司本身
的產品Windows Media Player。
• 然而,假如我們不能夠取得這個AVI檔案所必須的
codec,那麼Windows Media Player將無法播放這個
視訊檔案(也許仍舊可以將其中的音訊資料加以播放,
但將不曾出現任何的影像)。
25
QuickTime
• QuickTime是由Apple公司在1991年開發出來的視訊
檔案格式(副檔名為mov),它是一個儲存聲音、圖形以
及電影檔案的方法,必須要搭配使用QuickTime播放
軟體才可以觀看其內容,目前也提供一般的Windows
作業系統的播放軟體版本。
,
• 如同AVI一樣,QuickTime 並沒有制定視訊資料必須
要使用的壓縮格式,它只定義視訊的結構。儘管如
此,現階段QuickTime所使用的是Apple本身的視訊
編碼技術,具備有串流的效果,類似於RealVideo的
格式。
26
串流媒體
• 所謂的串流媒體指的是透過網際網路,即時的傳遞視
訊或是音訊的資料。
• 目前比較常見的串流視訊格式包括了有RealVideo,
QuickTime以及WMV。
• 串流媒體最大的功用是在於即時的將壓縮後的視訊與
音訊資料傳遞到客戶端,讓客戶端可以在尚未完全接
收到全部的資料內容之前使開始透過用戶端的程式加
以解壓縮,並且將視訊與音訊內容加以播放。
27
RealVideo
• RealVideo是由Real Networks Inc.這家公司所制定的
一種視訊格式(副檔名為rm,ra或是ram),其檔案必須
要搭配Real Player才能加以播放。
• Real Video是一種串流視訊規格,它可以將即時的或
是預先錄製的視訊或音訊內容透過網際網路加以傳輸。
• 目前有許多的網路電台都是利用這種方式來傳遞與播
放音訊甚至視訊資料。如果能夠將Real Video的檔案
加以儲存,它也可以在個人電腦上加以播放(不一定要
經由網路串流)。
• 雖然Real Video的視訊品質比起目前一些MPEG-4為
基礎的視訊規格像是DivX;-)或是WMV要來的差,但目
前來講,仍然幾乎可以說是世界上最流行的串流視訊
格式之一。
28
WMV
• WMV (Windows Media Video)是由微軟公司所開發
的一種使用於網路傳輸的視訊格式,它是採用微軟自
己的MPEG-4視訊編碼技術(與其它的MPEG-4技術並
不相容)來對於視訊資料加以編碼。
• 我們只需要下載正確的codec,便可以利用視窗作業
系統內建的Windows Media Player加以播放。
• 由於WMV格式的視訊檔案可以在較小的空閒中儲存較
長時間的視訊資料並且能夠維持其視訊品質,因此越
來越多網際網路上的視訊應用選擇WMV格式作為其視
訊傳遞的方式。
29
視訊播放規格 (1/2)
• 在熟悉了一些常見的視訊壓縮模式之後,我們繼續介紹視訊的播
放規格及其使用的相關視訊格式。常見的視訊播放格式包括了:

Video Compact Disc (VCD)


這是使用MPEG-1視訊壓縮格式的影音光碟。所輸出的影片品質約為
VHS錄影帶影片的等級(通常會更好一些)。VCD可以利用一般電腦的光
碟機、VCD播放機、甚至DVD播放機來播放其視訊內容。
Super Video CD (SVCD)
這是增強的VCD版本,它採用了MPEG-2視訊壓縮技術,並且支援變動
位元速率(VBR),使得其播放時間與畫質之間可以取得一個平衡點。
 一般常見的SVCD中影片的播放時間約為30-45分鐘。
 雖然時間可延長到70分鐘,不過此時聲音和影像的品質將會降低。
SVCD可以利用一般的VCD/SVCD播放機、大多數的DVD播放機(視機器
規格而定,可參考播放機的說明),以及裝有DVD/SVCD播放軟體的電腦
光碟機與DVD光碟機來播放其視訊內容。

30
視訊播放規格 (2/2)
• Digital Versatile Disc (DVD)




由於DVD具備有較高的視訊品質,使得它成為目前影片製作
的主要播放格式。
它不僅可提供較佳的音訊和視訊品質,而且還可以將數倍於
VCD和SVCD的視訊資料加以儲存。
DVD採用了MPEG-2視訊壓縮格式,其檔案遠比MPEG-1壓
縮格式來得大,但藉由DVD光碟片較大的儲存空間,我們可
以將視訊資料以單面或雙面、單層或雙層的方式來燒錄於
DVD光碟片之中。
DVD可以利用DVD播放機或是電腦的DVD光碟機來播放其視
訊內容。
31
視訊媒體
• 視訊原理簡介
• 視訊檔案格式
• MPEG-2視訊壓縮標準簡介
• MPEG-4編解碼技術意義
• H.264編解碼技術
32
MPEG-2視訊壓縮標準簡介
• 類比到數位
• 為何要壓縮-多媒體資料數位化的問題
• MPEG的歷史
• MPEG-2系統概觀
• MPEG-2視訊概觀
• MPEG-2視訊壓縮技巧
• 結論
33
類比到數位
• 人們常說現今已是一個數位的時代,不管是通訊上、資料交換保
存上,越來越多的應用皆改為數位的方式來呈現。
• 在傳統的類比領域中,資料皆以電壓的變化差來傳輸、表現或儲
存,如喇叭、傳真機、電視映像管等皆是以此方式接收訊號並表
現之。然而類比傳輸及資料處理有其兩大致命傷。
• 第一即訊號衰減問題:電氣訊號在傳輸時,隨著傳輸距離的增
加,訊號會逐漸衰減;當訊號在衰減同時,電壓的變化差會逐漸
變小,機器的解析力並非無限,必會失去部份細節。
• 第二個致命傷便是干擾問題:類比訊號傳輸之波形易受外來高頻
訊號的干擾。而數位信號採方波信號,只看正負波峰差,訊號衰
減影響較小且訊號在放大亦不會有失真問題;另外方波信號對高
頻雜訊亦有良好的抵抗能力。訊號數位化是趨勢,也是需要。
34
為何要壓縮-多媒體資料數位化的問題
(1/2)
• 現實生活上,人類大部份可以感受的訊息依然是類比
式的,所以在我們要以數位化方式處理、儲存及傳輸
資料時,第一步得先將資料數位化(Digitalize)。
• 原始視訊播放流程:



NTSC(National Television Standard Committee)是眾所周
知的522線制,其中480行被用於畫面表現上。
如果現在將NTSC類比信號轉成數位化資料,4:3的橫縱比率
意味著每行有720個像素。
如果以每張圖像720*480,那麼一張24位元的全彩NTSC點陣
圖的大小為720 x 480 x 3Bytes = 1036800Bytes,約
1.037MB 。
35
為何要壓縮-多媒體資料數位化的問題
(2/2)



另外,NTSC電視系統每秒顯示29.97張畫面,換句話說,當
電視訊號以數位化方式呈現時時,每秒大約是29.97 x
1.0367MB = 31.072MB的資料流過,並且這還不包括聲音。
如果想要在電腦上播放該視訊,電腦將需以每秒約27MB的速
度將資料由儲存體搬出之後再搬到螢幕上;
另外每小時27MB x 3600 = 97200MB =97.2GB的視訊容量需
求是十分驚人的。如此龐大的資料儲存及傳輸量直到近幾年
硬碟技術才追趕上這樣的需求。至於現在市面上其它已上市
的儲存裝置(CD、DVD、MO、TYPE等),若非傳輸速度
不夠,便是儲存容量不足。
由此可見,數位化的資料處理雖有其好處,然而對於多媒體
資料來說,未經壓縮處理的原始資料(Raw data),存放及
傳輸仍有其問題。因此適當的對多媒體資料進行資料空間的
壓縮以利存放及傳遞實有其必要。
36
MPEG的歷史
• 多媒體資料壓縮領域山頭不少,然而在該領域中,ISO
MPEG(Moving Picture Experts Groups)提出的
影音壓縮標準,可說是目前多媒體領域中的主流格
式。
• 第一代的標準MPEG-1制定於西元1992年,原始目標
為SIF(Source Input Format)解析度:352´240於
每秒30張非交錯式(Non-Interlaced)掃描的畫面或
352´288於每秒25張非交錯式掃描的畫面,位元率
(Bitrate)約為1.2Mbit/s。
• 雖然如此,MPEG-1對於較小或較大解析度的畫面還
是可以處理,並且相對應的提高位元率。
• 另外,一般放映機功能如:倒轉、快轉、暫停、及一
般放映機沒有的功能如:隨機快速存取,MPEG-1皆
37
能支援。
MPEG的歷史 (cont’d)
• MPEG-1畫質雖然比起之前流通的數位壓縮視訊檔要
好,然而不支援電視的交錯顯示問題,加上其畫質比起
家用VHS系統錄影帶仍略差,更不用說是LD。
• 因此MPEG-1格式的影音CD(Video CD,VCD)並未
受到歐美日等家電大廠重視,僅在錄放影機或LD不發達
的地區(如中國大陸)流行。
• 1994年推出的MPEG-2,採用了較新的壓縮技術,支援
交錯式掃描,並在系統可靠度及影音質量上都有所突
破。
• MPEG-2所能達到的影音表現與LD不相伯仲甚至猶有過
之,因此開始受到歐美日家電大廠的注意。目前使用的
DVD影片的視訊壓縮就是採用了MPEG-2技術。
38
MPEG-2系統概觀 (1/3)
• 當初MPEG-1設計的目地主要是影音資料於數位儲存
媒體(Digital Storage Media)的應用,這些數位儲
存媒體通常有非常低甚至趨近於零的資料傳輸錯誤。
• 因此,MPEG-1的系統並未設計成較強固的方式以對
抗傳輸錯誤。
• MPEG-2標準的目標則是希望能有更廣泛的應用,
MPEG-2的系統因此被負予了錯誤回復(Error
Resilience)能力的使命。
39
MPEG-2系統概觀 (2/3)
• MPEG-2系統定義了兩種資料流:Program Stream及
Transport Stream。
• Program Stream基本上近似於MPEG-1的系統資料流
(System Stream),但是內部是使用修改過的語法
(Syntax)以及新的函式以提供一些較先近的功能。
• Program Stream提供了與MPEG-1系統間的相容性,
其解碼器(Decoder)設計上的要求基本上是相似於
MPEG-1系統資料流解碼器的。
• 一般來說,MPEG-2的 Program Stream 解碼器是可
以解MPEG-1的系統資料流的。
40
MPEG-2系統概觀 (3/3)
• MPEG-2系統資料流的抗錯誤能力主要是來自
Transport Stream。
• Transport Stream使用了新標頭及188 bytes固定長
度的封包,固定長度的封包除了硬體較好處理之外,
也更適合錯誤更正的演算。
• 因此Transport Stream適合於易出錯的傳輸實體(如
有線電視網路或衛星電視)上負載壓縮的視訊及聲音
資料。
• 事實上,Transport Stream就是被特地設計來支援許
多新功能的,如非同步多路傳輸(Asynchronous
Multiplexing)。
41
MPEG-2視訊概觀 (1/6)
• MPEG-2視訊原始的主要目標是希望在位元率介於4到
9Mbit/s間時,能對一般標準電視解析度的交錯式視訊
(Interlaced Video)提供一種新的編碼壓縮方法以得
到更好的畫質。
• 然而,MPEG-2的最終目標並未僅只於此,它也可以
支援如HDTV等更高畫面解析度的視訊應用,以及各種
畫面解析度下的交錯式視訊。
• 如同其它MPEG標準,MPEG-2的視訊標準僅僅定義
了資料的語義及語法(syntax),並未規定資料編碼及
解碼的實作方法,因此這之間還有不少編解碼技術空
間可以發揮。
42
MPEG-2視訊概觀 (2/6)
MPEG-2的應用
43
MPEG-2視訊概觀 (3/6)
• 下圖是一個簡單的MPEG-2 Non-scalable視訊編解碼器
(Codec) 。
• MPEG-2視訊編碼器(Encoder)包含Inter Frame/Field離散餘
弦變換(Discrete Cosine Transform,DCT)編碼器、
Frame/Field動態估計及補償器(Motion Estimator and
Compensator)、以及可變長度編碼器(Variable Length
Encoder,VLE)。
• 離散餘弦變換編碼器主要是利用空間上的冗餘(Spatial
Redundancies),而動態估計及補償器則是利用時間上的冗餘
(Temporal Redundancies)來壓縮資料。
• 最後資料經過可變長度編碼器編碼後送至MPEG-2的系統多工器
(System Multiplexer,SysMux),再由Transport或
Program Stream將資料送出。
44
MPEG-2視訊概觀 (4/6)
• MPEG-2視訊解碼器(Decoder)包含Inter Frame /Field 離散餘
弦變換解碼器(即反離散餘弦變換,Inverse DCT,IDCT)、
Frame/Field動態補償器 (Motion Compensator)、以及可變長
度解碼器(Variable Length decoder,VLD)。
• MPEG-2系統解多工器(System De-Multiplexer,
SysDemux)有著與系統多工器互補的功能,並且能將收到的視
訊資料流整合後傳送至可變長度解碼器,可變長度解碼器再將資
料還元成DCT係數(DCT Coefficients)及動態向量(Motion
Vector)並分送至離散餘弦變換解碼器及動態補償器。

離散餘弦變換解碼器以離散餘弦變換係數資料產生出視訊,而動態
補償器利用動態向量及預測誤差值產生產生出視訊並輸出。
• 上述是一個很單純的MPEG-2編解碼器,當然,實際上MPEG-2
視訊標準並不僅僅如MPEG-1般為單層(Single Layer)的視訊
編碼,MPEG-2也包含了Scalable視訊編碼。

Scalable視訊編碼提供了在相同的視訊資料流中解出不同的解析度
及影像品質的能力。
45
MPEG-2視訊概觀 (5/6)
一個概觀的MPEG-2 Non-Scalable視訊編解碼器
一個概觀的 MPEG-2 Scalable視訊編解碼器
46
MPEG-2視訊概觀 (6/6)
• 原始的數位化影像輸入後,前處理器會將其分為兩個視訊訊號,一
個輸入MPEG-1或MPEG-2的Non-Scalability的視訊編碼器處理,
產生基礎層(Base Layer)資料流;
• 另一個訊號由MPEG-2加強編碼器(Enhancement Encoder)產
生加強層(Enhancement Layer)資料流。最後影像資料由系統
多工器轉成系統資料流送出。
• 解碼器反向處理後便可得到不同的品質及解析度的影像。舉例來
說,當只有MPEG-1或MPEG-2 Non-Scalable的解碼器時,基礎層
的資料流將被解出並且可以的到尚可的影像,而當加入了MPEG-2
加強編碼器後,增強的視訊訊號就可以被解出來,並且和基礎資料
流透過後期處理器進一步處理得到更高品質的影像資料。
• MPEG-2定義了許多不同種類的Scalability,因此一般很難在一個
編解碼器中支援所有的Scalability。然而基本上一個支援
Scalability的編解碼器仍需包括時間上及空間上的解析度
Scalability的能力。
47
Syntax Layers in MPEG-2
8*8 block
0
1
2
3
Y
4
5
Cr
Cb
MB-1 MB-2
…
MB-N
Slice layer
Macroblock layer
slice-1
slice-2
….
slice-N
IBBPBBPI
Picture layer
Group of pictures layer
GOP-1 GOP-2 … GOP-N
48
Sequence layer
The Video Encoder of MPEG-2
Frame
Memory
Preprocessing
8*8 spatial
coefficient
+
8*8 frequency
coefficient
DCT
-
Quantizer
(Q)
Zig-Zag
Scan
Q-1
VLC
Encoder
Predictive
frame
IDCT
Buffer
+
Input
+
Motion
Compensation
Output
Frame
Memory
Motion
vectors
Motion
Estimation
圖4: 一個典型的MPEG-2編碼器
49
The Video Decoder of MPEG
Coded Video
Bit Stream
VLC/RLC
Decoder
Motion
Vectors
Inverse
Scan
Ordered
Source
Pictures
Q-1
IDCT
Motion
Compensation
Picture
Buffer
圖5: 一個典型的MPEG-2解碼器
50
+ +
Buffer
MPEG-2視訊壓縮技巧
• 所謂的壓縮,就是找出冗餘內容,再從資料流中除去
的技術。
• 如之前所提,MPEG-2的視訊主要是就是利用空間上
及時間上冗餘資訊的消除來達到壓縮的效果。
• 圖4及圖5為典型的MPEG-2編解碼器,以下我們將針
對其中重要的壓縮技巧做解說。



空間上的冗餘去除
時間上的冗餘去除
以資料本身冗餘為基礎的壓縮
51
空間上的冗餘去除
• 視訊資料的一個特性是空間冗餘。
• 一般來說,在同一張畫面上必有一些共通特性,也許
是色彩上的,也許是幾何上的,或是其它特徵值得到
的。
• 所謂的空間冗餘去除,就是要識別出畫面中重要的元
素,並移除重複且較無影響的元素的動作。
52
色彩取樣
• 跟據實驗,人眼對於亮度變化較敏感而對於色度的變化相
對的較不易查覺。
• 依此實驗,MPEG-2採用亮度色度的色彩表示格式,Y表
示亮度值(Luminance),Cr及Cb表示色度值
(Chrominance),並且從降低色度取樣來減少訊號
量。
• MPEG-2中定義了4:2:0、4:2:2及4:4:4採樣格式。
• 4:2:0表示四個Y取一個Cr一個Cb;4:2:2表示四個Y取兩
個Cr兩個Cb 。
• 4:4:4表示四個Y取四個Cr四個Cb,即不做任何的採度取
樣減少。減少色度採樣可以在盡量降低對視覺的影響下達
到較大的資料縮減效果。
53
離散餘弦變換 (1/2)
• 離散餘弦變換是一個無損的、可逆的數學計算。
• 在用於視訊壓縮時,它把空間亮度採樣和相應的色度
採樣強度資料轉化為空間頻率資料。
• 在MPEG-2的視訊壓縮中,找出存在於視訊中的每張
畫面裡的空間冗餘,就是以將圖切成8x8的區塊
(Block)後做離散餘弦變換來完成的。
• 區塊的色彩值轉換後的離散餘弦變換係數依然是一個
8x8的矩陣,左上角的係數稱為DC係數,其餘稱為AC
係數。
54
離散餘弦變換 (2/2)
• DC係數往下代表著逐漸增高的垂直空間頻率係數,往
右代表看逐漸增高的水平空間頻率係數,其他係數則
代表垂直水平空間頻率的不同組合。
• 由於圖像的自然屬性,一個畫面中通常不會有很密集
且大的波動,因此離散餘弦變換經常使代表較高空間
頻率的離散餘弦變換係數的值很小,甚至為零。
• 基本上,離散餘弦變換並不能減少數據量,但是卻可
以將資料轉成較易找尋冗餘的表達型式。
55
量化
• 除了在4:2:2或4:2:0的色彩採樣過程中丟失了有限數量的資
訊以外,MPEG-2的壓縮能力來自對離散餘弦變換係數靈活的量
化過程。
• 簡單地講,量化(Quantization)就是減少描述各係數的位元數
的過程,亦即將各係數以較粗糙的度量單位描述之。
• 量化的動作主要有兩個功能:一是讓原已很接近零的值儘量變成
零,另外則是使得原來非零的係數分布範圍變小,有助於壓縮。
• 量化是一種破壞性壓縮技巧,量化後的資料再還原時與原來的資
料不會全然相同,因此視訊壓縮後失真的程度,主要便取決於量
化位階(Quantization Scale)的選取。
• 由於人視覺上的特性,高空間頻率的訊號往往不易察覺其變化,
因此用較大的位階表示甚至忽略之,對人眼來說亦不會造成多大
的差異。
56
時間上的冗餘去除 (Reduction of Temporal
Redundancy)
• 視訊資料的另一個特性是時間上的冗餘(Temporal
Redundancy)。
• 一般播放的視訊,其實只是一連串連續的圖像序列,
然而因為人類視覺的視覺暫留現像,所以會有連貫影
像的錯覺。
• 而此種視訊因為畫面間時間間隔甚小,因此相臨的畫
面幾無差異,大多只是圖像內容的位置變化。
• 因為有此現像產生,所以我們可以利用除去在時間軸
上畫面與畫面的相似性造成的冗餘來進行壓縮。
57
動態補償
•
動態補償(Motion Compensation,MC)便是基於上述概念所發展出
來的一種視訊壓縮技巧。在做動態補償之前,首先將畫面分為16x16的
大區塊(Macro-block,MB),然後找尋其在參考畫面(Reference
Picture)中近似的大區塊所在位置,並將由目標大區塊到參考大區塊間
位置的座標差記錄成動態向量(Motion Vector)。
•
參考畫面在該畫面之前,稱為向前預測(Forward Prediction);參考
畫面在該畫面之後,稱為向後預測(Backward Prediction);而參考
畫面在該畫面前後都有,稱為雙向預測(Bi-directionally
Prediction)。
•
而整個找尋動態向量的過程稱為動態估計(Motion Estimation),常見
的有區塊匹配法(Block Match Method)及遞迴法(Recursive
Method)。
•
另外,因為預測可能不是最佳匹配且目標大區塊與參考大區塊間不一定
完全一致,因此還要計算目標大區塊與參考大區塊間畫面訊號的差值,
稱為預測誤差(Prediction Error),用以在解碼時做補償之用。
•
最後預測誤差再以空間的冗餘去除的壓縮法處理之。
58
畫面壓縮 (1/5)
• 要探討如何壓縮MPEG-2的視訊之前,首先來看看MPEG-2的視
訊資料結構,由下而上依序為:
•
•
•
•
•
•
區塊(Block):包含量化後的畫面資料,由8x8的像素所組成,是
離散餘弦轉換的最小單位。
大區塊(Macroblock):為一個16 x 16的大區塊,是色彩取樣、動
態估計及動態補償的基本單位。
片段(Slice):由數個大區塊(Macro-block)所組成,主要將每張
畫面作水平且固定單位的切割。片段以上的各種結構都有訊號同步
及錯誤控制能力。
畫面(Picture):由數個片段(Slice)所組成,為最主要的編碼單
位,主要有三種影像編碼的型態 I、P、B,稍後會有詳細敘述。
畫面群組(Group of Pictures,GOP):由一張 I 畫面及數張 P 及
B 畫面所組成。在MPEG-2中,畫面群組的總長及P畫面張數是可以
動態調整的。
視訊序列(Video Sequence):由數個畫面或畫面群組所組成,然
而一部影片可以只由一個視訊序列組成,也可以由數個視訊序列所
組成。
59
畫面壓縮 (2/5)
60
畫面壓縮 (3/5)
I 畫面(Intra Coded Pictures):
MPEG-2定義了三種畫面壓縮模
式,I畫面、P畫面、B畫面
61
畫面壓縮 (4/5)
• 當大區塊僅使用本身的畫面資料進行空間的冗餘去除,
並沒有參考其他畫面的資料,我們稱為Intra模式大區
塊(Intra Mode Macro-block)。
• 在畫面中,所有的大區塊皆為Intra模式大區塊。畫面
可以做為視訊資料流中的索引點,也是提供隨機存取能
力的主要來源。
• 畫面通常在視訊序列或畫面群組的第一張,解碼時 I 畫
面可獨立解碼,並做為P及B畫面的參考影像的來源。
• 由於不須參考其他畫面,因此無法得到消除時間上冗餘
的好處,因此壓縮率較差。
62
畫面壓縮 (5/5)
• P畫面(Predictive Coded Pictures):
在編碼及解碼時,會使用參考畫面(Reference Picture),這些參
考畫面可為該畫面前面最近的 I 畫面或 P 畫面。
 編碼時,在P畫面中的大區塊,若能在參考畫面上找到相對應的大區
塊,則用動態補償方式做預測編碼(Predictive Coding);若找不
到,則以Intra模式做編碼。
 由於加入消除時間上冗餘的技術,因此其編碼效率較高。

• B畫面(Bi-directionally Predicted Pictures):
在解碼及編碼時,會使用到前面及後面兩個方向參考畫面的資料。
 如同 P 畫面一樣,編碼時,在B畫面中的大區塊,若能在參考畫面
上找到相對應的大區塊,則用動態補償方式做雙向預測編碼(Bidirectionally Predictive Coding);若找不到,則以Intra模式做編碼。
 B畫面擁有最高的編碼效率,然畫質最差,故本身不再做為其他預測
編碼用。

63
以資料本身冗餘為基礎的壓縮 (1/2)
• MPEG-2在以視訊的特性做了空間及時間上的冗餘壓
縮後,還會再以資料本身的冗餘再做壓縮。
• 在量化完成後,MPEG-2捨棄了MPEG-1所採用的
ZigZag Scan而改採Alternate Scan來將量化後二維
的離散餘弦係數串接成一維的數列,以鋸齒狀路線處
理8x8的塊中的64個係數,盡量形成最大長度的連續
零值,以提高壓縮效率。
• 接著將串接起來的資料以遊程編碼(Run Length
Coding,RLC)及可變長度編碼(Variable Length
Coding,VLC)處理。
• 遊程編碼的概念就是,如果有一連串相同的值,則我
們可以以標示該值及其持續長度來表示。
64
以資料本身冗餘為基礎的壓縮 (2/2)
• 例如有十個"A"構成一個字串,則我們可以將
"AAAAAAAAAA"之描述成"A" x 10,這樣就可以減
少許多相同的資料存放空間。
• 可變長度編碼基本概念則是:越常出現的樣版,就以
越短的位元數來表示之。
• 因此可變長度編碼是這樣一個過程,找出資料中所有
的資料樣版及其出現頻率,接著以較少的位元來描述
較常出現的樣版,用較多的位元描述不常出現的樣
版。
• Huffman Coding就是其中一種基本的演算法。基本上
遊程編碼及可變長度編碼都是非破壞性壓縮。
65
可變位元率 (Variable Bit Rate) (1/2)
• 最後要提到MPEG-2不同於MPEG-1的其中一樣很大的
差異,就是MPEG-2除了固定位元率(Constant
Bitrate,CBR)之外,另外提供了可變位元率
(Variable Bitrate)來調節資料速率。
• 位元率的控制往往決定了離散餘弦係數量化的的結
果。
• 視訊的資料經過壓縮後並非皆有相同的資料流量。一
般說來,畫面變動越大,壓縮比越小,資料流頻寬需
求越大;反之,畫面變動越小,壓縮比越大,資料流
頻寬需求就越小。
66
可變位元率 (2/2)
• 各畫面間壓縮後的值並不是固定的,固定的資料速率
只是個理想,實際狀況下一昧的要求固定位元率不是
犧牲了影像品質(以較低流量畫面為基準,較大流量
的畫面強制做過多的壓縮)就是犧牲了容量(以較大
流量畫面為基準,較低流量的畫面強制做過低的壓
縮)。
• 一般說來,可變位元率對於提供穩定的影像品質是個
更好的選擇,因為其能夠根據動態畫面的複雜程度,
適時改變數據傳輸率獲得最適且一致的編碼效果。
67
結論
• MPEG-2的壓縮技巧所提供的高畫質,除了少數粗製
濫造或是母片老舊的DVD影片,應該大家或多或少都
在其中得到體驗。
• 細膩、清析、而且不會有顏色不均及馬塞克的情形,
與以MPEG-1技術為基礎的VCD實有極大的差別。
• 另外,除了大家常聽到的DVD之外,目前數位攝影
機、數位錄放影機、數位無線及有線電視播放等都有
MPEG-2的蹤影;
68
視訊媒體
• 視訊原理簡介
• 視訊檔案格式
• MPEG-2視訊壓縮標準簡介
• MPEG-4編解碼技術意義
• H.264編解碼技術
69
MPEG-4編解碼技術意義
• Introduction
• MPEG-4簡介
• MPEG-4的應用
• 結語
70
Introduction (1/5)
• 就在MPEG-1、MPEG-2進入廣泛的實際應用之時,
MPEG小組又於1998年發佈了MPEG-4標準的草稿。該標
準對壓縮算法進行了改進:

MPEG-1和MPEG-2的壓縮率大概在20到30倍之間。
• 市面上常見的VCD光碟片大概是每片650 Mb 的資料量,
存放74分鐘的影片,相當於VHS錄影帶的畫質。

DVD一片4.7Gb的資料量,可以存放超過兩小時的影片:MPEG-1
和MPEG-2的壓縮率用在儲存媒體上是足夠了。
• 但是運用在網絡傳輸上還是太低,尤其是無線通訊方面。
於是MPEG-4在訂定標準時,為了達到更好的壓縮效果,
採用了許多新的技術與觀念。
71
Introduction (2/5)
• MPEG-4內是採用了物件(video object)的觀念,壓縮
之前先將影片中各個主要物件區分開來。例如電視新
聞播報的場景中,主播是一個物件,播報台、背後的
佈景、主播旁邊的3D玩偶也分別是一個物件。


主播的聲音也是一個物件。在影片進行中,主播會有輕微的
移動,播報台是固定不動的。
佈景則有時候會播放新聞影片。
• 將各個物件分隔開來有什麼好處呢?

可以針對不同的物件特性採取不同的壓縮編碼技巧,以得到
最好的壓縮效果。
72
Introduction (3/5)
• 例如播報台只要傳送一次資料,以後不再傳送,以節
省資料量。
• 3D玩偶則用3D動畫適用的演算法。
• 主播和新聞影片採用MPEG-2的格式。
• 聲音則採用MP3的格式。將這些不同的資料整合後結
合起來一起傳送。
• 解碼器收到資料後,先將各個不同格式的資料分開,
依照各自的格式解碼。
• 再根據時間和空間的關係,將各個物件加以組合,就
可以得到原來的影片了。
73
Introduction (4/5)
• 為了達到以上的壓縮觀念,MPEG-4引進了許多新的壓縮
技術來應用於各種不同的物件。


對於聲音部份,可以分成自然音、語音和合成音,針對不同發聲
原理採用不同演算法。可以根據對音質的要求,而得到2 Kbits/s
到64 Kbits/s之間的資料量。
在影像方面,則可細分為自然物體、2D影像、3D影像、人臉、
背景等不同特性物件。根據不同影像特性可以有5 Kbits/s到10
Mbits/s 的資料量。
• MPEG-4的壓縮率可以超過100倍,而仍然保有極佳的音
質和畫質。可以用最少的數據獲得最佳的圖像質量,因
此滿足了低碼率應用的需求;另外,MPEG-4還把提高多
媒體系統的交互性和靈活性作為一項重要的目標,因此
它更適合於交互式AV服務以及遠程監控。
74
Introduction (5/5)
• 為了滿足各種應用的需求,MPEG-4標準實際上相當
龐大,它具有廣泛的適應性和可擴展性。
• 就其應用前景而言,MPEG-4未來將在多個應用領域
大顯身手,如internet/intranet上的多媒體流服務、視
頻點播、可視遊戲、低碼率的移動多媒體通信(視頻
手機等)、交互式多媒體應用、實時多媒體監控、數
字電視與演播電視、虛擬會議等等。
75
MPEG-4簡介 (1/4)
• MPEG-4起草甚早,於1993年開始制定。原是針對視頻
會議、可視電話而制定的超低比特率(bit rate)編碼標
準。
• 在制定過程中,MPEG委員會看到人們對多媒體視頻音頻
的編碼壓縮及傳輸解碼的需求已非當時制定的MPEG-4技
術所能達成,便立即修改計劃,因而有了現在突破性的
MPEG4定義。
• 它的新定義與以往的JPEG、MPEG-1和MPEG-2有很大
的不同,它是一種格式、一種框架的定義,而不只是具
體算法。
• MPEG-4是在1998年10月定案,並於1999年2月正式命名
為國際標準ISO/IEC 14496。
76
MPEG-4 場景
77
MPEG-4 所含
78
MPEG-4簡介 (2/4)
• 1999年底MPEG-4第二版(MPEG-4 verion 2)亦告完成,並於
2000年年初成為國際正式標準。新的增修(amendment,簡稱
amd)持續加入,進一步擴展了此一標準的涵蓋範疇及應用領域。

例如,在增修三(amd3)中加入了影視製片標準子集(studio
profile),將比特率進一步提升到1.2gbps,而分辨率(resolution)
則推升至4000 pixels×2000 pixels,如此使得MPEG-4標準得以延伸
至電視電影專業影片製作領域。
• MPEG-4原本只專注在成為極低比特率視音頻編碼的標準。然而要
在極低比特率下,達到高壓縮,而依然完成高音畫質的傳輸,則需
要一種能針對不同種的影音數據,作出最有效率的編碼方式。
• 由此進一步衍生,如能將這些不同種的影音數據視為個別獨立的對
象(object),除了進行以對像為基礎的編碼外,在對象與對像
間,或者是對象與使用者間尚能進行互動,那就構成了一個高功能
的多媒體互動應用平台。
79
MPEG-4簡介 (3/4)
• 未來市場對多媒體視頻信息的應用要求,已由播放型
(broadcast)轉向基於內容(content-based)的
訪問、檢索及操作。這需要將基於內容的索引與編碼
結合起來,在壓縮數據中就有描述視頻內容的信息。
• 為了支持對動態視頻內容的訪問,MPEG-4引入了基
於內容的視頻對像(video object)壓縮編碼方法,
便於有效的操作和控制對象,這突破了傳統MPEG-2
基於幀(frame-based)的壓縮方法。
• 與MPEG-1和MPEG-2標準相比較之下,除了傳統的編
碼功能之外,MPEG-4具備了更多引人注目的功能,
包括了有效壓縮、對像內容的存取和可擴展性、空域
和時域的可擴展性以及強健的糾錯能力等。
80
傳統系統
81
新 MPEG-4 系統
82
MPEG-4簡介 (4/4)
• MPEG-4標準不僅可以提供一個更高壓縮效率的新多
媒體信息傳輸標準,同時也可以達到更好的多媒體內
容互動性及全方位的存取性。
• MPEG-4編碼系統是開放的,可隨時加入新的編碼算
法模塊。它能支持多種多媒體應用,可根據不同的應
用需求,現場配置解碼器。
• 這種技術應用的靈活度對以往只能針對硬件的壓縮編
碼方式是無法想像的。
83
MPEG-4 階層語法
VS0
Visual object Sequence (VS)
Visual Object (VO)
VO0
Visual Object Layer (VOL)
VOL0
Group of Visual Object Plane (GOV)
GOV0
GOV1
Visual Object Plane (VOP)
VOP0
VOPn-1
84
VS1
VO1
VOL1
MPEG 影像物件平面 (VOP)
85
MPEG 影像物件平面 (VOP)
86
自然與合成之場景
87
MPEG-4之形狀編碼
• MPEG-4 Video Provides Tools for a Number of
Functionalities
• Integrated Approach (Core and Extensions)
• Based on DCT Technology (except for Still Texture Coding)
Core
VOP
Motion
(MV)
Texture
(DCT)
bitstream
Extension
VOP
Shape
88
Motion
(MV)
Texture
(DCT)
bitstream
MPEG-4 Shape Encoder介紹 (1/4)
•
在MPEG-4 是一個可以處理多媒體媒材的ISO/IEC 標準,其中
MPEG-4視訊編碼的部份則是繼MPEG-1 和MPEG-2後新一代的國
際視訊壓縮編碼的標準。和以往的動態影像壓縮標準最大不同,在
於MPEG-4 視訊的部份將動態影像視為由視訊物件(Visual Object)
所構成的集合。

而為了能夠方便地操作視訊物件, MPEG-4定義了一套表示視訊物件的
資料結構,並反映在編碼壓縮出來的位元串流(bitstream) 中,如圖1 所
示。
89
MPEG-4 Shape Encoder介紹 (2/4)
• 影像物件(Video Object, VO) 是MPEG-4視訊壓縮
編碼所使用到的一種視訊物件,每個VO 在不同的
時間點則稱為Video Object Plane (VOP),如圖2
所示。
90
MPEG-4 Shape Encoder介紹 (3/4)
•
VO以Alpha component 來定義VO 的形狀(Shape) 資訊,而用Y, Cb, Cr 來定義VO
的材質(Texture) 資訊。其中VO 的形狀資訊在MPEG-4 Encoder 中是由形狀編碼器
(Shape Encoder) 進行編碼壓縮,材質資訊則是透過motion-compensated
discrete cosine transform-based 演算法進行編碼壓縮,MPEG-4 視訊系統的基本
架構如圖3所示。而藉由形狀資訊的幫忙,可以避免對物件外多餘材質資訊進行不必
要的編碼,因此可以較傳統的以畫面為基礎的(Frame-based)視訊壓縮達到更好的編
碼壓縮結果。
91
MPEG-4 Shape Encoder介紹 (4/4)
• 在MPEG-4 材質編碼(Texture Coding) 中,編碼壓縮出來的位元串
流(bitstream)最基本單位是16´16 的方塊,稱做macroblock(MB)。
而為了配合材質編碼並方便處理,在形狀編碼(Shape Coding) 中也
採用16´16 的方塊為處理形狀資訊主要單位,稱做Binary Alpha
Block(BAB) 。圖4 顯示VOP 的材質資訊、形狀資訊和16´16 BAB
之間的關係。
92
Profiles & Level
• Profile



為所使用工具的子集合
為了相容性而設計
在A (Audio), V (Visual), S (System), D (Delivery)皆有規定
• Level

為處理能力的規範


例如:畫面大小(frame size)、每秒幾張畫面(fps)、位元率
(bitrate)、VOP數目等
亦為了相容性而設計
93
Profile, Algorithm, and Tools
Tools
Algorithms
Profiles
94
Profiles for Natural Video
•
Simple Visual Profile:
最常見到之MPEG-4 profile! WMV8, DivX之基礎
 Provide efficient and error resilient coding of rectangular video objects
 Suitable for applications on mobile networks

•
Advance Simple Profile
業界十分重視
 新版DivX之基礎

•
Simple Scalable Visual Profile:

•
Core Visual Profile:

•
Add support for coding of temporal and spatial scalable objects
Add support for coding of arbitrary-shaped and temporally scalable objects
to the Simple Visual Profile
Main Visual Profile:

Add support for coding of interlaced, semi-transparent, and sprite objects to
the Core Visual Profile
95
Visual Tools
Basic
Error Resilience
Short Header
B-VOP
Method 1/2 Quantization
P-VOP based Temporal
Scalability
Binary Shape
Grey Shape
Interlace
Sprite
Dynamic Resolution
Conversion
NewPred
Global MC
Quarter-pel MC
SA-DCT
FGS
FGST
Visual Object Types
Advanced Advanced
Advanced
Simple Core Main Real Time Coding
FGS
Simple
Simple Efficiency





















































Summary of Profiles
Higher
Coding
Efficiency
Main
Advanced
Coding
Efficientcy
Core
Core
Scalable
Advanced
Simple
Advanced
Simple
Simple
Simple
Scalable
SNR
&
Temporal
Scalability
Higher
Error
Resilience
Additinal
Tools &
Functionality
Advanced
Realtime
Simple
Spatial
&
Temporal
Scalability
No
Scalability
97
Core
Studio
Simple
Studio
Arbitrary
Shape
Rectangular
Frame
MPEG-4的應用 (1/2)
• 由於MPEG-4採用了基於對象的壓縮編碼方法,它把圖像和視頻
分割成不同的對象,分別處理,除了能提高數據壓縮,還能實現
基於內容的交互功能。

這對增值服務業來講,MPEG-4有效的處理基於對象的多媒體內容
壓縮、存取與互用,可廣泛的應用到網上購物、遠程醫療、教學、
監控及可視電話等領域。
• 近來MPEG-4之實際應用以 simple profile應用為主軸,亦就是
利用MPEG-4較MPEG-2更好的視音頻高壓縮技術,使得在低頻
傳輸條件下(如500K-1.5Mbit/sec),依然能提供較好畫質的
節目,頻帶寬的利用也相對提高。
此類型典型應用如由互聯網下載電影觀賞,或者是近來討論熱烈的
MPEG-2與MPEG-4子母視窗整合應用。
 簡單來說,就是在MPEG-2主畫面上疊上一個或數個MPEG-4子畫
面,如此在觀賞主畫面節目(如:球賽、新聞)時,可同時選擇子
畫面的內容(如:明星球員個人簡介、新聞內容的手語畫面)。
 電視教學亦非常適用於此種應用。

98
MPEG-4的應用 (2/2)
• 由於此類型應用正蓬勃興起,針對這類應用的解決方
案亦紛紛推出,有的為硬件方案,有的為軟件方案。
前者為設計一個MPEG-4專屬解碼晶片,但由於部分
MPEG-4相關技術(如:串流格式),尚處百家爭鳴
時期,主流尚未浮現,這使得晶片廠商僅能擇一而為
之。


再由成本角度來看,因為多加了解碼晶片,系統成本也隨之
提高。
軟件方案則用既有的系統CPU來進行解碼,此法較具有彈
性,可隨時依市場需求態勢改版更新,又因省去了解碼晶片
而降低系統成本。
99
台大MPEG-4晶片
• 晶片架構圖
HyRISC
Firmware
External
Memory
SRAM
RISC BUS (16 bits)
Virtual
Tools
Wrapper
Wrapper
ME
MC
Wrapper
Coeff.
Generator
Block
Engine
Coeff.
Buffer
Data BUS (32 bits)
CHIP is inside the dot-line region
100
Wrapper
Wrapper
Wrapper
Bitstream
Unit
Sequencer
DMA
MEM
IF
台大MPEG-4晶片
• 晶片規格
Chip
MPEG-4 Video Encoder
Specification
Simple profile @ Level 3
Encoding Complexity 352 x 288 at 30 fps
101
Technology
Die Size
TSMC 0.35 um 1P4M
5.1 x 5.1 mm2
Logic gate count
71,459 gates
On-chip memory
39,080 bits
Off-chip memory
2,027,527 bits
Transistor count
828692 trans.
Package
208 CQFP
Input PAD
67
Output PAD
83
Power PAD
48
Working frequency
Voltage
40 MHz
3.3V
Power Consumption
339.51mW
結語
•
對多媒體內容創作業者而言,MPEG-4使多媒體內容更多元化、更具有彈
性、多媒體組件能更容易被再利用。它將現今各自發展的技術及應用,如互
聯網、動畫、視頻、音頻、互動電視等整合至單一架構之下,而且提供更佳
的資源管理方法和保護著作權的機能。
•
對網絡服務業者而言,MPEG-4是透明度很高的信息傳遞工具。它可以藉由
與其它國際標準的兼容相通而存在於各種形式網絡上,如有線電視網絡、電
信網絡以及無線傳輸等。尤其在單純以視頻音頻傳輸為主的應用中,相較於
MPEG-l或MPEG-2,MPEG-4僅需較小的位元率,即可達成相同音畫質效
果,如此即意味著較高的頻寬使用效率。
•
對終端消費者而言,MPEG-4能讓消費者在原創作者限定的操作功能範圍之
內,與節目內容中的對象互動,體會前所未有的娛樂效果。而且在移動式低
傳輸速率網絡中,促使多媒體應用得以實現。這包括了交互式多媒體廣播和
移動通訊。
•
因應市場的需求,將會有更靈活的MPEG-4應用。比如手機、機頂盒、電視
的互動,有線、無線多媒體內容的傳送,節目製作與增值服務業的串聯等
等,都將會是MPEG-4的貢獻。
102
視訊媒體
• 視訊原理簡介
• 視訊檔案格式
• MPEG-2視訊壓縮標準簡介
• MPEG-4編解碼技術意義
• H.264編解碼技術
103
Introduction
• ITU-T H.26L計畫開始於1999年,其目標為發展下一
代的視訊會議標準
• ITU-T Video Coding Experts Group (VCEG)和
ISO/IEC Moving Picture Experts Group (MPEG) 組
織於2001年共同組成Joint Video Team (JVT) 組織共
同進行發展
• 此最新的標準稱為H.264 & MPEG-4 Part 10
Advanced Video Coding (AVC)
• H.264可說是目前最熱門的研發項目
104
編碼系統發展演進
ITU-T Video Coding Experts Group (VCEG)
Short-Term
H.263(1995)
H.263+(1998)
H.261(1990)
Long-Term
H.26L(1999~)
ISO Motion Picture Experts Group (MPEG)
MPEG1(1991)
MPEG2(1994)
MPEG4(1999)
105
Joint Video Team (JVT) 2001
H.264
MPEG-4 part 10
Official title: Advanced
Video Coding (AVC)
MPEG-2 Has Hit a Wall
6
5
MPEG-2
Standard
Frozen
(H.262)
1st
MPEG-2 Encoder
2nd Generation
Encoder
3rd Generation
Encoder
4
Mbit/s
MPEG-2
4th
3
Generation
Encoder
5th Generation
Encoder
2
1
0
1994
1995
1996
1997
1998
1999
2000
2001
Courtesy of Modulus Video
106
2002
2003
2004
2005
MPEG-4 in Comparison
1st
MPEG-2 Encoder
6
2nd Generation
Encoder
5
3rd Generation
Encoder
4
MPEG-2
Mbit/s
MPEG-4
4th
3
H.263
Generation
Encoder
5th Generation
Encoder
2
1
0
1994
1995
1996
1997
1998
1999
2000
2001
Courtesy of Modulus Video
107
2002
2003
2004
2005
H.26L Provides Focus
1st
MPEG-2 Encoder
6
2nd Generation
Encoder
5
3rd Generation
Encoder
4
MPEG-2
MPEG-4
Mbit/s
H.26L
4th Generation
H.263
Encoder
5th Generation
Encoder
3
2
1
0
1994
1995
1996
1997
1998
1999
2000
2001
Courtesy of Modulus Video
108
2002
2003
2004
2005
MPEG-4 “Adopts” H.26L
1st
MPEG-2 Encoder
6
2nd Generation
Encoder
5
3rd Generation
Encoder
4
MPEG-2
MPEG-4
Mbit/s
H.26L
4th Generation
H.263
Encoder
5th Generation
Encoder
3
2
1
H.264 /
MPEG-4 part 10
0
1994
1995
1996
1997
1998
1999
2000
2001
Courtesy of Modulus Video
109
2002
2003
2004
2005
目標應用
• 儲存 (B-frames), 即時傳輸 (no B-frames)
CATV
Cable TV on optical networks, copper, etc
DBS
Direct broadcast satellite video services
DSL
Digital subscriber line video services
DTTB
Digital terrestrial television broadcasting
ISM
Interactive storage media (optical disks, etc.)
MMM
Multimedia mailing
MSPN
Multimedia services over packet network
RTC
Real-time conversational services (videoconferencing, videophone, etc.)
RVS
Remote video surveillance
SSM
Serial storage media (digital VTR, etc.)
110
正在發展中的應用
• 多種標準的競爭



H.264/AVC, WMV 9 (VC 9), and MPEG-2
Digital Video Broadcasting for Handsets (DVB – H)
Hi-Definition DVD storage (HD DVD)
111
功能(1/2)
• 高壓縮能力


在即時應用上比1998年的H.263v2節省50%的位元率
在儲存應用上比MPEG-2節省60%
• “回到根本”的方法(不向之前的標準相容)
• 可改變的編碼延遲
• 更好的錯誤回復能力
• 完善的編解碼系統規格
• 可調節複雜度的編解碼器


多種編解碼工具可供選擇
非對稱式的編解碼器
112
功能(2/2)
• 高品質的應用


在高位元率的效能加強
可用於娛樂用途
• 適合用於網路傳輸的設定


便於分割成封包
傳輸優先權的控制
113
基本編碼架構
Coder
Control
Input Video
Signal
Transform/
Scal./Quant.
Split into
Macroblocks
16x16 pixels
Control
Data
Decoder
Quant.
Transf. coeffs
Scaling & Inv.
Transform
Entropy
Coding
Intra-frame
Prediction
Intra/Inter
De-blocking
Filter
Output
Video
Signal
MotionCompensation
Motion
Data
Motion
Estimation
114
Profiles and Levels (1/2)
• Baseline profile






I and P picture types (no B)
In-loop deblocking filter
1/4-sample motion compensation
Tree-structured variable block size down to 4x4
VLC-based entropy coding
Some enhanced error resilience features

Flexible macroblock ordering/arbitrary slice ordering
 Redundant slices
115
Profiles and Levels (2/2)
• Main profile
All baseline features except error resilience features
 B pictures
 CABAC
 MB-level frame/field switching
 Adaptive weighting for B and P picture prediction
 Interlace

• X profile
All baseline features
 B pictures
 More error resilience: data partitioning
 SP/SI switching pictures

116