Transcript Document
《数字媒体资产管理》
第3章 素材
刘士军
[email protected]
摘要
2
素材是不同形式和格式内容的物理表示,不同用途的
素材需要使用大量的用于不同目的的素材格式,一个
理想的内容管理系统应当独立于媒体和格式
内容管理系统并不仅是一个存储文件的仓库,它还必
须理解文件结构、媒体语法、甚至特定部分的语义;
提供媒体索引、自动信息检索和流媒体等功能和服务
内容管理系统除了对素材进行单纯的管理外,还可以
通过自动检索来获得内容的附加信息,实施编辑点检
测,浓缩版本生成,转码处理等
数字媒体资产管理
本章内容
3
3.1 素材的不同形式
3.2 编码和压缩基础
3.3 视频
3.4 音频
3.5 图片、网页、文本和其他素材格式
3.6 素材的处理
数字媒体资产管理
1. 素材的不同形式
4
基本素材元素
结构化素材格式
高码率和浏览格式
数字媒体资产管理
基本素材元素
基本素材元素是素材的基础组成部分,内容一般会被
表示为特定的基础素材类型,例如音频、视频、图像、
图形和文本等
素材元素可以根据它们的时间和表示特征进行分类。
总的来说,分为离散型(非时相关)和连续型(时间
相关)媒体
5
一个连续的媒体流由连续的、与时间相关的信息单元描述,
这种与时间的相关性是指媒体(或其不同部分)对于用户的
呈现。基本的连续媒体素材元素有视频、音频和运动图形
离散媒体没有内在的时间要求,其表示的内容也与呈现时间
无关,如文本、图像和图形
数字媒体资产管理
结构化素材格式
在结构化素材格式中,基本素材元素或其他结构化素
材元素通过引用和链接组合在一起。例如网页、XML
文档和多媒体文件
结构化素材格式间的关系不仅由明显的引用来建立,
还可以由不同基本元素相联系的时间约束来建立
管理结构化素材格式的挑战在于保持它们所表示信息
的有效性和连续性
6
需要考虑基本模块可能会被重新部署和改变;必须明确地管
理结构化素材对象的外部链接,防止可能导致内容对象的不
一致操作
数字媒体资产管理
例:基于扩展SMIL的多媒体信息展示
数字博物馆中大量的馆藏相关的文字、音频、视频、
三维模型、全景图等多媒体资源需要在网络中进行全
方位同步展示
W3C制订的推荐标准SMIL语言 ──(Synchronized
Multimedia Integration Language)通过基于XML的标
记语言,表述各种媒体对象之间的同步关系,目前得
到了广泛的认可
基于Java语言自主开发的支持文本、图像、音频、视
频、全景图、SVG图形与三维模型等丰富媒体类型的
SMIL展示工具
7
http://museum.sdu.edu.cn/class/class_2/showsmil/class_2.
htm
数字媒体资产管理
基于扩展SMIL的多媒体信息展示
8
数字媒体资产管理
SMIL示例:全景图
利用Java编制一个可以解析和播放全景图信息的类并
融合到整个系统中,在适当的时候调用这个类里面的
方法对SMIL文件进行解析,获得全景图元素的信息
在该元素定义的有效时间段内,用全景图类里面的方
法在屏幕上展现出来
可以在 SMIL文件定义中自如的加入需要展示的全景
图元素
9
例如:“<pano
src=”pano/school.jpg“ region=”pano_001“ begin=”0.
3s“ scroll=”L“ speed=”1“ />”
这句话的含义是将预先准备好的全景图片“pano/school.jpg”
在0.3秒的时刻在“pano_001”区域出现,而且默认的滚动
方向是向左,滚动速度为1
数字媒体资产管理
高码率和浏览格式
是否选用高码率格式是由质量、制作、广播和存档等
方面的要求来决定的
对低码率格式的需求来自于初选、浏览等工作
10
在一典型的处理视音频材料的工作流中,对视频内容的初选
是基于关键帧的。通过对所选视音频片断的低码率副本的浏
览(听和看)来具体选择特定的内容
因为需要快速访问浏览材料,浏览信号应当高度压缩以节省
网络带宽和存储空间
需要能够根据系统能力提供相应质量水平的可调比特
率编码
数字媒体资产管理
浏览交换格式——浏览的基本要求
EBU和SMPTE(Society of Motion Picture and
Television Engineers,电影与电视工程师学会)发表
了一份浏览交换格式(Browsing Interchange Format,
BIF)
目标是阐明低码率浏览格式所必须满足的条件
BIF用于媒体专业人员的浏览和选择,须具备以下基本特征:
11
视频(准确的帧和时码以及颜色)
双声道音频
与内容有关的元数据(包括访问权限、IPR管理和保护信息)
与材料有关的元数据(时码、唯一ID等)
BIF应当支持流和文件传输,而且应当提供技术功能以支持促进
至少2种常用的浏览模式:编辑决策列表(Edit Decision List,
EDL)和非常窄带浏览,64kb/s的数据率应当足以满足这种应用
场合
数字媒体资产管理
2. 编码和压缩基础
12
波形和抽样
压缩
比特率
数字媒体资产管理
数字化
什么是信号的数字化?
例:音频信号
13
声音信号在空气、液体和固体中是通过介质的振动传播的
音频信号可以转化为电、磁信号在电路和空间以振动方式传播
数字化将连续变化的输入如声音信号转化为一串分离的单元,
在计算机中用0和1表示。通常用模数转换器执行这个转换
数字媒体资产管理
数字化的一些特点
传输、拷贝和存储时信号不易劣化
易于与其它数字进行复用
易于进行处理和管理
14
信号压缩
数据纠错
内容管理
加密
数字媒体资产管理
举例:胶片电影与数字电影
胶片电影是将感光乳剂涂在片基上,通过感光、显影,将形成
的影像放映到银幕上;胶片的工作方式与我们眼睛很相像,它
可容纳更广泛的反差、色彩范围以及高光和暗部的细节
胶片解像力一般可达100cycles/mm,柯达50D能到200cycles
/mm,而数字影片2K的像素是2048×1556,相当于40cycles
/mm
数字影片
15
扫描器规格
2K
3K
4K
8K
像素
2048×1556
3072×2334
4096×3112
8196×6224
解像力
40cycles/mm
60cycles/mm
80cycles/mm
160cycles /mm
目前大量使用的是2K以下的扫描器,解像力远不如胶片,不能
准确还原胶片上的细节,使胶片上的细部层次、质感受到损失,
而这种损失是不可挽回的
数字媒体资产管理
举例:胶片电影与数字电影
16
数字电影的发行不再需要洗印大量的拷贝,即避免了
从原始素材到拷贝多次翻制的损失,也免除了运输过
程,节约了成本又利于了环保
使用胶片储存,数据的密度高,可靠性强,效率高,
寿命长,涤纶片的概率寿命在500年以上
现阶段数字电影的存储介质多为硬盘,数字媒介厂商
明确建议其用户每5~7年,必须转录一次海量数据以
防数据出现问题;海量的数据复制也面临困难。一部
2K制作的故事片大概需要2.7TB存储空间,我国数字
电影年产量2008年已经达到260部,其数据量几乎就
是一个天文数字
数字媒体资产管理
数字化的缺点
17
数字化处理会造成图像质量、声音质量的损伤
数字信号经过处理器时,一般会产生延时
数字信号在过载时,将彻底丢失信息
误码率高于纠错能力时,信息也将丢失
数字媒体资产管理
数字化的意义
当所有的媒体都数字化以后,我们会观察到两个有意
义的结果
18
第一,比特会毫不费力地相互混合,可以同时或分别地被重
复使用。声音、图像和数据的混合被称作“多媒体” ,即混
合的比特
第二,一种新形态的比特诞生了,这种比特会告诉你关于其
他比特的事情。它通常是一种“信息标题”(header)‘能
说明后面的信息的内容和特征。在你的CD上,也可以找到
简单的标题,让你能直接从一首歌跳到另一首歌,有时候,
还可以从中获取关于音乐的更多的材料。这些比特看不见,
听不到,但却能够告诉你、你的电脑或上台特别的娱乐设备
一些与信号相关的事情
数字媒体资产管理
数字化的意义
这两个现象,混合的比特和关于比特的比特,使媒体
世界完全改观
19
数据电视节目中包含了电脑可以读懂的关于节目的自我描述,
这将意味对内容的强大控制能力
更进一步,这种数字化的描述能够让你在接收端任意选择节
目的形式——无论是声音、影像还是文字。相比而言,目前
的视频点播就是小儿科了
这些都是数字化可能引发
的情况。它开创了无穷可
能性,前所未有的节目将
从全新的资源组合中脱颖
而出
数字媒体资产管理
数字化的实现过程
数字化的历史
1937年ALEC REEVES提出PCM编码
通讯业用于传输
广播界用于储存
数字岛:数字录音机,CD机,音频工作站
全面数字化:交换矩阵,调音台,周边设备
网络化:音频工作站联网,矩阵和调音台联网
PCM 脉冲编码调制是Pulse Code Modulation的缩写。主要过程是将话音、
图像等模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层
单位四舍五入取整量化,同时按二进制码来表示抽样脉冲的幅值
20
数字媒体资产管理
数字化的实现过程
数字化的历史
数字化过程
21
采用个别数字设备(CD机、录音机,调音台等)
音频工作站系统
控制和传输系统数字化
内容数字化
系统数字化
系统网络化
数字媒体资产管理
采样和量化
信号的数字化
采样就是每隔一定时间就读一次音频信号的幅度
量化则是将采样得到的声音信号幅度转换为数字值
从本质上讲,采样是时间上的数字化,而量化则是幅度上的数字化
选择采样频率应遵循奈奎斯特(Nyquist)采样理论:
22
对连续的信号(模拟信号)进行:1、采样;2、量化,即可得到数字
信号
如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只
有采样频率的一半,或者说只要采样频率高于输入信号最高频率的
两倍,就能从采样信号系列重构原始信号
正常人听觉的频率范围大约在20Hz-20kHz之间,根据奈奎斯特采
样理论,为了保证声音不失真,采样频率应该大于40kHz。高保真
的音频采样频率有44.1kHz、48kHz、96kHz以及192kHz等
数字媒体资产管理
采样和量化
高采样频率和高量化位数,可以获得高音质,同时也
增加了系统的开销,包括存储容量、运算速度、传输
速率和效率等;另一方面,人耳的分辨率是有限的,
所以,可以选择适当的采样频率和量化位数。专业的
数字音频系统一般为44.1kHz或48kHz的采样频率,
16位的量化
1983年CD面世
23
数字媒体资产管理
压缩:缩小比特率
压缩的目的:减少系统资源消耗
压缩的手段:降低或剔除冗余信息
压缩的种类:无损压缩、有损压缩
24
数字化会产生相当高的数据率,数据量很大。应用ITU-R
BT601 – 5标准的4:3电视视频信号的比特率是270Mb/s,
每小时的视频就有121. 5GB
无损压缩:降低或剔除物理冗余信息,信号可完全恢复,如
zip、rar等
有损压缩:降低或剔除生理和心理冗余信息,信号不可完全
恢复,如mp3、 wma等
多数压缩标准采用混合编码技术,例如,结合熵编码和源编
码的JPEG、H.261、MPEG -1、MPEG- 2和MPEG – 4等
数字媒体资产管理
数字信号的纠错
25
数字信号就是一系列按一定规则排列的数位(二进制
时,bit比特)
数字信号传输时,当将附加的数据(规则)加于数据流
之中,在接收端就可通过对附加的数据(规则)进行鉴
别来识别出有误码的数位,并给以纠正
数字媒体资产管理
3.视频
26
视频编码
MPEG
DV
视频格式
数字媒体资产管理
视频编码:基础和原理
视频图像是用像素(图片元素)表示的,它们是图片
中的最小单元
27
图像比例给出了图片的宽度与高度的比例,一般宽高比是4:3
彩色影像由红、绿、蓝3种信号(RGB)组成。在传输信号的过
程中采用了由1个亮度信号和2色度信号(YUV)表示的方法
连续移动的图像,如果帧频在每秒15帧以上,人类眼睛是无
法区分单个帧的,这种特征被应用于表示运动图像;欧洲
PAL制式使用25Hz的复制率,美国NTSC制式使用29. 97Hz
数字媒体资产管理
视频编码:基础和原理
要从模拟制转为数字制。基本的步骤是抽样、量化和
编码。对于视频,灰度或彩色级在这个过程中被抽样
到一个MxN的点阵数组内。接下来,连续的值根据点
阵数组映射到表示量化区间的离散值(如分成256个
区间)
28
对于更为重要的亮度信号可以用更高的抽样率(如13.
5MHz),2个色度信号只需要用亮度信号抽样率的一半来抽
样(6. 75MHz)即可,4:2:2抽样
在8比特量化和亮度抽样值每行864、色度抽样值每行432的
情况下,除去空白区间间隔后的累加率为261Mb/s
数字媒体资产管理
基于MPEG的格式
29
ISO/IEC JTCI/SC29/WGlI中的运动图像专家组
(Moving Pictures Expert Group,MPEG)自1988年以
来一直在发展关于视频编码的标准。相关的视频标准
有MPEG – 1、MPEG – 2和MPEG – 4。不同的标准
制定的时间不同,针对的应用范围不同。但是它们有
很多共同的基本原理,属于同一个格式家族
数字媒体资产管理
MPEG家族
30
MPEG致力于运动图像及其伴音的压缩编码标准化工
作,原计划开发MPEG1~4四个版本,以适用于不同
带宽和数字影像质量的要求。
目前,MPEG1技术被广泛的应用于VCD,而MPEG2
标准则用于广播电视和DVD等。MPEG3最初是为
HDTV开发的编码和压缩标准,但由于MPEG2的出色
性能表现, MPEG3未能得到发展,MPEG-4利用很
窄的带宽,通过帧重建技术,压缩和传输数据,以求
以最少的数据获得最佳的图像质量
更先进的下一个版本MPEG 7 并不是一种压缩编码方
法,而是一个多媒体内容描述接口
数字媒体资产管理
MPEG家族
MPEG1:MPEG1是最早出现的,
VCD 就是其中最主要的代表。VCD
源于日本,并遵守MPEG1规格。
MPEG2:其代表是DVD。一般为
480P(640*480)。DVD当时都符合这个标准
31
MPEG-2是由MPEG和ITU-T双方合作开发的。因此MPEG-2
在ITU-T的命名规范中被称之为H.262
MPEG2-HD是为了区别DVD常采用的MPEG2而做的区分
MPEG2-TS是1080P的高清MPEG2一般文件格式后缀是.TS
MPEG4:Xvid 和H.264同属于MPEG4格式,是高于
MPEG1、2的新一代数字媒体格式
数字媒体资产管理
MPEG -1
MPEG-1标准创建的最初目的是定义一种适合数字化
存储技术的格式(如CD)。标准由3个主要部分组成:
MPEG视频、MPEG音频、MPEG系统(定义如何多
路复用和同步音频和视频)
32
MEPG –1音视频数据流定义的编码的平均带宽是:视频编码
部分1. 1Mb/s,音频编码部分128kb/s(支持立体声)
世界上第一台VCD机产自中国,旅美学者姜万勐在1992年美
国举办的国际广播电视技术展览会上发现了美国C-CUBE公
司的MPEG技术,并在1993年9月研制出VCD,接着在年底
成立万燕公司开始批量生产
数字媒体资产管理
MPEG - 2
33
MPEG – 1被定义为一种适合数字化资源存储技术的
格式。由于它规定了一个最大数据率(1. 5Mb/s),不
适合于高质量的应用要求
MPEG – 2标准的目的是为音视频信息在很大的分辨
率和比特率的范围内提供效的编码。MPEG – 2规定
了最高l00Mb/s的数据率,甚至考虑了HDTV
MPEG – 2和MPEG -1标准有同样的基本编码原理
支持的分辨率有:352 x288像素、360 X240像素、
704 x 576像素(同ITU – 601一样)和1250行16x9亮
度水平的HDTV分辨率
数字媒体资产管理
MPEG - 4
MPEG – 4正式名称为视音频对象编码
起初,MPEG – 4的主要目标是定义一个比常规编码
技术更能大幅度提高压缩率的标准,后来变成包含从
移动电话到交互多媒体应用再到体制作和播出的多媒
体应用和设备的需求
34
支持基于内容的交互,包括多媒体访问工具、基于内容的比
特流的编辑、混合、合成数据编码和优化的临时随机存取
通过改进的编码效率和多路数据流编码而优化的压缩
在不同环境下(从高速专业网络到低带宽、易出错的无线通
讯)支持普遍的访,但是也考虑了内容对象和基于内容的可
扩展性
数字媒体资产管理
MPEG-4面向对象的编码
面向对象的视频编码中,视音频场景由画面、声音和
影音对象(Audiovisual Object,AVO)基本元素组成
一个画面场景由各种各
样的AVO组成。组成该
场景的信息存储在场景
描述等信息里。它定义
了空间和时间的位置以
及AVO之间的关系、动
态行为和该场景中有能
出现的交互信息的种类
35
数字媒体资产管理
Mpeg-4标准人脸特征点FDP示意图
来源:中国科学院自动化研究所模式识别国家重点实验室 辛乐 陶建华
36
数字媒体资产管理
基于DV的格式
数字视频(Digital Video,DV)最初的考虑是消费类产
品的数字磁带记录格式,后来被应用到专业领域。目
前有2种标准
37
由国际电工委员会( InternationalElectrotechnical
Commission,IEC)制定的原始DV标准
由电影与电视工程师学会(Society of Motion Picture and
Television Engineers, SMPTE)发布的专业DV标准
DV数码摄录系统提供最高可达520线水平解像度,而
且色彩频率较传统模拟摄录系统宽达6倍之多,故色
彩及影象更清晰明锐;在录音效果方面,配备12/16
比特PCM(Pulse Code Modulation)数码立体声录
音模式,16比特录音模式的音质可媲美DAT(Digital
Audio Tape,数字录音带)
数字媒体资产管理
DV格式:编码基础
38
DV压缩也是基于离散余弦变换(Discrete Cosine
Transformation,DCT)的。然而,和MPEG不同的是,
它只使用帧内压缩。DV的压缩率取决于一帧内的运
动,值约为5:1
DV编码由三级层结构构成。首先,画面帧被分成矩
形的块,之这些块被分成278x8的DCT宏块
一般使用者用的DV信号部分用4:2:0的格式,抽样率
为13. 5MHz,8比特编码。对于专业应用,品质将调
整成为4:1:1
数字媒体资产管理
内容管理系统中的视频格式
质量级
格式
传输率
存储要求1小时
存储10万小时
浏览
Real视频MPEG- 4高
级的简单类
128kb/s
58MB
5.8TB
试播
MPEG – 1
680MB
68TB
1.8GB
180TB
8.1GB
810TB
23GB
2.3PB
1.5 Mb/s
广播
MPEG – 2 MP@ML
新闻制作
MPEG-2 4 : 2 : 2
(可访问每一帧) P@MLGOP: IB
4Mb/s
18 Mb/s
制作
MPEG-2 4 : 2 : 2
(可访问每一帧) P@MLGOP:
IDVCPro 50
50 Mb/s
未被压缩的4:3
(只有视频信号)
SDTV,lTU R BT 6015
166 Mb/s
75GB
7.5PB
未被压缩的
SDTV,ITU R BT 601
– 5(包括空白)
270 Mb/s
121.5GB
12.15PB
*存储10万小时是中型广播的最常用数量
39
数字媒体资产管理
三网融合背后的技术博弈
有线电视的传输频率最高到45-860MHz,如果把频率
资源全部用于数据传输,按64QAM调制方式的速率
应该是4000M左右
沃3G 7.2M, ADSL宽带2M,电话线 64K
三网融合是指电信网、计算
机网和有线电视网三大网络
通过技术改造,能够提供包
括语音、数据、图像等综合
多媒体的通信业务
40
数字媒体资产管理
4.音频
41
音频素材
音频编码
MPEG
音频格式
数字媒体资产管理
音频素材
声音作为影视节目中不可或缺的成分,起到了增强真
实感与连贯性的作用,进一步解放了画面,甚至使沉
默和省略都成为一种表现手段。因而在一个完整的视
频内容中声音的效果是至关重要的
用户可以通过现场录制、捕捉和引入的方法在非线性
编辑系统中得到声音,用监视器窗口与时间线窗口配
合对素材进行剪辑
42
在时间线窗口中能够方便地调整声音的增益和播放速度
在混音器窗口中能够实时调整声音的音量与平衡
然后根据节目需要使用音频转场、音频滤镜等效果工具,优
化原始素材的声音效果,使声音和画面更加紧密地结合起来
数字媒体资产管理
音频素材——声音元素的分类
人声
音乐
音乐包括器乐与声乐。在使用音乐素材的时候有两种情况:
一种是画面上有声源,另一种是画面上无声源
音效
43
人声包括对白、旁白、独白。人声和镜头的画面结合,能起
叙述内容、刻画人物性格、扩大画面容量、展开故事情节的
作用
音效(也称音响、效果音)是人声和音乐之外所有的声音的
统称。它的范围很广,几乎包括了自然界所有的声音,如风
吹、雷鸣、犬吠等等
数字媒体资产管理
音频素材—— 声音元素的作用
结构上的作用
省略作用
连贯作用
44
声音在作品结构上发挥的作用是省略,即运用声音代替画面引
发观众想象,从而可以节省很多视觉画面。
在画面与画面,或镜头与镜头的衔接上,由于声音的连贯性,
可使观众感到非常流畅自然,察觉不出剪接的痕迹。以持续连
贯的声音作为线索或背景,可以将不同的时间、地点,不同的
短镜头贯穿起来,以突出统一主题,可使观众造成完整统一的
印象和感受
数字媒体资产管理
音频素材—— 声音元素的作用
内容上的作用
人声的功能
音乐的作用
45
在影视作品中,人声的作用在于叙事,有些不易于画面表现的
内容,可用话语加以补充,使内容表达更明确、更清楚、更感
人。人物语言还具有塑造形象、强化矛盾冲突、推动故事情节、
讲述故事、表现主题等作用
画面内容的表达经常需要借助于音乐的艺术感染力,音乐在影
视节目中,起到显示主题、渲染情节段落之间的间隔作用。此
外,主题音乐贯穿整个故事情节也是影视节目制作中常用的表
现手法,根据影片的需要,将主题音乐在不同时间以不同形式
加以重复
【士兵突击背景音】
数字媒体资产管理
音频素材—— 声画蒙太奇
声画合一
声画对位
指声音与画面都是单独录制的,它们在各自独立的基础上,
又进行有机结合的剪辑,声音的含义与画面的内容是相互吻
合的,但又有异于单纯的声音和画面本身的效果
声画分立
46
声画合一,也叫声画同步。即画面声音与发声体同时呈现,
声音形象与视觉形象是互相吻合的,一致的
画面内容是一回事,声音又是另一回事,内容各不相同,画
面与声音各自独立,相互对立,通过声音和画面的对立、冲
撞产生特定的含义
数字媒体资产管理
音频编码:基础和原理
47
声音是通过物质的震动而产生的,同时也引起周围介
质的压迫震动
震动产生了规则频率(周期)的波,它通过空气传播,
当到达人耳时,人们就听到声音
人耳能够听到的频率范围是20Hz~20kHz。音调的大
小取决于振幅(波偏移平均值的幅度)
为了数字化地表示声波,可以用模数转换器(Analogto-Digital Converter,ADC)来抽样,抽样率的单位也
是Hz。DC的反向过程把数字信号转换成声波
应用ADC量比之后,接下来的数字化数据就可以被压
缩了
数字媒体资产管理
不同的音频格式
决定数字音频质量的2个因素是样率和抽样量化程度
电话的音频以8kHz抽样、8比特编码量化
标准CD抽样率是44.1kHz,16比特的线性脉冲编码模式
(Pulse Code Modulation, PCM)
CD质量的数字立体声音频的数据率是:2 x 44 100(每秒)
x16(比特)=1 411 200(比特每秒)
74分钟音乐需要:74*60*1.4M/8=783M
在1979与1980年间,索尼和飞利浦为激光唱片行业设立统一标准进行谈判。
故事围绕着如何或者是否应该坚持单碟CD录下整首“贝九”。其中以下四位人
物对于“贝九”的录制技术的推进,有着至关重要的作用:索尼主席盛田昭夫
的夫人;曾经留学柏林音乐学院的索尼副总裁大贺典雄;“贝九”的忠实粉丝
大贺典雄的夫人;以及指挥家冯·卡拉扬,他为飞利浦子公司宝丽金录制唱片,
他在柏林爱乐乐团录制的《第九交响乐》长达66分钟;进一步研究寻找最长时
间的录制演出,由威廉·富特文格勒担任指挥,那次演奏持续了74分钟
48
数字媒体资产管理
不同的音频格式
波形格式(WAVE)常作为无压缩的数字立体声音频的
参考格式。标准明确提到适合WAVE的2个编码规则
(MPEG和PCM)
49
无压缩音频的WAVE编码模式是以上提到的以44.1kHz的抽
样和PCM编码、双声道CD质量的立体声音频
另一种常用的无压缩格式是48.0kHz PCM编码的无压缩音频,
它被用在数字音频磁带(Digital Audio Tape, DAT)上
数字媒体资产管理
基于MPEG的音频格式
MPEG不仅定义了有多元音频的标准视频,也独立定
义了音频。所有相关的MPEG编码标准(例如MPEG
-1、MPEG-2和MPEG-4)都涉及音频
50
MPEG -1音频编码与压缩数字音频CD和数字音频磁带
(Digital AudioTape,DAT)是兼容的,它们都是44.1kHz或
48kHz抽样,16比特量化。此外还定义了32kHz的抽样频率
在MPEG – I中定义了3个不同的层,每个层代表不同的编码、
解码复杂度和表现水平。层与层之间向下兼容,例如高级的
层必须能解码低级层的MPEG -1音频信号。音频文件通常编
码成为MPEG -1的第三层,因此被称为MP3
层1和层2的量化用PCM,层3的量化用霍夫曼编码,而最终
的压缩步骤用熵编码,最小比特率为32kb/s,允许的最大比
特率为320kb/s
数字媒体资产管理
基于MPEG的音频格式
51
MPEG -2标准包含和提高了MPEG -1音频标准。例如,
它也支持16kHz、22. 05kHz和24kHz的抽样率
(MPEG -1 抽样频率的一半)。这使比特率降低到
64kb/s以下,同时MPEG -2的音频部分标准用相对低
的比特率支持多信道。有多5个的全带宽声道:左、
右、中间双环绕声道以及一个提高低频质量的声道,
而且还支持多达7个信道的不同语言
数字媒体资产管理
基于MPEG的音频格式
52
MPEG -4音频(和视频部分相似)是面向对象的,它
支持音频场景通过多重音频对象(语义的或者自然的)
而创建。和MPEG -1以及MPEG -2中定义的一样,自
然音频对象是从样本波形中产生的。和视频的方式相
似,不同的音频流组合成为一个音频场景
数字媒体资产管理
内容管理系统中的音频格式
53
标准音频格式(如44. lkHz和48kHz的PCM编码音频
和MPEG音频)同样要被整合到内容管理系统中,内
容管理系统要对其制作和传输所需的工具和应用给予
支持
MPEG的音频编码器支持整个范围的声音压缩,其中
最主要的是MPEG-1的3层(MP3),因为它是目前网上
流行的音频格式
也存在其他方式的音频编码格式,如Real音频或流式
音频
专业系统中,96kHz的抽样率将可能成为标准
数字媒体资产管理
5.图片、网页、文本和其他素材格式
图片
结构化文档
54
SGML
HTML
数字媒体资产管理
图片
图片是可视化的照片或图像。它们描述具体的二维情
形,没有时间限制(属于离散的媒体类型)
字图片本身就成了表现量化值强度的数字值矩阵。图
片的样点是画面元素(如视频中),即像素
55
一张和NTSC电视画面大小一样的图片的分辨率为640 x 480
像素矩阵,以8比特和256灰度存储该单色图像需要空间大小
约为300kB
需要压缩图片来减少表现时需要的比特数
最常用的图片格式是JPEG、GIF、TIFF和BMP
数字媒体资产管理
图片
JPEG标准是由ISO和CCITT联合组成的联合图片专家
组制定的。JPEG定义彩色和单色图片的编码和压缩
方法,以及含有实际图片数据、编码表和编码参数的
交换格式
GIF (Graphic Interchange Format,图形交换格式)最
初由CompuServe开发,以支持平台无关的图片交换
56
GIF使用无损压缩方案,支持在一个文件中插人多幅画面,
支持简短动画和图片序列的编码
GIF只适用8比特的色彩表,所以不能应用于高质量的图片
数字媒体资产管理
图片
TIFF (Tagged Image File Format,标签图像文件格
式)是微软公司和Aldus公司联合开发的TIFF的目标是
提供可移植的、与硬件无关的图像编码
TIFF支持的压缩技术有游程编码、霍夫曼编码、LempelZiv-Welch压缩和JPEG压缩方法
TIFF是一种广泛应用的格
式,它还支持不同分辨率
的图像编码,如预览格式
和高清格式图片
57
数字媒体资产管理
图片
58
BMP (Bitmap Format,位图格式)是基于RGB色彩的
一般图像格式。它也被用于单色和黑白图像的编码
BMP格式定义了2个主要部分:头和数据部分。前者
被称为位图信息(BITMAPINFO),定义了图片大小、
色彩深度、色彩表以及压缩技术。数据部分含有每一
行中的各个点的像素值。色彩深度可取的值有1、4、
8和24
数字媒体资产管理
结构化文档
59
结构化文档是内容管理系统中的又一种重要的媒体类
型,它的发展主要由2方面促成:印刷媒体工业和网
域。另外,超文本和超媒体也对结构化文档语言和标
准的发展有一定的影响
与一般文档格式相比(RTF、MS Word或者PDF),结
构化文档的点是使用标记语言并链接到扩展文本和信
息。对于内容管理系统来说这是一项特殊的挑战
主要考虑的标准是SGML、HTML和XML
数字媒体资产管理
History of XML
60
数字媒体资产管理
什么是XML?
61
XML—可扩展标记语言
eXtensible Markup Language
XML是一种标记语言,形式上类似于HTML,但允许自
定义标记
XML文档包括基本的标记和文本
共享结构数据的标准方式
SGML的一个简化子集
是一种定义其他语言、交换格式、信息集的语言——
元语言
数字媒体资产管理
HTML vs XML (1 of 2)
62
数字媒体资产管理
HTML vs XML (2 of 2)
63
数字媒体资产管理
HTML 与 XML 的关键区别
64
数字媒体资产管理
层叠样式表CSS
65
CSS标准是万维网联盟的一个建议,起源于1994年。
目标是创建一个简单但具有表达能力的语言,此语
言可以组合不同来源的样式描述信息
一个具有将多个样式描述组合成一个样式描述集合
的能力
数字媒体资产管理
为什么使用样式表?
XML文档与样式表互为补充
文档是信息的本质或内涵
样式表示信息的格式
比喻
66
生配料+食谱=美食
数字媒体资产管理
好的习惯
分离标记与样式
作者专注于内涵
而不必担心其外观显示
在一个独立文档中保存样
式设置信息,使设计工作
变得更加容易
显示该文档的选择更
多了。可使用不同样式
表来混合和匹配XML文档
样式表可与代表特殊需求
的部分样式表结合层叠样
式表技术可合并不同来源的样式
67
数字媒体资产管理
不好的习惯
使用图形代替文本
利用浏览器的副作用
巧妙的专用特性来增强竞争力。当HTML语言被分裂为几个
竞争领域时,W3C也只能袖手旁观。一些网页也只能是显示
一条阅读信息“最好使用某某浏览器来浏览。”
专有技术
68
文档的外观在各个浏览器中都会稍有不同。
厂商“改进”
看起来好,但不是好的解决方案。
文本将失去被自动处理的机会。
Java和JavaScript、矢量动画包这些技术也会造成麻烦
数字媒体资产管理
6.素材的处理
69
素材的处理包括视音频、音频和视频对象的自动管理,
可被用作附加元数据的信息检索以及便捷的输入和检
索过程
相关的工具有:视频分析工具、音频分析工具(如语
音转为文本的工具和关键字定点)或者图片相似性检
索工具
其他程序有:转码工具或者将素材分段的特殊工具
数字媒体资产管理
素材处理程序
全自动地处理素材,并可以将这些工具根据其处理的
特定媒体的具体性质和特征进行分类,从而提取出语
义信息:
70
内容分割(时间和空间)工具和应用程序:根据具体参数如
镜头数(时间分层)、定区域,或者图像中的对象(空间分
层)将连续媒体对象分割
元数据生成工具:根据特定素材对象的特性或者可分析的特
征(如运动检测)来产生元数据
自动内容描述工具:如语音标识工具
索引工具:根据最普遍的模式对素材对象进行分类,如面部
标识工具和程序分类工具
基于内容的检索工具:利用素材的特征进行内容查询,如画
面相似性检索
数字媒体资产管理
素材处理方法
大部分的素材处理工具是利用数学、统计或者不同媒
体的某些计算特征和属性的随机分析方法
对文件、声音、图片或可视视音频信号进行整体操作
或者在给定时间内对特定部分分别操作
处理过程的基础构成部分有:
特征提取
特征解析
查询引擎
素素素素
素素素素素素素素
素素素素
素素素素素
素素素素
71
数字媒体资产管理
素素素素
素素素素素
素素素素
处理过程
72
特征提取部分包括所有的处理原始视听材料和利用对
象化的手法提取低水平特征的处理过程(如色彩直方
图、频谱分析以及主要动作幅度分析等)
特征解析部分能解析特征或者特征组合的值(在一定
出错范围内),尽量将目标观察和逻辑判断进行匹配
另一种直接应用音频、视频和视音频素材的低水平特
征的方法是相似性检索。此时用户要求搜索引擎检索
与已给定信息相似的信息条目,然后引擎根据用户提
供的信息提取特征值,并与已检索的内容进行特征分
析和提取后存储的特征值进行相似性匹配;低水平的
工具和一些同样考虑内容语义的高水平的工具共同使
用,可以得到更加准确的结果
数字媒体资产管理
分析素材
声音和音频分析是应用随机分析对声音效果、光谱封
装和音素进行操作。大体上它可被分为一般声音处理
(发现和分类流中出现的声音)、音乐分类(乐器类
型和主题识别)和语音分析(提供语言监测和标识、
语言定义、关键字标记和脚本翻译)
静态图像分析是用色彩特征分析、区域分段、文本特
征分析和面部检测(可以被认为是特殊的文本特征分
析)来得到图像内容的信息。
73
图像标识技术有广泛的应用,如应用在OCR工具或者手写文
字标识中.图像标识技术的3个特征是色彩、文本和图像边缘。
可以根据这些特征的相似性来查找图像,或者根据某些特征
的出现频率利用统计或者随机方法来标识图像
数字媒体资产管理
分析素材
74
视频分析工具使用为声音和图像分析开发的分析机制来进行基
本分析,还使用视频序列中的运动信息来决定视频的特定事件
例如使用场景转换、消解和擦除等效果和效果检测来决定视频
中的拍摄转换;使用这些信息可以产生一个原始的剪接列表
另一种由视频分析产生的可视化摘要是浏览。它们是基于视频
分析结果的简单视频摘要,如编辑在一起的简短的视频片段,
可以给出视频内容的快速预览
更复杂的工具甚至考虑了伴音和单独的音轨的编辑以产生连续
的视音频摘要
数字媒体资产管理
素材处理工具
75
富媒体组织中需要处理的内容数量越来越多,因此使
用自动处理过程来支持内容的标识和存档就变得更加
重要
内容的检索可以由自动处理程序支持,如图像相似检
索和蜂音搜索
另一个需要考虑的情况是如何将自动处理工具和应用
程序用于内容管理系统结构中。它们将文件、数据流
或者视音频信号作为输入部分,产生的结果是关键帧
集合、听材料或者元数据信息。这些结果必须和实际
内容对象相联系,并要能够在内容管理系统中被处理
数字媒体资产管理
本章小结
76
认识素材
素材的数字化
视频、音频和其它素材
素材的处理
数字媒体资产管理