Table of Contents

3 数字媒体格式介绍(2)

3.1 音频格式及编码方法

  1. 数字音频是一种利用数字化手段对声音进行录制、存放、编辑、压缩或播放的技术,它是随着数字信号处理技术、计算机技术、多媒体技术的发展而形成的一种全新的声音处理手段。
  2. 数字音频的主要应用领域是音乐后期制作和录音。
  3. 计算机数据的存储是以0、1的形式存取的,那么数字音频就是首先将音频文件转化,接着再将这些电平信号转化成二进制数据保存,播放的时候就把这些数据转换为模拟的电平信号再送到喇叭播出,数字声音和一般磁带、广播、电视中的声音就存储播放方式而言有着本质区别。相比而言,它具有存储方便、存储成本低廉、存储和传输的过程中没有声音的失真、编辑和处理非常方便等特点。
  4. 声波是一种能量波,能够表示成振幅在时间上的连续函数。用X轴表示时间,Y轴表示振幅,则声波能够表示如下图:

3.1.1 采样率和比特

  1. 采样率:每秒获得的采样个数。假设音频的最高频率为20kHz,则需要每秒钟40k采样(Nyquest定理);CD的采样率是 44.1kHz。(Nyquest Theorem:理想抽样时,只要抽样频率大于或等于模拟信号中最高频率的两倍,就可以不失真地恢复模拟信号。)
  2. 量化率:声音有轻有响,影响声音响度的物理要素是振幅,作为数字音频,必须也要能精确表示乐曲的轻响,所以一定要对波形的振幅有一个精确的描述。量化率就是这样一个参数。量化率为16比特,就是指把波形的振幅划为2^16即65536个等级,根据模拟信号的轻响把它划分到某个等级中去,这样就可以用数字来表示了。量化率必须是2的幂的形式。音频CD的量化率通常是16bit。
  3. 采样率和量化率是衡量数字音频质量的重要指标。我们形容数字声音的质量,通常就描述为24bit(量化率)、48KHz(采样率)采样,比如标准CD音乐的质量就是16bit、44.1KHz采样。 在数字编码期间,模拟信号被离散地采样,如果编码率和量化率较高,我们便能获得更好的样品质量。

3.2 音频压缩

3.2.1 有损压缩vs无损压缩

  1. 根据采样率和量化率的定义,实际上音频编码只能尽可能地向天然声音信号接近
  2. 可以说所有的编码方式都是有损的
  1. 可以达到最高的保持效果;
  2. 被广泛地应用于天然数据的保存和音乐数据,例如:CD、DVD和WAV文件;
  3. 被看做是一种无损的编码方式,但是,PCM也仅仅是接近于天然数据;
  4. 与PCM编码方式比较,我们通常将MP3编码方式划分到有损音频编码方式中。

3.2.2 PCM编码

公式:采样率*量化率*声道数量
举例:一个WAV文件的采样率44.1KHz,量化率16bit,立体声
a)码率(coding rate,也就是比特率):44.1K*16*2=1411.2Kbps;
b)128K MP3 ~ 1411.2K bits每秒;
c)也叫做数据宽度(data width),与网络传输中带宽(band width)的概念相近;
d)数据速度(data speed):每秒钟传输的字节数= 比特率/8,在这个例子中,数据速度是176.4KB/S;
e)每秒钟占用176.4KB的空间。录制1分钟的音乐需要10.34M。

3.2.3 音频的流特性

3.3 常用音频格式

3.3.1 WAV

3.3.2 WMA

3.3.3 RA

  1. 可以根据不同的网络带宽选择编码比特率,并最大限度地保持音频文件质量。
  2. 支持多种音频编码方式,如ATRAC3。
  3. 支持边下载边播放,并能隐藏源文件网络地址。

3.3.4 APE

3.3.5 MP3

3.3.6 OGG

OggVorbis中的主要算法是利用MDCT(修饰离散余弦变换ModifiedDiscreteCosineTransform)而不是用现在比较时兴的小波(wavelet)技术。Ogg采用可channel inter leaving和square polar mapping两种技术组成的多通道编码技术,统称为立体声通道耦(Stereo Channel Coupling)。据官方声称,与其他会造成立体空间感减弱的编码模型相比,这两种技术都可以在保持编码器的灵活性的同时而不损害本来的立体声空间影像–相信配合iRiver的3d音效会有更好的表现力,而且实现的复杂程度比联合立体声方式要低。Ogg的编码中的比特率选项主要有ABR、VBR和Quality三种,Ogg的比特率是可变的,推荐使用设置简单Quality模式,能满足大多数人要求。

3.3.7 MIDI

  1. 与众不同的直接记录数字化的声音信号
  2. 只记录乐器怎么发出声音的"事件"
  3. 很小的储存大小
  1. 合成器:生成声音及控制音量、音高、音色等信息
  2. 序列发生器:存储及修改MIDI信息的设备或软件
  3. MIDI设备:如MIDI吉他、MIDI电子琴
  1. 音轨:音乐是由多个声音通道组成的。
  2. 通道:每个MIDI设备都对应一个通道,每个通道拥有自己的信息序列,最多有16个通道。
  3. 声道:每个通道都允许有多个声道。
  4. 复调音乐:声音的混合能由合成器在一瞬间完成。
  5. 补丁:用于模仿乐器发声的音色特征。

3.4 视频格式及编码

3.4.1 常见的视频格式

3.4.1.1 AVI

  1. 根据RIFF文件格式标准,AVI是一个数字的视音频格式
  2. 多媒体CDROM,存储视频信息,电影和电视节目
  3. 可用于Internet应用,下载和在线观看
  1. 在AVI格式里没有压缩通道的限制
  2. 支持256色和RLE压缩
  3. 有特定编码方法的AVI必须用相应的解码方法来回放
  4. 许多公司提供他们自己的编解码器,例如SONY

3.4.1.2 RM

  1. 主要被用来在广域网上以低比特率传输实时视频片段
  2. 它能自行改变成不同的比特率来适应网络文件传输速率

3.4.1.3 MOV

3.4.2 视频压缩标准

  1. MPEG-1: VCD
  2. MPEG-2: broadcast TV, e.g., DVD、HDTV etc.
  3. MPEG-3: replaced by MPEG-2
  4. MPEG-4: network video transfer,stream media
  5. MPEG-7:
  6. MPEG-21:
  1. 主要被用在视频交流应用上,现在有H.261,H.262,H.263,H.264
  2. ISDN网络是基于H.320标准的,视频压缩部分是H.261,H.262和H.263
  3. LAN网络是基于H.323标准的
  4. PSTN网络是基于H.324标准的,视频压缩部分是H.261和H.263

3.4.2.1 MPEG系列

  1. WG11:Motion Picture Experts Group (MPEG)
  2. WG10:Joint Photographic Experts Group (JPEG)
  3. WG7: Computer Graphics Experts Group (CGEG)
  4. WG9: Joint Bi-level Image coding experts Group (JBIG)
  5. WG12: Multimedia and Hypermedia information coding Experts Group (MHEG)
3.4.2.1.1 MPEG1
  1. 基于NTSC制的:352×240像素,30帧每秒
  2. 基于PAL制的:352×288像素,25帧每秒
3.4.2.1.2 MPEG-2
  1. NTSC:720×480大小,30帧每秒的视频,小于15Mbit/s(典型的约为4Mbit/s)
  2. HDTV:1920×1152大小,30帧每秒的视频,小于80Mbit/s(典型的约为15Mbit/s)
  1. 程序流:接近没有错误的媒体应用
  2. 传输流:更多容易产生误差的通道
3.4.2.1.3 MPEG压缩
  1. 8×8象素块上的数值计算可被快速数字信号处理[DSP]模块实时处理
  2. 可通过比较图像序列中的块来作出运动估计
3.4.2.1.4 MPEG编解码

I=Intra-Frame(帧内),P=Predicted frame(预测帧),B=Bi-directionally interpolated frame(插值帧)

3.4.2.2 彩色视频编码

3.4.2.3 H.264

3.4.2.3.1 概述
3.4.2.3.2 数字视频标准的主要历史

3.4.2.3.3 H.264编码原则

3.4.2.3.4 H.264的主要技术特点
  1. 4类DCT整数变换以及相应的量化方法
  2. 7种宏块预测模式:16×16, 16×8, 8×16, 8×8, 8×4, 4×8, 4×4,运动估计和补偿更加精确
  3. 多参考帧
  4. 帧内预测
  5. 改进的去块效应滤波器(Deblocking filter)
  6. 增强的熵编码方法:UVLC(Universal VLC)、CAVLC(Context adaptive VLC)和CABAC
  7. 1/4像素插值
  8. 宏块级逐行、隔行自适应编码MBAFF
3.4.2.3.5 H.264的优缺点
  1. 在同样的图像质量下,H.264压缩后体积相当于:36% MPEG-2,61% MPEG-4 ,51% H.263
  2. 低比特流,高质量

H.264提供必要的工具来解决不稳定的网络环境下的错误编码问题

H.264提供网路适应层来让H.264c文件比较容易的在不同的网络环境下传输

在同样的图像质量下,H.264的计算复杂度是MPEG-2的两倍

3.4.2.3.6 H.264的应用

在实时的交流中,POLYCOM、TANDBERG、VCON、SONY等都宣称它们自己的H.264是基于电视会议产品的

MPEG已经结束了定义MPEG-2H.264流编码内容上的兼容标准

3.4.3 视频格式转换

参考文献

<note important> 本节编撰作者(鼓励有兴趣的同学自由撰写,总评成绩可适当加分):

浙江大学2008-2011版权所有,如需转载或引用,请与 作者联系。 </note>