2.2音频格式及编码方法(Audio formats and compression methods)

数字音频(Digitalized audio)

  1. 数字音频是一种利用数字化手段对声音进行录制、存放、编辑、压缩或播放的技术,它是随着数字信号处理技术、计算机技术、多媒体技术的发展而形成的一种全新的声音处理手段。
  2. 数字音频的主要应用领域是音乐后期制作和录音。
  3. 计算机数据的存储是以0、1的形式存取的,那么数字音频就是首先将音频文件转化,接着再将这些电平信号转化成二进制数据保存,播放的时候就把这些数据转换为模拟的电平信号再送到喇叭播出,数字声音和一般磁带、广播、电视中的声音就存储播放方式而言有着本质区别。相比而言,它具有存储方便、存储成本低廉、存储和传输的过程中没有声音的失真、编辑和处理非常方便等特点。

声波是一种能量波,能够表示成振幅在时间上的连续函数。用X轴表示时间,Y轴表示振幅,则声波能够表示如下图:

2.2.1采样率(Bit rate)和比特

  1. 采样率(Bit rate):每秒获得的采样个数。假设音频的最高频率为20kHz,则需要每秒钟40k采样(Nyquest定理);CD的采样率是44.1kHz。(Nyquest Theorem:理想抽样时,只要抽样频率大于或等于模拟信号中最高频率的两倍,就可以不失真地恢复模拟信号。)
  2. 量化率(quantization rate):声音有轻有响,影响声音响度的物理要素是振幅,作为数字音频,必须也要能精确表示乐曲的轻响,所以一定要对波形的振幅有一个精确的描述。量化率就是这样一个参数。
    1. 量化率为16比特,就是指把波形的振幅划为2^16即65536个等级,根据模拟信号的轻响把它划分到某个等级中去,这样就可以用数字来表示了。量化率必须是2的幂的形式。音频CD的量化率通常是16bit。
  3. 采样率和量化率是衡量数字音频质量的重要指标。我们形容数字声音的质量,通常就描述为24bit(量化率)、48KHz(采样率)采样,比如标准CD音乐的质量就是16bit、44.1KHz采样。 在数字编码期间,模拟信号被离散地采样,如果编码率和量化率较高,我们便能获得更好的样品质量。

2.2.2音频压缩(Audio compression)

2.2.2.1音频压缩:有损压缩vs无损压缩

没有完全无损的编码方式,实际上音频编码只能尽可能地向天然声音信号接近,可以说所有的编码方式都是有损的。相比之下,相对无损的编码方式是PCM 在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。

PCM的特点是:

  1. 可以达到最高的保持效果;
  2. 被广泛地应用于天然数据的保存和音乐数据,例如:CD、DVD和WAV文件;
  3. 被看做是一种无损的编码方式,但是,PCM也仅仅是接近于天然数据;
  4. 与PCM编码方式比较,我们通常将MP3编码方式划分到有损音频编码方式中。

2.2.2.2PCM编码

  1. PCM(Pulse Code Modulaton)脉冲编码调制
  2. PCM编码

PCM编码必须经过三个过程,即抽样、量化和编码,PCM编码的主要过程是将话音、图像等模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层单位四舍五入取整量化,同时将抽样值按一组二进制码来表示抽样脉冲的幅值,以实现话音数字化。

  1. 优点:高回放质量;
  2. 缺点:大存储空间。

音频CD主要受到PCM编码方式的影响 ,一张CD能存储72分钟的音乐。

LOLPCM音频流采样率

1.公式——采样率*量化率*声道数量

2.举例:一个WAV文件的采样率44.1KHz,量化率16bit,立体声

a)码率(coding rate,也就是比特率):44.1K*16*2=1411.2Kbps;
b)128K MP3 ~ 1411.2K bits每秒;
c)也叫做数据宽度(data width),与网络传输中带宽(band width)的概念相近;
d)数据速度(data speed):每秒钟传输的字节数= 比特率/8,在这个例子中,数据速度是176.4KB/S;
e)每秒钟占用176.4KB的空间。录制1分钟的音乐需要10.34M。

2.2.2.3音频的流特性

1.网络的繁荣使得在线播放音乐,下载的同时播放音乐成为可能;

2.根据音频的流特性,可执行在线直接表演和DIY的数字广播。

2.2.3常用音频格式(Common audio formats)

:!:常用的音频格式示意图:

2.2.3.1 RA

RA格式是RealNetworks公司所开发的一种新型流式音频Real Audio文件格式。 RA格式主要应用在网络媒体播放市场上,因其具有以下特点:

  1. 可以根据不同的网络带宽选择编码比特率,并最大限度地保持音频文件质量。
  2. 支持多种音频编码方式,如ATRAC3。
  3. 支持边下载边播放,并能隐藏源文件网络地址。

2.2.3.2 APE

APE是流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同,APE是一种无损压缩音频技术,也就是说从音频CD上读取的音频数据文件压缩成APE格式后,再将APE格式的文件还原,而还原后的音频文件与压缩前的一模一样,没有任何损失。APE的文件大小大概为CD的一半,APE可以节约大量资源。

庞大的WAV音频文件可以通过Monkey's Audio这个软件压缩为APE。主要使用LZW压缩算法,具有高压缩率和快速压缩速度,适用于刻录CD。Monkey's Audio还为各种播放器提供插件以播放APE格式。

2.2.3.3 MP3

MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III)。是当今最流行的一种数字音频编码和有损压缩格式,它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。

MP3是利用 MPEG Audio Layer 3 的技术,将音乐以1:10 甚至 1:12 的压缩率,压缩成容量较小的文件,换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。

2.2.3.4 OGG

Ogg全称应该是OGGVobis(OggVorbis)是一种新的音频压缩格式,类似于MP3等的音乐格式。Ogg是完全免费、开放和没有专利限制的。Ogg文件格式可以不断地进行大小和音质的改良,而不影响旧有的编码器或播放器。

与MP3相比较,OGG格式编码比特率更低但拥有更好的播放质量,而且支持更多频道,适用于解码古典音乐,而且OGG格式还具有更加灵活的编码架构。

OGG编码特点及原理

OggVorbis中的主要算法是利用MDCT(修饰离散余弦变换ModifiedDiscreteCosineTransform)而不是用现在比较时兴的小波(wavelet)技术。Ogg采用可channel inter leaving和square polar mapping两种技术组成的多通道编码技术,统称为立体声通道耦(Stereo Channel Coupling)。据官方声称,与其他会造成立体空间感减弱的编码模型相比,这两种技术都可以在保持编码器的灵活性的同时而不损害本来的立体声空间影像–相信配合iRiver的3d音效会有更好的表现力,而且实现的复杂程度比联合立体声方式要低。Ogg的编码中的比特率选项主要有ABR、VBR和Quality三种,Ogg的比特率是可变的,推荐使用设置简单Quality模式,能满足大多数人要求。

2.2.3.5 MIDI

MIDI(Musical Instrument Digital Interface)乐器数字接口,是20世纪80年代初为解决电声乐器之间的通信问题而提出的。MIDI传输的不是声音信号,而是音符、控制参数等指令,它指示MIDI设备要做什么,怎么做,如演奏哪个音符、多大音量等。它们被统一表示成MIDI消息。MIDI被广泛应用于音乐制作,游戏背景音乐制作以及手机铃声制作中。

MIDI三要素:

  1. 合成器:生成声音及控制音量、音高、音色等信息
  2. 序列发生器:存储及修改MIDI信息的设备或软件
  3. MIDI设备:如MIDI吉他、MIDI电子琴

有关MIDI的一些基本概念:

  1. 音轨:音乐是由多个声音通道组成的。
  2. 通道:每个MIDI设备都对应一个通道,每个通道拥有自己的信息序列,最多有16个通道。
  3. 声道:每个通道都允许有多个声道。
  4. 复调音乐:声音的混合能由合成器在一瞬间完成。
  5. 补丁:用于模仿乐器发声的音色特征。

2.3视频格式及编码

2.3.1视频格式

2.3.1.1 AVI

2.3.1.1.1基本介绍

AVI英文全称为Audio Video Interleaved,即音频视频交错格式。是将语音和影像同步组合在一起的文件格式。它对视频文件采用了一种有损压缩方式,但压缩比较高,因此尽管画面质量不是太好,但其应用范围仍然非常广泛。AVI支持256色和RLE压缩。AVI信息主要应用在多媒体光盘上,用来保存电视、电影等各种影像信息。

1992年被Microsoft公司推出,随Windows3.1一起被人们所认识和熟知。所谓“音频视频交错”,就是可以将视频和音频交织在一起进行同步播放。这种视频格式的优点是图像质量好,可以跨多个平台使用,其缺点是体积过于庞大,而且更加糟糕的是压缩标准不统一,最普遍的现象就是高版本Windows媒体播放器播放不了采用早期编码编辑的AVI格式视频,而低版本Windows媒体播放器又播放不了采用最新编码编辑的AVI格式视频,所以我们在进行一些AVI格式的视频播放时常会出现由于视频编码问题而造成的视频不能播放或即使能够播放,但存在不能调节播放进度和播放时只有声音没有图像等一些莫名其妙的问题,如果用户在进行AVI格式的视频播放时遇到了这些问题,可以通过下载相应的解码器来解决。是目前视频文件的主流。 这种格式的文件随处可见,比如一些游戏、教育软件的片头,多媒体光盘中,都会有不少的AVI 。

2.3.1.1.2相关参数

视像参数

1、视窗尺寸(Video size):根据不同的应用要求,AVI的视窗大小或分辨率可按4:3的比例或随意调整:大到全屏720×576,小到160×120甚至更低。窗口越大,视频文件的数据量越大。

2、帧率(Frames per second):帧率也可以调整,而且与数据量成正比。不同的帧率会产生不同的画面连续效果。

伴音参数

在AVI文件中,视像和伴音是分别存储的,因此可以把一段视频中的视像与另一段视频中的伴音组合在一起。AVI 文件与WAV文件密切相关,因为WAV文件是AVI文件中伴音信号的来源。伴音的基本参数也即WAV文件格式的参数,除此以外,AVI文件还包括与音频有关的其他参数:

1、视像与伴音的交织参数(Interlace Audio Every X Frames)AVI格式中每X帧交织存储的音频信号,也即伴音和视像交替的频率X是可调参数,X的最小值是一帧,即每个视频帧与音频数据交织组织,这是CD-ROM上使用的默认值。交织参数越小,回放AVI文件时读到内存中的数据流越少,回放越容易连续。因此,如果AVI文件的存储平台的数据传输率较大,则交错参数可设置得高一些。当AVI文件存储在硬盘上时,也即从硬盘上读AVI文件进行播放时,可以使用大一些的交织频率,如几帧,甚至1秒。

2、同步控制(Synchronization)在AVI文件中,视像和伴音是同步得很好的。但在MPC中回放AVI文件时则有可能出现视像和伴音不同步的现象。

压缩参数

在采集原始模拟视频时可以用不压缩的方式,这样可以获得最优秀的图像质量。编辑后应根据应用环境选择合适的压缩参数。

2.3.1.1.3数字视频

AVI及其播放器VFW已成为了PC机上最常用的视频数据格式,是由于其具有如下的一些显著特点:

提供无硬件视频回放功能

AVI格式和VFW软件虽然是为当前的MPC设计的,但它也可以不断提高以适应MPC的发展。根据AVI格式的参数,其视窗的大小和帧率可以根据播放环境的硬件能力和处理速度进行调整。在低档MPC机上或在网络上播放时,VFW的视窗可以很小,色彩数和帧率可以很低;而在Pentium级系统上,对于64K色、320×240的压缩视频数据可实现每秒25帧的回放速率。这样,VFW就可以适用于不同的硬件平台,使用户可以在普通的MPC上进行数字视频信息的编辑和重放,而不需要昂贵的专门硬件设备。

实现同步控制和实时播放

通过同步控制参数,AVI可以通过自调整来适应重放环境,如果MPC的处理能力不够高,而AVI文件的数据率又较大,在WINDOWS环境下播放该AVI文件时,播放器可以通过丢掉某些帧,调整AVI的实际播放数据率来达到视频、音频同步的效果。

可以高效地播放存储在硬盘和光盘上的AVI文件

由于AVI数据的交叉存储,VFW播放AVI数据时只需占用有限的内存空间,因为播放程序可以一边读取硬盘或光盘上的视频数据一边播放,而无需预先把容量很大的视频数据加载到内存中。在播放AVI视频数据时,只需在指定的时间内访问少量的视频图像和部分音频数据。这种方式不仅可以提高系统的工作效率,同时也可以实现迅速地加载和快速地启动播放程序,减少播放AVI视频数据时用户的等待时间。

提供了开放的AVI数字视频文件结构

AVI文件结构不仅解决了音频和视频的同步问题,而且具有通用和开放的特点。它可以在任何Windows环境下工作,而且还具有扩展环境的功能。用户可以开发自己的AVI视频文件,在Windows环境下可随时调用。

2.3.1.2 RM

2.3.1.2.1基本介绍

RealNetworks公司所制定的音频视频压缩规范称为RealMedia,用户可以使用RealPlayer或RealOnePlayer对符合RealMedia技术规范的网络音频/视频资源进行实况转播并且RealMedia可以根据不同的网络传输速率制定出不同的压缩比率,从而实现在低速率的网络上进行影像数据实时传送和播放。这种格式的另一个特点是用户使用RealPlayer或RealOnePlayer播放器可以在不下载音频/视频内容的条件下实现在线播放。另外,RM作为目前主流网络视频格式,它还可以通过其RealServer服务器将其它格式的视频转换成RM视频并由RealServer服务器负责对外发布和播放。RM和ASF格式可以说各有千秋,通常RM视频更柔和一些,而ASF视频则相对清晰一些。

RM格式一开始就定位在视频流应用方面,也可以说是视频流技术的始创者。它可以在用56K Modem拨号上网的条件下实现不间断的视频播放,当然,其图像质量和MPEG2,DIVX等相比有一定差距,毕竟要实现在网上传输不间断的视频是需要很大带宽的。 RM格式是Real公司对多媒体世界的一大贡献,也是对于在线影视推广的贡献。它的诞生,也使得流文件为更多人所知。这类文件可以实现即时播放,即先从服务器上下载一部分视频文件,形成视频流缓冲区后实时播放,同时继续下载,为接下来的播放做好准备。这种“边传边播”的方法避免了用户必须等待整个文件从Internet上全部下载完毕才能观看的缺点,因而特别适合在线观看影视。RM主要用于在低速率的网上实时传输视频的压缩格式,它同样具有小体积而又比较清晰的特点。RM文件的大小完全取决于制作时选择的压缩率,这也是为什么有时我们会看到1小时的影像只有200MB,而有的却有500MB之多。

2.3.1.3 MOV

2.3.1.3.1基本介绍

QuickTime用于保存音频和视频信息,现在它被包括Apple Mac OS,Microsoft Windows 95/98/NT/2003/XP/VISTA,甚至WINDOWS7在内的所有主流电脑平台支持。

2.3.1.3.2MOV视频格式

AVI文件格式和VFW软件是Microsoft为PC机设计的数字视频格式和应用软件。对于目前世界上的另一大类微机--Apple公司的Macintosh机,Apple公司也推出了相应的视频格式,即MOV(Movie digital video technology)的文件格式,其文件以MOV为后缀,相应的视频应用软件为Apple's QuickTime for Macintosh。该软件的功能与VFW类似,只不过用于Macintosh机。同时Apple公司也推出了适用于PC机的视频应用软件Apple's QuickTime for Windows,因此在MPC机上也可以播放MOV视频文件。

MOV格式的视频文件也可以采用不压缩或压缩的方式,其压缩算法包括Cinepak、Intel Indeo Video R3.2 和Video编码。其中Cinepak和Intel Indeo Video R3.2算法的应用和效果与AVI格式中的应用和效果类似。而Video格式编码适合于采集和压缩模拟视频,并可从硬盘平台上高质量回放,从光盘平台上回放质量可调。这种算法支持16位图像深度的帧内压缩和帧间压缩,帧率可达每秒10帧以上。

2.3.1.3.3数字视频格式的转换

三种数字视频文件MPG文件、AVI文件和MOV文件,它们具有不同的格式,不同的压缩编码算法和不同的特性。必须要有相应的播放软件才能播放对应格式的视频文件,播放软件首先能够识别视频文件的格式,通过解压来回放数据。因此,播放软件只要包含某种格式的解释和解压功能,就能够播放该种格式的视频文件。如VFW中的MediaPlayer就能播放MOV和AVI等多种格式的文件。

通过软件或硬件也可以把这三种视频文件的格式进行转换。如Broadway采集卡提供了采集模拟视频,并可用AVI格式(MPEG I帧算法)和MPEG格式存储成数字视频文件的功能。如果直接按MPEG格式采集,则该文件不能被编辑。如果按AVI格式采集,则采集以后可以对其进一步编辑并把编辑以后的视频数据按AVI格式或MPEG格式存储。通过该采集软件,也可读取已有的AVI文件,然后按MPEG格式存储,以实现两种格式的转换。

2.3.2视频压缩标准

2.3.2.1 MPEG标准

MPEG标准主要有以下五个,MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。该专家组建于1988年,专门负责为CD建立视频和音频标准,而成员都是为视频、音频及系统领域的技术专家。及后,他们成功将声音和影像的记录脱离了传统的模拟方式,建立了ISO/IEC1172压缩编码标准,并制定出MPEG-格式,令视听传播方面进入了数码化时代。因此,大家现时泛指的MPEG-X版本,就是由ISO(International Organization for Standardization)所制定而发布的视频、音频、数据的压缩标准。

MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度,利用DCT技术以减小图像的空间冗余度,利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用,大大增强了压缩性能。

2.3.2.1.1 MPEG-1

MPEG-1标准于1992年正式出版,标准的编号为ISO/IEC11172,其标题为“码率约为1.5Mb/s用于数字存贮媒体活动图像及其伴音的编码”。

MPEG-1层1 数字盒式录音带

MPEG-1层2 DAB,VCD,DVD

MPEG-1层3 Internet,MP3音乐

2.3.2.1.2 MPEG-2

MPEG-2标准于1994年公布,包括编号为13818-1系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。 MPEG-2编码标准希望囊括数字电视、图像通信各领域的编码标准,MPEG-2按压缩比大小的不同分成五个档次(profile),每一个档次又按图像清晰度的不同分成四种图像格式,或称为级别(level)。五个档次四种级别共有20种组合,但实际应用中有些组合不太可能出现,较常用的是11种组合。这11种组合分别应用在不同的场合,如MP@ML(主档次与主级别)用在具有演播室质量标准清晰度电视SDTV中,美国HDTV大联盟采用MP@HL(主档次及高级别)。

2.3.2.1.3 MPEG-4

MPEG-4在1995年7月开始研究,1998年11月被ISO/IEC批准为正式标准,正式标准编号是ISO/IEC14496,它不仅针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件等,对传输速率要求较低,在4800-6400bits/s之间,分辨率为176*144。MPEG-4利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少的数据获得最佳的图像质量。 利用MPEG-4的高压缩率和高的图像还原质量可以把DVD里面的MPEG-2视频文件转换为体积更小的视频文件。经过这样处理,图像的视频质量下降不大但体积却可缩小几倍,可以很方便地用CD-ROM来保存DVD上面的节目。另外,MPEG-4在家庭摄影录像、网络实时影像播放也大有用武之地。

2.3.2.1.4 MPEG-7

MPEG-7(它的由来是1+2+4=7, 因为没有MPEG-3、MPEG-5、MPEG-6)于1996年10月开始研究。确切来讲,MPEG-7并不是一种压缩编码方法,其正规的名字叫做’多媒体内容描述接口,其目的是生成一种用来描述多媒体内容的标准,这个标准将对信息含义的解释提供一定的自由度,可以被传送给设备和电脑程序,或者被设备或电脑程序查取。MPEG-7并不针对某个具体的应用,而是针对被MPEG-7标准化了的图象元素,这些元素将支持尽可能多的各种应用。建立MPEG-7标准的出发点是依靠众多的参数对图象与声音实现分类,并对它们的数据库实现查询,就象我们今天查询文本数据库那样。可应用于数字图书馆,例如图象编目、音乐词典等;多媒体查询服务,如电话号码簿等;广播媒体选择,如广播与电视频道选取;多媒体编辑,如个性化的电子新闻服务、媒体创作等。

2.3.2.1.5 MPEG-21

MPEG在1999年10月的MPEG会议上提出了“多媒体框架”的概念,同年的12月的MPEG会议确定了MPEG-21的正式名称是“多媒体框架”或“数字视听框架”,它以将标准集成起来支持协调的技术以管理多媒体商务为目标,目的就是理解如何将不同的技术和标准结合在一起需要什么新的标准以及完成不同标准的结合工作。

2.3.2.2 ITU-T H.26x系列

应用于电信网络的视频编码先后经历了ITU-T H.261、H.262(MPEG-2)、H.263及其改进H.263+和H.263++,应用领域覆盖ISDN、T1/E1、PSTN、移动无线网络及局域网等,正朝着网络适应性好、抗误码能力强、编码效率高的方向不断发展。

1998年,视频编码专家组(VCEG-ITU-T SGl6 Q.6)开始了H.26L标准的研制工作,旨在使编码效率比现有视频编码标准提高一倍以上。2001年12月,视频编码专家组(VCEG)与运动图像专家组(MPEG)合作,成立了联合视频小组(JVT),开始致力于完成新的视频编码标准H.264/AVC(ITU-T称之为H.264,ISO称之为AVC),作为MPEG-4标准的第十部分。

H.264/AVC全面应用视频编码理论的最新成果,与现有各种标准相比,在相同的视频质量下,码率减少一倍以上,这意味着在相同码率下,视频质量显著提高。H.264/AVC可工作于多种速率,广泛应用于Internet/intranet上的多媒体流服务、视频点播、可视游戏、低码率移动多媒体通信(视频手机等)、交互式多媒体应用、实时多媒体监控、数字电视与演播电视和虚拟视频会议等,大有在上述领域一统天下的趋势,有非常广泛的开发和应用前景。

作者

本节编撰作者(请大家在这里报到):

  • 石洋 (3080100650) 编写内容:2.3.1&2.3.2
  • 黄振华 (3080100595) 编写内容为2.2.3后
  • 于萌 (3080100379) 编写内容为2.2.1&2.2.2前
  • 陈卓权 (3080100596) 编写内容为2.2.2后&2.2.3前
  • 齐城 (3080005148)修改了2.2.2.2部分
  • XXX (学号)

浙江大学2008-2010版权所有,如需转载或引用,请与 作者联系

 
coursenote/002.txt · Last modified: 2021/04/13 21:24 (external edit)     Back to top
Recent changes RSS feed Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki Dokuwiki theme modified by Dr. Hongxin Zhang counters