User Tools

Site Tools


coursenote:003

3 数字媒体格式介绍(2)

3.1 音频格式及编码方法

  • 数字音频(Digitalized audio)
  1. 数字音频是一种利用数字化手段对声音进行录制、存放、编辑、压缩或播放的技术,它是随着数字信号处理技术、计算机技术、多媒体技术的发展而形成的一种全新的声音处理手段。
  2. 数字音频的主要应用领域是音乐后期制作和录音。
  3. 计算机数据的存储是以0、1的形式存取的,那么数字音频就是首先将音频文件转化,接着再将这些电平信号转化成二进制数据保存,播放的时候就把这些数据转换为模拟的电平信号再送到喇叭播出,数字声音和一般磁带、广播、电视中的声音就存储播放方式而言有着本质区别。相比而言,它具有存储方便、存储成本低廉、存储和传输的过程中没有声音的失真、编辑和处理非常方便等特点。
  4. 声波是一种能量波,能够表示成振幅在时间上的连续函数。用X轴表示时间,Y轴表示振幅,则声波能够表示如下图:

3.1.1 采样率和比特

  1. 采样率:每秒获得的采样个数。假设音频的最高频率为20kHz,则需要每秒钟40k采样(Nyquest定理);CD的采样率是 44.1kHz。(Nyquest Theorem:理想抽样时,只要抽样频率大于或等于模拟信号中最高频率的两倍,就可以不失真地恢复模拟信号。)
  2. 量化率:声音有轻有响,影响声音响度的物理要素是振幅,作为数字音频,必须也要能精确表示乐曲的轻响,所以一定要对波形的振幅有一个精确的描述。量化率就是这样一个参数。量化率为16比特,就是指把波形的振幅划为2^16即65536个等级,根据模拟信号的轻响把它划分到某个等级中去,这样就可以用数字来表示了。量化率必须是2的幂的形式。音频CD的量化率通常是16bit。
  3. 采样率和量化率是衡量数字音频质量的重要指标。我们形容数字声音的质量,通常就描述为24bit(量化率)、48KHz(采样率)采样,比如标准CD音乐的质量就是16bit、44.1KHz采样。 在数字编码期间,模拟信号被离散地采样,如果编码率和量化率较高,我们便能获得更好的样品质量。

3.2 音频压缩

3.2.1 有损压缩vs无损压缩

  • 没有完全无损的编码方式!
  1. 根据采样率和量化率的定义,实际上音频编码只能尽可能地向天然声音信号接近
  2. 可以说所有的编码方式都是有损的
  • 接近无损的模式:PCM
  1. 可以达到最高的保持效果;
  2. 被广泛地应用于天然数据的保存和音乐数据,例如:CD、DVD和WAV文件;
  3. 被看做是一种无损的编码方式,但是,PCM也仅仅是接近于天然数据;
  4. 与PCM编码方式比较,我们通常将MP3编码方式划分到有损音频编码方式中。

3.2.2 PCM编码

  • 优点:高回放质量;
  • 缺点:大存储空间。
  • 音频CD主要受到PCM编码方式的影响 ,一张CD能存储72分钟的音乐。
  • PCM音频流采样率
公式:采样率*量化率*声道数量
举例:一个WAV文件的采样率44.1KHz,量化率16bit,立体声
a)码率(coding rate,也就是比特率):44.1K*16*2=1411.2Kbps;
b)128K MP3 ~ 1411.2K bits每秒;
c)也叫做数据宽度(data width),与网络传输中带宽(band width)的概念相近;
d)数据速度(data speed):每秒钟传输的字节数= 比特率/8,在这个例子中,数据速度是176.4KB/S;
e)每秒钟占用176.4KB的空间。录制1分钟的音乐需要10.34M。

3.2.3 音频的流特性

  • 网络的繁荣使得在线播放音乐,下载的同时播放音乐成为可能;
  • 根据音频的流特性,可执行在线直接表演和DIY的数字广播。

3.3 常用音频格式

3.3.1 WAV

  • 微软开发
  • 基于RIFF(Resource Interchange File Format)标准:所有的WAV文件都有一个用来记录音频流编码参数的文件头。WAV文件编码音频流没有具体的约束,除了PCM,WAV可以使用ACM定义的任何类型的编码方案。
  • 在windows下,基于PCM的WAV格式被认为是最有用的音频格式。WAV适于音乐的创作与编辑,也适于raw音乐文件的存储。基于PCM的WAV文件被用来作为不同的音频格式转换的中转格式,例如MP3转成WMA.

3.3.2 WMA

  • WMA,Windows Media Audio,由微软开发,作为编码框架.
  • WMA被设计来用作网络传输.它的主要竞争者是Real Networks的产品
  • 微软宣称WMA可以达到CD的音质– 64kbps
  • WMA提供了多媒体版权管理来阻止非法复制和统计播放次数
  • 支持流技术和在线广播

3.3.3 RA

  • RA格式是RealNetworks公司所开发的一种新型流式音频Real Audio文件格式。 RA格式主要应用在网络媒体播放市场上,因其具有以下特点:
  1. 可以根据不同的网络带宽选择编码比特率,并最大限度地保持音频文件质量。
  2. 支持多种音频编码方式,如ATRAC3。
  3. 支持边下载边播放,并能隐藏源文件网络地址。

3.3.4 APE

  • APE是流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同,APE是一种无损压缩音频技术,也就是说从音频CD上读取的音频数据文件压缩成 APE格式后,再将APE格式的文件还原,而还原后的音频文件与压缩前的一模一样,没有任何损失。APE的文件大小大概为CD的一半,APE可以节约大量资源。
  • 庞大的WAV音频文件可以通过Monkey's Audio这个软件压缩为APE。主要使用LZW压缩算法,具有高压缩率和快速压缩速度,适用于刻录CD。Monkey's Audio还为各种播放器提供插件以播放APE格式。

3.3.5 MP3

  • MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III)。是当今最流行的一种数字音频编码和有损压缩格式,它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。
  • MP3是利用 MPEG Audio Layer 3 的技术,将音乐以1:10 甚至 1:12 的压缩率,压缩成容量较小的文件,换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。

3.3.6 OGG

  • Ogg全称应该是OGGVobis(OggVorbis)是一种新的音频压缩格式,类似于MP3等的音乐格式。Ogg是完全免费、开放和没有专利限制的。Ogg文件格式可以不断地进行大小和音质的改良,而不影响旧有的编码器或播放器。与MP3相比较,OGG格式编码比特率更低但拥有更好的播放质量,而且支持更多频道,适用于解码古典音乐,而且OGG格式还具有更加灵活的编码架构。
  • OGG编码特点及原理
OggVorbis中的主要算法是利用MDCT(修饰离散余弦变换ModifiedDiscreteCosineTransform)而不是用现在比较时兴的小波(wavelet)技术。Ogg采用可channel inter leaving和square polar mapping两种技术组成的多通道编码技术,统称为立体声通道耦(Stereo Channel Coupling)。据官方声称,与其他会造成立体空间感减弱的编码模型相比,这两种技术都可以在保持编码器的灵活性的同时而不损害本来的立体声空间影像–相信配合iRiver的3d音效会有更好的表现力,而且实现的复杂程度比联合立体声方式要低。Ogg的编码中的比特率选项主要有ABR、VBR和Quality三种,Ogg的比特率是可变的,推荐使用设置简单Quality模式,能满足大多数人要求。

3.3.7 MIDI

  • MIDI(Musical Instrument Digital Interface)乐器数字接口,是20世纪80年代初为解决电声乐器之间的通信问题而提出的。MIDI传输的不是声音信号,而是音符、控制参数等指令,它指示MIDI设备要做什么,怎么做,如演奏哪个音符、多大音量等。它们被统一表示成MIDI消息。MIDI被广泛应用于音乐制作,游戏背景音乐制作以及手机铃声制作中。
  • MIDI是一种描述性的语言
  1. 与众不同的直接记录数字化的声音信号
  2. 只记录乐器怎么发出声音的"事件"
  3. 很小的储存大小
  • MIDI三要素:
  1. 合成器:生成声音及控制音量、音高、音色等信息
  2. 序列发生器:存储及修改MIDI信息的设备或软件
  3. MIDI设备:如MIDI吉他、MIDI电子琴
  • 有关MIDI的一些基本概念:
  1. 音轨:音乐是由多个声音通道组成的。
  2. 通道:每个MIDI设备都对应一个通道,每个通道拥有自己的信息序列,最多有16个通道。
  3. 声道:每个通道都允许有多个声道。
  4. 复调音乐:声音的混合能由合成器在一瞬间完成。
  5. 补丁:用于模仿乐器发声的音色特征。
  • MIDI的信息结构

3.4 视频格式及编码

  • 视频是一系列的图像么?
  • 视频可以被看成是三维的矩阵,但这只说对了一半

3.4.1 常见的视频格式

3.4.1.1 AVI

  • AVI = Audio Video Interleaved
  1. 根据RIFF文件格式标准,AVI是一个数字的视音频格式
  2. 多媒体CDROM,存储视频信息,电影和电视节目
  3. 可用于Internet应用,下载和在线观看
  • 允许交错存储视音频信息和同时回放
  • AVI定义了控制接口标准
  1. 在AVI格式里没有压缩通道的限制
  2. 支持256色和RLE压缩
  3. 有特定编码方法的AVI必须用相应的解码方法来回放
  4. 许多公司提供他们自己的编解码器,例如SONY

3.4.1.2 RM

  • RM (RealVideo file)是Real Networks组织的新的流视频文件格式
  • RealVideo技术被用来在互联网上广播重要的事件
  • RealMedia是Real Networks的视音频压缩标准
  1. 主要被用来在广域网上以低比特率传输实时视频片段
  2. 它能自行改变成不同的比特率来适应网络文件传输速率
  • RealVideo能和RealServer一起使用.与其他绝大多数视频格式不同的是RM能边下载边播放.

3.4.1.3 MOV

  • 苹果公司开发的视音频格式,能在Windows,Apple Mac OS使用Quicktime播放器播放.
  • 是原始的支持256色,RLE和JPEG压缩技术的格式
  • 高级的功能特征:大于150种视频特效和大于200种MIDI声音设备
  • 以互联网为中心的特征:数字化的流信息,流作业和通过互联网播放的功能
  • QuickTime VR (QTVR):一个用在QuickTime的虚拟现实技术集合,使用鼠标或者键盘
  • 调查360度的镜头
  • 从一个特定的空间角度交互的浏览一个对象

3.4.2 视频压缩标准

  • MPEG标准:一个视音频压缩,储存和播放标准
  1. MPEG-1: VCD
  2. MPEG-2: broadcast TV, e.g., DVD、HDTV etc.
  3. MPEG-3: replaced by MPEG-2
  4. MPEG-4: network video transfer,stream media
  5. MPEG-7:
  6. MPEG-21:
  • ITU-T H.26x series
  1. 主要被用在视频交流应用上,现在有H.261,H.262,H.263,H.264
  2. ISDN网络是基于H.320标准的,视频压缩部分是H.261,H.262和H.263
  3. LAN网络是基于H.323标准的
  4. PSTN网络是基于H.324标准的,视频压缩部分是H.261和H.263

3.4.2.1 MPEG系列

  • MPEG = Motion Picture Expert Group
  • ISO/IEC JTC1/SC29
  1. WG11:Motion Picture Experts Group (MPEG)
  2. WG10:Joint Photographic Experts Group (JPEG)
  3. WG7: Computer Graphics Experts Group (CGEG)
  4. WG9: Joint Bi-level Image coding experts Group (JBIG)
  5. WG12: Multimedia and Hypermedia information coding Experts Group (MHEG)
  • MPEG-1,MPEG-2标准始于1988,最新的MPEG标准是MPEG-4,MPEG-7,MPEG-21
3.4.2.1.1 MPEG1
  • MPEG-1标准于1992年正式出版,标准的编号为ISO/IEC11172,其标题为“码率约为1.5Mb/s用于数字存贮媒体活动图像及其伴音的编码”。
  • 在1.5 Mbit/s比特率附近优化,对SIF图像格式进行初始优化但不局限于它,例如:
  1. 基于NTSC制的:352×240像素,30帧每秒
  2. 基于PAL制的:352×288像素,25帧每秒
  • 仅仅是连续的帧,没有直接提供交错的视频应用,例如播送电视
  • 音频上将立体声以192 kbit/s编码(第二层)
  • 系统主要为没有错误的数字媒体存储设计,将视音频和数据进行多路传输
  • 应用:CD-I,数字多媒体digital multimedia和视频数据库(例如video-on-demand)
3.4.2.1.2 MPEG-2
  • MPEG-2标准于1994年公布,包括编号为13818-1系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。
  • 2-15或16-80 Mbit/s比特率(目标比特率:4-9Mbit/s)
  • 电视和高清电视图像格式TV and HDTV picture formats
  • 支持交错的素材Supports interlaced material
  • MPEG-2由类和级组成
  • 主档次与主级别(MP@ML)
  1. NTSC:720×480大小,30帧每秒的视频,小于15Mbit/s(典型的约为4Mbit/s)
  2. HDTV:1920×1152大小,30帧每秒的视频,小于80Mbit/s(典型的约为15Mbit/s)
  • 兼容多通道可延展的MPEG-1音频
  • 视频,音频和数据多路传输定义了2种表现形式
  1. 程序流:接近没有错误的媒体应用
  2. 传输流:更多容易产生误差的通道
  • 应用:卫星,光纤,地面广播,数字网络,数字摄像机
3.4.2.1.3 MPEG压缩
  • 基于8×8像素块处理
  1. 8×8象素块上的数值计算可被快速数字信号处理[DSP]模块实时处理
  2. 可通过比较图像序列中的块来作出运动估计
3.4.2.1.4 MPEG编解码

  • 视频信号:图像流,没必要传输每张图像。所有图像只在所有的内容被改编的时候才需要传输。少数图像还需要在内存中缓存来向前和向后做出预测
  • MPEG动态压缩

I=Intra-Frame(帧内),P=Predicted frame(预测帧),B=Bi-directionally interpolated frame(插值帧)

3.4.2.2 彩色视频编码

  • 抽样和编码整个模拟(彩色)视频信号。例如,复合编码
  • 对亮度和色度分别编码。例如,组件编码
  • 亮度比色度更重要,可根据应用场合采用4:2:2,4:2:0, 4:4:4等不同的编码比率

3.4.2.3 H.264

3.4.2.3.1 概述
  • 作为新的视频压缩标准被ITU-T和ISO接受,作为MPEG-4的第十个部分,称为AVC (Advanced Video Coding)
3.4.2.3.2 数字视频标准的主要历史

3.4.2.3.3 H.264编码原则

3.4.2.3.4 H.264的主要技术特点
  1. 4类DCT整数变换以及相应的量化方法
  2. 7种宏块预测模式:16×16, 16×8, 8×16, 8×8, 8×4, 4×8, 4×4,运动估计和补偿更加精确
  3. 多参考帧
  4. 帧内预测
  5. 改进的去块效应滤波器(Deblocking filter)
  6. 增强的熵编码方法:UVLC(Universal VLC)、CAVLC(Context adaptive VLC)和CABAC
  7. 1/4像素插值
  8. 宏块级逐行、隔行自适应编码MBAFF
3.4.2.3.5 H.264的优缺点
  • 高压缩率
  1. 在同样的图像质量下,H.264压缩后体积相当于:36% MPEG-2,61% MPEG-4 ,51% H.263
  2. 低比特流,高质量
  • 高误差纠正率

H.264提供必要的工具来解决不稳定的网络环境下的错误编码问题

  • 网络友善性

H.264提供网路适应层来让H.264c文件比较容易的在不同的网络环境下传输

  • 高计算耗费

在同样的图像质量下,H.264的计算复杂度是MPEG-2的两倍

3.4.2.3.6 H.264的应用
  • H.264标准增加了一个网路抽象层(NAL,Network Abstraction Layer)来面对在现实应用中的网络连接和接口问题
  • 视频交流

在实时的交流中,POLYCOM、TANDBERG、VCON、SONY等都宣称它们自己的H.264是基于电视会议产品的

  • 播放数字电视

MPEG已经结束了定义MPEG-2H.264流编码内容上的兼容标准

  • 高清DVD(HD DVD)和H.264/MPEG-4 AVC视频存储和播放

3.4.3 视频格式转换

参考文献

<note important> 本节编撰作者(鼓励有兴趣的同学自由撰写,总评成绩可适当加分):

  • 李宏杰 (3090101558), 编写了本节全部内容

浙江大学2008-2011版权所有,如需转载或引用,请与 作者联系。 </note>

coursenote/003.txt · Last modified: 2023/08/19 20:17 (external edit)