3 数字媒体格式介绍(2)

3.1 音频格式及编码方法

数字音频(Digitalized audio)

数字音频是一种利用数字化手段对声音进行录制、存放、编辑、压缩或播放的技术，它是随着数字信号处理技术、计算机技术、多媒体技术的发展而形成的一种全新的声音处理手段。
数字音频的主要应用领域是音乐后期制作和录音。
计算机数据的存储是以0、1的形式存取的，那么数字音频就是首先将音频文件转化，接着再将这些电平信号转化成二进制数据保存，播放的时候就把这些数据转换为模拟的电平信号再送到喇叭播出，数字声音和一般磁带、广播、电视中的声音就存储播放方式而言有着本质区别。相比而言，它具有存储方便、存储成本低廉、存储和传输的过程中没有声音的失真、编辑和处理非常方便等特点。
声波是一种能量波，能够表示成振幅在时间上的连续函数。用X轴表示时间，Y轴表示振幅，则声波能够表示如下图：

3.1.1 采样率和比特

采样率：每秒获得的采样个数。假设音频的最高频率为20kHz，则需要每秒钟40k采样（Nyquest定理）;CD的采样率是 44.1kHz。(Nyquest Theorem:理想抽样时,只要抽样频率大于或等于模拟信号中最高频率的两倍，就可以不失真地恢复模拟信号。)
量化率：声音有轻有响，影响声音响度的物理要素是振幅，作为数字音频，必须也要能精确表示乐曲的轻响，所以一定要对波形的振幅有一个精确的描述。量化率就是这样一个参数。量化率为16比特，就是指把波形的振幅划为2^16即65536个等级，根据模拟信号的轻响把它划分到某个等级中去，这样就可以用数字来表示了。量化率必须是2的幂的形式。音频CD的量化率通常是16bit。
采样率和量化率是衡量数字音频质量的重要指标。我们形容数字声音的质量，通常就描述为24bit（量化率）、48KHz（采样率）采样，比如标准CD音乐的质量就是16bit、44.1KHz采样。在数字编码期间，模拟信号被离散地采样，如果编码率和量化率较高，我们便能获得更好的样品质量。

3.2 音频压缩

3.2.1 有损压缩vs无损压缩

没有完全无损的编码方式!

根据采样率和量化率的定义，实际上音频编码只能尽可能地向天然声音信号接近
可以说所有的编码方式都是有损的

接近无损的模式：PCM

可以达到最高的保持效果;
被广泛地应用于天然数据的保存和音乐数据，例如：CD、DVD和WAV文件;
被看做是一种无损的编码方式，但是，PCM也仅仅是接近于天然数据;
与PCM编码方式比较，我们通常将MP3编码方式划分到有损音频编码方式中。

3.2.2 PCM编码

优点：高回放质量;
缺点：大存储空间。
音频CD主要受到PCM编码方式的影响，一张CD能存储72分钟的音乐。
PCM音频流采样率

公式：采样率*量化率*声道数量
举例：一个WAV文件的采样率44.1KHz，量化率16bit，立体声
a)码率(coding rate，也就是比特率)：44.1K*16*2=1411.2Kbps;
b)128K MP3 ~ 1411.2K bits每秒;
c)也叫做数据宽度（data width），与网络传输中带宽（band width）的概念相近;
d)数据速度（data speed）：每秒钟传输的字节数= 比特率/8,在这个例子中，数据速度是176.4KB/S;
e)每秒钟占用176.4KB的空间。录制1分钟的音乐需要10.34M。

3.2.3 音频的流特性

网络的繁荣使得在线播放音乐，下载的同时播放音乐成为可能;
根据音频的流特性，可执行在线直接表演和DIY的数字广播。

3.3 常用音频格式

3.3.1 WAV

微软开发
基于RIFF(Resource Interchange File Format)标准：所有的WAV文件都有一个用来记录音频流编码参数的文件头。WAV文件编码音频流没有具体的约束，除了PCM，WAV可以使用ACM定义的任何类型的编码方案。
在windows下，基于PCM的WAV格式被认为是最有用的音频格式。WAV适于音乐的创作与编辑，也适于raw音乐文件的存储。基于PCM的WAV文件被用来作为不同的音频格式转换的中转格式，例如MP3转成WMA．

3.3.2 WMA

WMA，Windows Media Audio，由微软开发，作为编码框架．
WMA被设计来用作网络传输．它的主要竞争者是Real Networks的产品
微软宣称WMA可以达到CD的音质– 64kbps
WMA提供了多媒体版权管理来阻止非法复制和统计播放次数
支持流技术和在线广播

3.3.3 RA

RA格式是RealNetworks公司所开发的一种新型流式音频Real Audio文件格式。 RA格式主要应用在网络媒体播放市场上，因其具有以下特点:

可以根据不同的网络带宽选择编码比特率，并最大限度地保持音频文件质量。
支持多种音频编码方式，如ATRAC3。
支持边下载边播放，并能隐藏源文件网络地址。

3.3.4 APE

APE是流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同，APE是一种无损压缩音频技术，也就是说从音频CD上读取的音频数据文件压缩成 APE格式后，再将APE格式的文件还原，而还原后的音频文件与压缩前的一模一样，没有任何损失。APE的文件大小大概为CD的一半，APE可以节约大量资源。
庞大的WAV音频文件可以通过Monkey's　Audio这个软件压缩为APE。主要使用LZW压缩算法，具有高压缩率和快速压缩速度，适用于刻录CD。Monkey's Audio还为各种播放器提供插件以播放APE格式。

3.3.5 MP3

MP3全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III）。是当今最流行的一种数字音频编码和有损压缩格式，它设计用来大幅度地降低音频数据量，而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。
MP3是利用 MPEG Audio Layer 3 的技术，将音乐以1:10 甚至 1:12 的压缩率，压缩成容量较小的文件，换句话说，能够在音质丢失很小的情况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。

3.3.6 OGG

Ogg全称应该是OGGVobis(OggVorbis)是一种新的音频压缩格式，类似于MP3等的音乐格式。Ogg是完全免费、开放和没有专利限制的。Ogg文件格式可以不断地进行大小和音质的改良，而不影响旧有的编码器或播放器。与MP3相比较，OGG格式编码比特率更低但拥有更好的播放质量，而且支持更多频道，适用于解码古典音乐，而且OGG格式还具有更加灵活的编码架构。
OGG编码特点及原理

OggVorbis中的主要算法是利用MDCT（修饰离散余弦变换ModifiedDiscreteCosineTransform）而不是用现在比较时兴的小波（wavelet）技术。Ogg采用可channel　inter　leaving和square　polar　mapping两种技术组成的多通道编码技术，统称为立体声通道耦（Stereo　Channel　Coupling）。据官方声称，与其他会造成立体空间感减弱的编码模型相比，这两种技术都可以在保持编码器的灵活性的同时而不损害本来的立体声空间影像–相信配合iRiver的3d音效会有更好的表现力，而且实现的复杂程度比联合立体声方式要低。Ogg的编码中的比特率选项主要有ABR、VBR和Quality三种，Ogg的比特率是可变的，推荐使用设置简单Quality模式，能满足大多数人要求。

3.3.7 MIDI

MIDI(Musical Instrument Digital Interface)乐器数字接口，是20世纪80年代初为解决电声乐器之间的通信问题而提出的。MIDI传输的不是声音信号，而是音符、控制参数等指令，它指示MIDI设备要做什么，怎么做，如演奏哪个音符、多大音量等。它们被统一表示成MIDI消息。MIDI被广泛应用于音乐制作，游戏背景音乐制作以及手机铃声制作中。
MIDI是一种描述性的语言

与众不同的直接记录数字化的声音信号
只记录乐器怎么发出声音的＂事件＂
很小的储存大小

MIDI三要素：

合成器:生成声音及控制音量、音高、音色等信息
序列发生器:存储及修改MIDI信息的设备或软件
MIDI设备:如MIDI吉他、MIDI电子琴

有关MIDI的一些基本概念：

音轨：音乐是由多个声音通道组成的。
通道：每个MIDI设备都对应一个通道，每个通道拥有自己的信息序列，最多有16个通道。
声道：每个通道都允许有多个声道。
复调音乐：声音的混合能由合成器在一瞬间完成。
补丁：用于模仿乐器发声的音色特征。

MIDI的信息结构

3.4 视频格式及编码

视频是一系列的图像么？
视频可以被看成是三维的矩阵，但这只说对了一半

3.4.1 常见的视频格式

3.4.1.1 AVI

AVI = Audio Video Interleaved

根据RIFF文件格式标准，AVI是一个数字的视音频格式
多媒体CDROM，存储视频信息，电影和电视节目
可用于Internet应用，下载和在线观看

允许交错存储视音频信息和同时回放
AVI定义了控制接口标准

在AVI格式里没有压缩通道的限制
支持256色和RLE压缩
有特定编码方法的AVI必须用相应的解码方法来回放
许多公司提供他们自己的编解码器，例如SONY

3.4.1.2 RM

RM (RealVideo file)是Real Networks组织的新的流视频文件格式
RealVideo技术被用来在互联网上广播重要的事件
RealMedia是Real Networks的视音频压缩标准

主要被用来在广域网上以低比特率传输实时视频片段
它能自行改变成不同的比特率来适应网络文件传输速率

RealVideo能和RealServer一起使用．与其他绝大多数视频格式不同的是RM能边下载边播放．

3.4.1.3 MOV

苹果公司开发的视音频格式，能在Windows,Apple Mac OS使用Quicktime播放器播放．
是原始的支持256色,RLE和JPEG压缩技术的格式
高级的功能特征:大于150种视频特效和大于200种MIDI声音设备
以互联网为中心的特征：数字化的流信息，流作业和通过互联网播放的功能
QuickTime VR (QTVR):一个用在QuickTime的虚拟现实技术集合，使用鼠标或者键盘
调查360度的镜头
从一个特定的空间角度交互的浏览一个对象

3.4.2 视频压缩标准

MPEG标准：一个视音频压缩，储存和播放标准

MPEG-1: VCD
MPEG-2: broadcast TV, e.g., DVD、HDTV etc.
MPEG-3: replaced by MPEG-2
MPEG-4: network video transfer，stream media
MPEG-7:
MPEG-21:

ITU-T H.26x series

主要被用在视频交流应用上，现在有H.261，H.262，H.263，H.264
ISDN网络是基于H.320标准的，视频压缩部分是H.261,H.262和H.263
LAN网络是基于H.323标准的
PSTN网络是基于H.324标准的，视频压缩部分是H.261和H.263

3.4.2.1 MPEG系列

MPEG = Motion Picture Expert Group
ISO/IEC JTC1/SC29

WG11:Motion Picture Experts Group (MPEG)
WG10:Joint Photographic Experts Group (JPEG)
WG7: Computer Graphics Experts Group (CGEG)
WG9: Joint Bi-level Image coding experts Group (JBIG)
WG12: Multimedia and Hypermedia information coding Experts Group (MHEG)

MPEG-1,MPEG-2标准始于1988，最新的MPEG标准是MPEG-4,MPEG-7,MPEG-21

3.4.2.1.1 MPEG1

MPEG-1标准于1992年正式出版，标准的编号为ISO/IEC11172，其标题为“码率约为1.5Mb/s用于数字存贮媒体活动图像及其伴音的编码”。
在1.5 Mbit/s比特率附近优化，对SIF图像格式进行初始优化但不局限于它，例如：

基于NTSC制的：352×240像素，30帧每秒
基于PAL制的：352×288像素，25帧每秒

仅仅是连续的帧，没有直接提供交错的视频应用，例如播送电视
音频上将立体声以192 kbit/s编码（第二层）
系统主要为没有错误的数字媒体存储设计，将视音频和数据进行多路传输
应用：CD-I，数字多媒体digital multimedia和视频数据库（例如video-on-demand）

3.4.2.1.2 MPEG-2

MPEG-2标准于1994年公布，包括编号为13818-1系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。
2-15或16-80 Mbit/s比特率(目标比特率:4－9Mbit/s)
电视和高清电视图像格式TV and HDTV picture formats
支持交错的素材Supports interlaced material
MPEG-2由类和级组成
主档次与主级别(MP@ML)

NTSC：720×480大小，30帧每秒的视频，小于15Mbit/s(典型的约为4Mbit/s)
HDTV：1920×1152大小，30帧每秒的视频，小于80Mbit/s(典型的约为15Mbit/s)

兼容多通道可延展的MPEG-1音频
视频，音频和数据多路传输定义了2种表现形式

程序流：接近没有错误的媒体应用
传输流：更多容易产生误差的通道

应用：卫星，光纤，地面广播，数字网络，数字摄像机

3.4.2.1.3 MPEG压缩

基于8×8像素块处理

8×8象素块上的数值计算可被快速数字信号处理[DSP]模块实时处理
可通过比较图像序列中的块来作出运动估计

3.4.2.1.4 MPEG编解码

视频信号：图像流，没必要传输每张图像。所有图像只在所有的内容被改编的时候才需要传输。少数图像还需要在内存中缓存来向前和向后做出预测
MPEG动态压缩

I=Intra-Frame（帧内），P=Predicted frame（预测帧），B=Bi-directionally interpolated frame（插值帧）

3.4.2.2 彩色视频编码

抽样和编码整个模拟（彩色）视频信号。例如，复合编码
对亮度和色度分别编码。例如，组件编码
亮度比色度更重要，可根据应用场合采用4:2:2，4:2:0, 4:4:4等不同的编码比率

3.4.2.3 H.264

3.4.2.3.1 概述

作为新的视频压缩标准被ITU-T和ISO接受，作为MPEG-4的第十个部分，称为AVC (Advanced Video Coding)

3.4.2.3.2 数字视频标准的主要历史

3.4.2.3.3 H.264编码原则

3.4.2.3.4 H.264的主要技术特点

4类DCT整数变换以及相应的量化方法
7种宏块预测模式：16×16, 16×8, 8×16, 8×8, 8×4, 4×8, 4×4，运动估计和补偿更加精确
多参考帧
帧内预测
改进的去块效应滤波器（Deblocking filter）
增强的熵编码方法：UVLC（Universal VLC）、CAVLC（Context adaptive VLC）和CABAC
1/4像素插值
宏块级逐行、隔行自适应编码MBAFF

3.4.2.3.5 H.264的优缺点

高压缩率

在同样的图像质量下，H.264压缩后体积相当于：36%　MPEG-2，61%　MPEG-4 ，51%　H.263
低比特流，高质量

高误差纠正率

H.264提供必要的工具来解决不稳定的网络环境下的错误编码问题

网络友善性

H.264提供网路适应层来让H.264c文件比较容易的在不同的网络环境下传输

高计算耗费

在同样的图像质量下，H.264的计算复杂度是MPEG-2的两倍

3.4.2.3.6 H.264的应用

H.264标准增加了一个网路抽象层（NAL，Network Abstraction Layer）来面对在现实应用中的网络连接和接口问题
视频交流

在实时的交流中，POLYCOM、TANDBERG、VCON、SONY等都宣称它们自己的H.264是基于电视会议产品的

播放数字电视

MPEG已经结束了定义MPEG-2H.264流编码内容上的兼容标准

高清DVD（HD DVD）和H.264/MPEG-4 AVC视频存储和播放

3.4.3 视频格式转换

商业软件
开源/免费软件：http://handbrake.fr/

参考文献

<note important> 本节编撰作者(鼓励有兴趣的同学自由撰写，总评成绩可适当加分)：

李宏杰 (3090101558)，编写了本节全部内容

Digital Asset Management 2011

Table of Contents

3 数字媒体格式介绍(2)

3.1 音频格式及编码方法

3.1.1 采样率和比特

3.2 音频压缩

3.2.1 有损压缩vs无损压缩

3.2.2 PCM编码

3.2.3 音频的流特性

3.3 常用音频格式

3.3.1 WAV

3.3.2 WMA

3.3.3 RA

3.3.4 APE

3.3.5 MP3

3.3.6 OGG

3.3.7 MIDI

3.4 视频格式及编码

3.4.1 常见的视频格式

3.4.1.1 AVI

3.4.1.2 RM

3.4.1.3 MOV

3.4.2 视频压缩标准

3.4.2.1 MPEG系列

3.4.2.1.1 MPEG1

3.4.2.1.2 MPEG-2

3.4.2.1.3 MPEG压缩

3.4.2.1.4 MPEG编解码

3.4.2.2 彩色视频编码

3.4.2.3 H.264

3.4.2.3.1 概述

3.4.2.3.2 数字视频标准的主要历史

3.4.2.3.3 H.264编码原则

3.4.2.3.4 H.264的主要技术特点

3.4.2.3.5 H.264的优缺点

3.4.2.3.6 H.264的应用

3.4.3 视频格式转换

参考文献

Digital Asset Management 2011

User Tools

Site Tools

Table of Contents

3 数字媒体格式介绍(2)

3.1 音频格式及编码方法

3.1.1 采样率和比特

3.2 音频压缩

3.2.1 有损压缩vs无损压缩

3.2.2 PCM编码

3.2.3 音频的流特性

3.3 常用音频格式

3.3.1 WAV

3.3.2 WMA

3.3.3 RA

3.3.4 APE

3.3.5 MP3

3.3.6 OGG

3.3.7 MIDI

3.4 视频格式及编码

3.4.1 常见的视频格式

3.4.1.1 AVI

3.4.1.2 RM

3.4.1.3 MOV

3.4.2 视频压缩标准

3.4.2.1 MPEG系列

3.4.2.1.1 MPEG1

3.4.2.1.2 MPEG-2

3.4.2.1.3 MPEG压缩

3.4.2.1.4 MPEG编解码

3.4.2.2 彩色视频编码

3.4.2.3 H.264

3.4.2.3.1 概述

3.4.2.3.2 数字视频标准的主要历史

3.4.2.3.3 H.264编码原则

3.4.2.3.4 H.264的主要技术特点

3.4.2.3.5 H.264的优缺点

3.4.2.3.6 H.264的应用

3.4.3 视频格式转换

参考文献

Page Tools