User Tools

Site Tools

Writing /home/data/cadweb/personal/zhx/DAM/2012/data/cache/4/46a5f277390f80fc02a33165b386bb1b.i failed
Unable to save cache file. Hint: disk full; file permissions; safe_mode setting.
Writing /home/data/cadweb/personal/zhx/DAM/2012/data/cache/4/46a5f277390f80fc02a33165b386bb1b.metadata failed
Writing /home/data/cadweb/personal/zhx/DAM/2012/data/meta/coursenote/006.meta failed

Page: coursenote:006 PDF
Writing /home/data/cadweb/personal/zhx/DAM/2012/data/cache/4/46a5f277390f80fc02a33165b386bb1b.i failed
Unable to save cache file. Hint: disk full; file permissions; safe_mode setting.
Writing /home/data/cadweb/personal/zhx/DAM/2012/data/cache/4/46a5f277390f80fc02a33165b386bb1b.xhtml failed

第六章 数字媒体检索

广义的数字媒体产业,涵盖了高清晰度电视、数字电影、网络游戏、数字动画、网络出版等应用领域,是迅速发展起来的现代服务业方向。数字媒体服务是以音/视频和动画内容及信息服务为主体,研究数字媒体内容处理的关键技术。实现了数字媒体内容的集成与分发,从而支持具有版权保护的、基于各类消费终端的多种消费模式,为公众提供综合、互动的内容服务。数字媒体内容处理技术研究方向包括可伸缩编/解码、音/视频编转码、条目标注、内容聚合、虚拟现实和版权保护等多项技术。对于图像、音/视频检索,需要经过计算机处理、分析和解释后才能得到它们的语义信息,这是当前多媒体检索正在努力的方向。其中一个重要的需求,就是如何对庞大的媒体数据进行有效的索引,以便于创作者有效地提取创作素材,媒体发布平台高效地管理各类数据内容,最终媒体受众便捷地访问所需的热点媒体信息。

本章内容就是围绕数字媒体内容的各类检索技术展开讨论,便于为此领域的从业人员提供一个概貌了解,便于从事此类系统的开发、维护和应用。由于基于内容的媒体检索技术已逐步成熟,所以本章内容主要针对基于内容的媒体内容检索技术,展开相关讨论。

6.1 数字媒体检索的历史发展

6.1.1 基于文本的数字媒体检索

针对这个问题,人们提出了基于内容的多媒体检索方法,利用多媒体自身的特征信息来表示多媒体所包含的内容信息,从而完成对多媒体信息的检索。数字媒体内容的传输应适应多种网络,融合更多服务,满足各类要求。数字媒体具有数据量大、交互性强、需求广泛等特性,要求内容能及时、准确地传输。典型的传输技术研究涉及内容分发网络、数字电视信道、IPTV网络及异构网络互通等。

在 检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工数字媒体资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。

基于文本的模型有四类:布尔模型、聚类模型、矢量模型和概率模型。文本检索的代表有百度、谷歌和雅虎。 布尔 检索就是采用布尔表达式来表示用户提问, 通过对文本标识与用户给出的检索式进行逻辑比较来检索文档。用户表达式是把用户给出的检索词用布尔运算符“∧”(and) ,“∨”(or) 连结起来的式子。

概率检索考虑词与词的相关性, 把文本集中的文档分为相关文档和无关文档。以数学理论中的概率论为原理, 通过赋予标引词某种概率值来表示这些词在相关文档和无关文档之间出现的概率, 然后计算某一给定文档与查询式相关的概率, 系统据此概率作出检索决策。

基于文本的图像检索沿用了传统文本检索技术,回避对图像可视化元素的分析,而是从图像名称、图像尺寸、压缩类型、作者、年代等方面标引图像,一般以关键词形式的提问查询图像,或者是根据等级目录的形式浏览查找特定类目下的图像,如Getty AAT使用近133,000个术语来描述艺术、艺术史、建筑以及其它文化方面的对象,并推出30多个等级目录,从7方面描述图像的概念、物理属性、类型和刊号等。又如Gograph将图像分为动态图像、照片、图标、背景、艺术剪辑图、插图、壁纸、界面、成套图像8个一级类,下设数量不等的子类。在图像数字化之前,档案管理者、图书管理员都是采用这种方式组织和管理图像。 图像所在页面的主题、图像的文件名称、与图像密切环绕的文字内容、图像的链接地址等都被用作图像分析的依据,根据这些文本分析结果推断其中图像的特征。

6.1.2 基于内容的数字媒体检索

随着 计算机技术及网络通信技术的发展,使多媒体数据库的规模迅速膨胀,文本、数字、图形、图像、音频、视频等各种超大规模的多媒体信息检索十分重要。对于图像检索和音/视频检索,需要经过计算机处理、分析和解释后才能得到它们的语义信息,这是当前多媒体检索正在努力的方向。针对这个问题,人们提出了基于内容的多媒体检索方法,利用多媒体自身的特征信息(如图像的颜色、纹理、形状、视频的镜头、场景等)来表示多媒体所包含的内容信息,从而完成对多媒体信息的检索。

搜索引擎是目前最重要的网络信息检索工具,市场上已有许多成熟的搜索引擎产品。但是目前的搜索引擎没有考虑用户的兴趣和爱好,搜索出的信息量庞大,经常将与用户兴趣不相关的文档提交给用户。这种现象的发生主要是由于用户所提交的关键词意义不够精准造成的,或者是由于搜索引擎对文档发现和过滤的能力有限造成的。目前的搜索引擎普遍在用户界面、搜索效果、处理效率几个方面存在不足:

  1. 过分强调查全率,忽视了查准率的提高。
  2. 搜索引擎的查询接口缺乏统一的标准,这使得用户在使用不同的搜索引擎时经常采用不同的检索策略,增加了用户检索的负担。
  3. 搜索引擎工作检索机能尚不能满足用户的需求。如何处理如此繁重的任务并提高处理效率,是一个优秀的搜索引擎必须要考虑的问题。

在对数字媒体进行分析以及检索时,首先从数字媒体数据流中提取特征,之后对数据进行行分段、识别、归类和聚合操作,最后标注及检索。基于内容的数字媒体检索包括基于图像的检索、基于视频的检索、基于音频的检索和基于图形的检索。

6.1.3 基于语义的数字媒体检索

。。。

6.2 基于内容的图像检索

基于内容的图像检索,即CBIR(Content-based image retrieval),是计算机视觉领域中关注大规模数字图像内容检索的研究分支。基于内容的图像检索的研究还涉及了图像处理(Image Processing)、图像检索(Image Retrieval)等多个研究领域。 基于内容的图像检索方法,其基本概念于1992年由T. Kato提出的。他在论文“Query by Visual Example - Content based Image Retrieval”中构建了一个基于色彩与形状的图像数据库,并提供了一定的检索功能进行实验。此后,基于图像特征提取以实现图像检索的过程以及CBIR这一概念,被广泛应用于各种研究领域,如统计学、模式识别、信号处理和计算机视觉。

基于内容的图像检索的研究已发展近20年,相关处理技术已日趋成熟。在实际需求的推动下,几大互联网公司包括Google、百度、微软等都已基于已有的搜索引擎平台,提供了基于内容的图像在线搜索产品,例如Google的Similar Images,以及百度识图等。

6.2.1 方法流程

CBIR方法的核心是:使用图像的可视特征对图像进行检索。本质上讲,它是一种近似匹配技术,融合了计算机视觉、图像处理、图像理解和数据库等多个领域的技术成果,其中的特征提取和索引的建立可由计算机自动完成,避免了人工描述的主观性。用户检索的过程一般是提供一个样例图像(Queryby Example) 或描绘一幅草图(Queryby Sketch) ,系统抽取该查询图像的特征,然后与数据库中的特征进行比较,特征相似的图像返回给用户。图片数据库中的特征提取通常为离线自动处理,生成颜色、贴图和结构等元数据,存入内存,做特征权重和相似度排序处理,以供用户检索匹配并将与查询。具体流程如下所示:

插入图像

目前,基于内容的图像检索的研究主要集中在特征层次上,根据图像的低层可视内容特征,如颜色、纹理、形状、空间关系等,建立图像的索引,计算查询图像和目标图像的相似距离,按相似度匹配进行检索。该检索技术从提出到现在,在国内、外已经取得了不少研究成果,开发了许多基于内容的图像检索原型系统。其中,具有代表性的系统有QBIC、VisualSeek、MARS、Virage等。

基于内容的图像检索可在低层视觉特征和高层语义特征两个层次上进行,其中,基于低层视觉特征的图像检索,是利用可以直接从图像中获得的客观视觉特征,通过数字图像处理和计算机视觉技术得到的图像的内容特征,如颜色、纹理、形状等,进而判断图像之间的相似性;而图像检索的相似性则采用模式识别技术来实现特征的匹配,支持基于样例的检索、基于草图的检索或者随机浏览等多种检索方式。利用高层的语义信息进行图像检索是研究和发展的热点。

6.2.2 图像特征提取

图像特征提取分为两类,第一类针对低层视觉,其内容主要包括颜色、形状、纹理等;第二类针对语义内容,它包含高层的概念级反应,需要对物体进行识别和解释,往往要借助人类的知识推理。由于目前计算机视觉和图像理解的发展水平所限,使得CBIR还无法真正支持基于语义的图像检索,所以目前研究得较多也比较成熟的检索算法大部分是基于图像的低层特征的,即利用图像的颜色、纹理、形状等特征来检索。提取后的图像特征数据需要经过索引、降维等处理。首先,图像由特征向量表示,而这些特征向量一般都是高维向量, 在庞大的图像数据库中,对高维向量进行顺序比较的过程是相当费时的。在实际应用过程中, 为了让基于CBIR的图像检索系统能够真正适合大型的图像数据库,提高检索效率,尽可能减少查询时的特征矢量比较时间,往往将降维技术和多维索引技术结合起来。

图像颜色特征

颜色特征是应用最为广泛的可视特征,主要用来分析图像的颜色分布,包含颜色直方图、颜色矩、颜色集合、颜色聚类矢量和颜色相关图。颜色直方图是最简单也是最常用的颜色特征,描述了图像颜色的统计分布特性,具有平移、尺度、旋转不变性。其核心思想是在颜色空间中采用一定的量化方法对颜色进行量化,然后统计每一个量化通道在整幅图像中所占的比重。如下图所示:

插入图像

颜色矩(color moments)是图像的总体统计特征,一般应用到其它图像特征以有效缩小寻找范围。颜色矩是在颜色直方图的基础上计算出每个颜色通的均值、方差、偏差,其中:

  • 一阶中心矩,即均值(mean),其计算公式为 μ_i=1/n ∑_(j=1)^n I_ij
  • 二阶中心矩,即方差(variance),其计算公式为 o_i^2=1/n ∑_(j=1)^n (I_ij-u_i)^2
  • 三阶中心矩,即偏度(skewness),其计算公式为 S_i^3=1/n ∑_(j=1)^n (I_ij-u_i)^3 。

在许多实际系统,常采用这类统计量来衡量颜色的分布,从而表示颜色特征。颜色矩的特点是特征量少,处理简单。一个简单的5×5灰度示例如下图所示。

插入图像

颜色相关图的主要思想是用颜色对相对于距离的分布来描述信息,它反映了像素对的空间相关性,以及局部像素分布和总体像素分布的相关性。其特点是容易计算,特征范围小,区分效果好。

适当扩写

颜色一致性矢量本质上是一种引入空间信息改进的直方图算法,统计了图像中各颜色最大区域的像素数量。通过分离开一致性像素和非一致性像素,比直方图算法具有更好的区别效果。

适当扩写

图像纹理特征

纹理是图像的重要特征之一,通常定义为图像的某种局部性质,或是对局部区域中像素之间关系的一种度量,其本质是刻画像素的邻域灰度空间分布规律。纹理特征描述方法大致可以分为四类:统计法、结构法、模型法、频谱法。 纹理是图像的视觉特征,表现了图像表面的齐次现象。纹理与颜色或亮度无关,是物体表面的本质特征。最主要的纹理特征有:Tamura纹理特征,自回归(self-regression)纹理模型,基于图像变换的纹理特征,如DWT(离散小波变换),DFT(离散傅里叶变换),Garbor 过滤器等。

1) 统计法 统计法分析纹理的主要思想是通过图像中灰度级分布的随机属性来描述纹理特征。最简单的统计法是借助于灰度直方图的矩来描述纹理,但这种方法没有利用像素相对位置的空间信息。

为了利用这些信息,Haralick 等人提出了用共生矩阵来表示纹理特征。该方法研究了纹理的空间灰度级相关性,构造出一个基于图像像素间方向和距离的共生矩阵,并且从矩阵中提取出反差、能量、熵、相关等统计量作为特征量表示纹理特征。

Tamura 等人基于人类视觉的心理学研究后提出了一些不同的方法来描述纹理特征,给出了几个不同的描述纹理特征的术语:粗糙度(Coarseness) 、对比度(Contrast) 、方向(Directionality) 、线性度(Linelikeness) 、规则度(Regularity) 、粗略度(Roughness) 等。Tamura 纹理和共生矩阵表示的主要区别在于:前者的所有纹理属性都是视觉意义上的,而后者的某些纹理属性不具有视觉意义(如信息熵) 。这一特点使得Tamura 的纹理表示在图像检索中使用得较多。QBIC 和MARS都进一步证明了这种表示方法。

Tamura纹理特征是基于人们对纹理的视觉感知心理的表达,有六个属性:粗糙度、对比度、方向度、线相似度、规整度和粗略度。其中,对于粗糙度的计算,第一步计算窗口在每个像素点处形成平均颜色强度值:

A_k (x,y)=∑_(i=x-2^(k-1))^(x+2^(k-1)-1) ∑_(j=y-2^(k-1))^(y+2^(k-1)-1)〖I(i,j)/2^2k 〗,

如果是比较粗糙的纹理则设置较大的窗口尺寸值,如果是比较精细的纹理,则设置较小的窗口尺寸。如下图所示:

主要介绍粗糙度、对比度、方向度三者的算法,需要插入图示

2) 结构法 结构法分析纹理的基本思想是假定纹理模式由纹理基元以一定的、有规律的形式重复排列组合而成,特征提取就变为确定这些基元并定量分析它们的排列规则。Carlucci曾提出一个使用直线段、开放多边形和封闭多边形作为纹理基元的纹理模型,其排列规则由一种图状语法结构定义。Lu and Fu给过一种树型语法结构表示纹理,他们将纹理按照9 ×9 的窗口进行分割,每个分解单元的空间结构表示为一棵树。因为实际的纹理大都是无规则的,因此结构法受到很大限制。

3) 模型法 模型法利用一些成熟的图像模型来描述纹理,如基于随机场统计学的马尔可夫随机场、子回归模型,以及在此基础上产生的多尺度子回归模型(MultiResolution Simultaneous Autoregressive, MRSA) 等。这些模型的共同特点是通过少量的参数表征纹理。MRSA区分不同纹理模式的能力较强,但同时计算开销也较大。

4) 频谱法 频谱法借助于频率特性来描述纹理特征,包括傅里叶功率谱法、Gabor 变换、塔式小波变换( Pyramid Wavelet Transform ,PWT)、树式小波变换( Tree Wavelet Transform,TWT)等方法。Manjunath and Ma实验指出, Gabor 特征提供了最佳的模式检索精度,检索性能优于TWT 和PWT,略微优于MRSA ,缺点是计算速度慢,其旋转不变性和尺度不变性仍有待讨论。 傅立叶变换就是在一个新的基准上重现函数,将函数作为一个多维向量,对每点做线性转换,公式为:

F(g(x,y))(u,v)=∬_(R^2)〖g(x,y)e^(-i2π(μx+vy)) dxdy〗,

此表达式中u、v选择基准元素,于是x、y的函数转换成了u、v函数。 基准元形式为e^(-i2π(μx+vy)),如下图所示:

插入公式

在二维灰度图像情形,离散傅立叶变换(Discrete Fourier Transform,DFT)为

插入公式

对应的离散傅立叶逆变换(Discrete Fourier Transform,2D DIFT)为

插入公式

研究者为离散傅立叶变换设计了快速变换算法,可以高效地处理各类音视频数据。

经过傅立叶后,获得了图像频域特征分解,因为它是一个复数,可以进一步分解为角度特征(方向属性)和径向特征(粗糙度属性)。。。

傅立叶系数是基于整张图片的,这会失去图像的部分空间信息,为了得到本地空间序列分析,我们使用Gabor纹理。Gabor纹理核心内容是在类似于傅里叶变换的基础上叠加高斯变换,是带定向正弦波的均衡高斯变换的乘积,均衡与非均衡Gabor滤波器共同使用,且每对恢复均衡化与反均衡化组成都在一个特定方向上。我们需要应用多种不同比例、不同方向、不同空间频率的Gabor滤波器。如下图所示,其中(K_x,K_y)表示该滤波器空间频率的反应强度,σ是滤波器的尺寸,当σ=∞时,与傅立叶变换近似。

插入公式

小波变换Wavelet特征使用含递归过滤、二次取样的一套基本函数的特征分解,每个层次将2D信号分解成4个子块:LL、LH、HL、HH(L=Low,H=High),如下图所示。

插入图示

Wavelet特征有PWT和TWT两种,PWT(Pyramid-structured Wavelet Transform即“金字塔结构的小波变换”)递归分解LL区块,其特征维度为(3x3x1+1)x2=20;TWT(Tree Wavelet Transform,即“树式小波变换”)的一些信息存储在中间频率通道,其特征维度为40×2=80,图例如下。

通过使用Corel Photo图表,我们得到了大量的基于不同范围相关图像不同纹理特征的检索结果,如下图所示。

插入图示,需要引用论文原图

图像形状特征

形状特征是基于物体分割或区域计算获得的,主要包括轮廓特征和区域特征,典型的获取方法有傅立叶形状描述和不变矩。 基于区域的描述符与基于数量的描述符的对比如下图所示,列代表轮廓相似度,是外轮廓线条;行代表区域相似度,是像素的分布。

插入图示,需要引用论文原图

基于区域的描述符是在2D目标区域中的像素分布表述,采取一个复杂的2D角度径向变换,具有角度和尺寸不变性,对一些非刚性的变换有鲁棒性。基于区域的描述符的优势在于,可以用来描述带有不连通区域的复杂形状,对分隔的噪音有鲁棒性,尺寸小,抽取迅速并且匹配度高。

基于轮廓的描述符依据的是曲率尺寸空间(CSS,Curvature Scale-Space)表达,在商标识别(Zernike moments)、ART、傅立叶变换、转角(Turning angles)和wavelets中有较好的应用。同基于区域的描述符一样,基于轮廓的描述符也具有角度和尺寸不变性,对一些非刚性的变换有鲁棒性。

6.2.3 图像特征降维

在图片检索系统中,不断增加的特征维度可以增强检索的准确性,但是,高维特征也导致较高的计算损耗,因此降低特征数据的冗余度至关重要。

图像 特征降维的方法依据索要处理的数据属性类型的不同,可分为线性降维技术(如PCA等)和非线性降维技术(包括基于核思想的降维方法,如KPCA核主成分分析、KICA核独立成分分析和KFDA核FISHER判别分析。基于流行学习的方法,如LLE局部线性嵌入和ISOMAP等)。

主成分分析 (Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。

相对 基于指标的PCA,KPCA是基于样本的。KPCA不仅适合于解决非线性特征提取问题,而且它还能比PCA提供更多的特征数目和更多的特征质量,因为PCA可提供的特征数目与输入样本的数目是相等的,而后者的特征数目仅为输入样本的维数。KPCA的优势是可以最大限度地抽取指标信息:但是KPCA抽取指标的实际意义不是很明确,计算也比PCA复杂。

6.2.4 图像相似度匹配

图像特征往往能组成一个固定长度的特征向量,因此图像相似度可由欧几里得距离、直方图交、平方距离、马氏距离和非几何相似度计算得出。大多数现存图像检索系统往往包括随机浏览、分类浏览等功能特征。

从图像中提取的特征可以组成一个向量,两个图像之间可以通过定义一个距离或者相似性的测量度来计算相似程度。

特征匹配是图像检索的一个关键环节,具有特征依赖的特点,不同的特征应该采用不同的度量方法。在检索的过程中,根据系统相似性度量的算法计算查询特征与特征库中对应的每组特征的相似程度,把所得结果由大到小排序后得到一个匹配图像序列返回给用户。其间可以通过人机交互,对检索的结果逐步求精,不断缩小匹配集合的范围,从而定位到目标。匹配过程常利用特征向量之间的距离函数来进行相似性度量,模仿人类的认知过程,近似得到数据库的认知排序。常用的距离度量公式有:Minkkowsky距离,Manhattan距离,Euclidean距离,加权Euclidean距离,Chebyshev距离,Mahalanobis距离等。

其中,Manhattan距离计算简单,效果也较好,被广泛采用;加权Euclidean 距离考虑了不同分量的重要性,也较为常用;Mahalanobis 距离考虑了样品的统计特性和样品之间的相关性,在聚类分析中经常用到。当采用综合特征进行检索时,需要对各特征向量进行归一化,以使得综合特征的各特征向量在相似距离计算中地位相同。

6.2.5 未来发展趋势

图像检索在人机交互、语音识别、网页方向、高维数据、多媒体通道、图像特征映射、性能测试标准、测试集构建等方面都会有很好的应用。基于 内容的图像检索研究极大地推动了图像检索技术的发展,因为它通过直接分析图像内容(例如,颜色、纹理、形状等)获得图像的视觉数字特征,与文本特征相比较,它的优点在于:(1)特征计算是自动的;(2)检索过程中使用的特征信息总是一致的,从而避免了人工标注的劳动量和不一致性。

然而,人们判断图像的相似性并非仅仅建立在图像视觉特征的相似性上。实际上,图像检索系统的用户往往事先对所需的图像存在一个大致的概念,这个概念建立在图像所描述的对象、事件以及表达的情感等含义上。理想的状况下,用户主要根据返回图像的含义,而不是颜色、纹理、形状等特征,直观地进行分类并判别图像满足自己需要的程度。这些图像的含义就是图像的高层语义特征,它包含了人对图像内容的理解,这种理解是无法直接从图像的视觉特征获得的,而要根据人的知识来判断。人与计算机的本质的不同在于人观察图像时结合了日常生活中积累的大量经验,观察图像的过程同时也是一个利用知识推理图像语义的视知觉过程。

可见,跨越图像低层视觉特征和高层语义特征的“语义鸿沟”,在图像理解和相关领域知识指导下的基于语义的图像检索技术能更好地满足人们的需求,它代表着图像检索的发展方向。

6.3 基于内容的音乐检索

由于音乐本身的特点,音乐检索不同于一般的音频检索,更不同于传统意义上的文字检索。目前的音乐检索方式大多是基于文本的,即根据乐曲的名字、作曲者、词作者、演唱者、国别、时间、文件格式、分类、调号、演奏乐器等人工的标注进行检索。面对不断增长的海量资源与人们对音乐检索的高标准,基于内容或是旋律甚至是基于情感的音乐检索不断得到关注。 这个问题交叉性强, 所涉及的内容广泛,综合性强,涉及计算机科学、信息科学、声学、乐理学、心理学等等。

基于内容的音频检索(CBMR)即用声音的内容为根据,做音乐的检索,使用户可以用自然的方式点选歌曲,例如百度的音乐搜索。 作为一种重要的媒体资源,音乐的检索对于音乐数据库和数字图书馆建设有着非常重要的意义。网络上多媒体资源量非常巨大,人们需要高效的搜索引擎从浩如烟海的数据中找出需要的音乐资源。另外,音乐检索在卡拉OK检索以及辅助视频检索等方面都有广阔的研究前景和巨大的应用价值。

6.3.1 音乐检索系统架构

在基于内容的音乐检索实用系统中,主要采用用户哼唱作为检索信息,然后系统在后台音乐库中匹配相似内容,传回前台。其基本系统架构和处理流程如下。首先,后台系统会对海量的音乐数据库各个音乐内容做批量的处理,从中提取各首音乐的特征,建立特征数据库。然后,当用户在线输入的对比内容,例如用户哼唱一个乐曲片段;前台程序可提取该片段内容的音乐特征。这样,所输入的音乐特征,会传回后台处理系统,与音乐库中各首音乐的特征进行匹配,得到它们之间的近似度。最后,根据近似度,从高到低地从音乐库中提取与输入音乐最接近的若干首音乐,作为检索结果。基本系统架构和流程图像,如下图所示。

6.3.2 音乐特征提取

音频特征主要分时域特征(Time-Domain Features)和频域特征(Frequency-Domain Features)两种。时域特征包含平均能量(Average Energy)、过零率(Zero Crossing Rate)和静音比(Silence Ratio)。频域特征包括声谱(Sound Spectrum)、带宽(Bandwidth)、能量分布(Energy Distribution)、谐度(Harmonicity)和音高(Pitch)。

时域特征

一个音频信号的振幅表达如下:

平均能量表示音频信号的响度,公式为 。

过零率表示音频信号振幅变化的频率,公式为 , 。

静音比表示声音片段静默的部分。静音是绝对振幅值在某一阈值下的样本端,是静音区间和整个音长的比率。如下图所示,

频域特征

音频声谱如下所示,将音频信号截断成帧,并使用离散傅里叶变换(DFT)和逆离散傅里叶变换(IDFT)对音频进行处理。

带宽表示声音的频域,可分高频和低频,“非零”可定义为至少高于静音水平线3dB。能量分布表示信号在频域上的分布,其中最重要的一个点叫形心(centroid),是声音能量谱分布的中心点。

在和谐(harmonic)的声音中,图谱组成通常是最低频率的整数倍,最低频率被称作基础频率(fundamental frequency)音乐通常比其他声音更和谐。

音高指人耳对声音调子高低的主观感觉。主要取决于频率的高低与响度的大小。我们取基础频率作为音高的近似表示。

6.3.3 音乐资料库检索系统

基本实现框架

实现技术

6.4 基于内容的视频检索

随着信息技术的迅速发展和普及,以视频为代表的多媒体数据呈现出爆炸性增长,如何在海量的视频信息中检索出需要的视频片段成为一个迫切需要解决的难点问题。传统的基于关键字的检索方法显然已经不能适应多媒体技术的发展和人们的需求。因此,近年来基于内容的视频检索技术( Content-Based Video Retrieval ,CBVR) 成为国内外学者研究的热点。

所谓CBVR就是根据输人视频的内容及上下文语义环境进行检索。这是一门交叉学科,以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础,从认知科学、人工智能、数据库管理系统及人机交互、信息检索等领域,引入新的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。

近年来视频处理和检索领域的研究方向和激战,主要针对以下3个问题:(1) 分隔:时间上确定视频的机构,对视频进行不同层次的分割,如镜头分割、场景分割、新闻故事分割等。(2) 高层语义特征提取:对分割出的视频镜头,提取高层语义特征。这些高层语义特征用于刻画视频镜头以及建立视频镜头的索引。(3)视频检索:在事先建立好的索引的基础上,在视频中检索满足用户需求的视频镜头。用户的需求通常由文字描述和样例(图像样例、视频样例、音频样例)组合构成。

6.4.1 视频结构

图像是静态的,视频是动态的,且视频流可以看做是图像帧的序列,典型的视频网站有YouTube、优酷、土豆等。 为了对视频数据库进行基于内容的查询,首要要构造便于检索的视频结构,视频数据可分为场景(Scene)、镜头组(Group)、镜头(Shot)、关键帧(Key frame)、帧(Frame)。

一个视频序列可以是多个视频场景来构成,一个视频场景又是由多个镜头构成,而镜头是有帧构成。镜头是指摄像机从打开到关闭的过程中记录下来的一组连续图像帧。镜头边界是客观存在的,可以采用一定的方法自动检测镜头边界。在实际应用中,用户浏览一个镜头中所有图像帧是非常耗时的,因此常用关键帧技术实现快速浏览。关键帧是指代表镜头中最重要的、有代表性的一幅或多幅图像。依据镜头内容的复杂程度,可以从一个镜头中提取一个或多个关键帧或构造一个关键帧。为了在语义层建立视频结构模型,需要对视频进行场景划分。场景定义为语义上相关、时间上相邻的一组镜头,它们能够表达视频的高层次概念或故事等。镜头是组成视频的基本物理单位,而场景(又称故事)则是视频在语义层的单位,通常只有场景才能向观看者传达相对完整的语义。镜头组是一组在时间上相邻并在内容上相似的一组镜头,它是界于镜头和场景之间的一组连续的物理实体,是联系镜头和场景的桥梁。节目则是由时间上有序的场景组成,例如新闻节目、娱乐节目、体育节目、天气预报等。

视频结构化分析是指对视频流进行镜头分割、关键帧提取和场景分割等处理,从而得到视频的结构化信息。 镜头分割的关键在于确定镜头的边界,现有镜头分割方法多以视频内容的不连续性为划分镜头的依据。研究者们通常选取视频的某种特征来度量视频内容的不连续性,如颜色特征、运动矢量特征、边缘特征等。渐变镜头边界的检测目前仍然是一个具有挑战性的课题。 由于同一个镜头中的各帧图像之间的内容有相当程度的冗余,因此可以选取反映镜头中主要信息内容的帧图像作为关键帧。镜头分割后,对每个镜头可提取若干关键帧,并用关键帧来简洁地表示镜头。

场景分割目标在于获取视频的最小语义结构单元——场景。一般而言,场景是由一组连续的、同属于一个故事单元的多个镜头组成。通过融合视频的文本、声音等信息对已分割出的镜头进行聚类,将内容相近的连续镜头合并为一个单元组,从而得到场景信息,为进一步进行视频内容分析提供基础。

6.4.2 视频检索系统架构

在基于内容的视频检索中, 一般首先将视频序列分割为镜头,并在镜头内选择关键帧,然后提取镜头的动态特征与关键帧的静态特征并存入视频数据库,根据这些特征进行视频的索引。最终,户可以通过一种简单方便的方法浏览和检索视频。下图内容的视频检索系统框图。

插入图像

基于内容的视频检索(CBVR)是根据视频的内容和上下文关系,对大规模视频数据库中的视频数据进行检索。它提供一种算法在没有人工参与的情况下,自动提取并描述视频的特征和内容。目前基于内容的视频检索研究,除了识别和描述图像的颜色、纹理形状和空间关系外,主要的研究集中在视频分割,特征提取和描述(包括,视觉特征、颜色纹理和形状及运动信息和对象信息等)关键帧提取和结构分析等方面。

镜头分隔

镜头分隔是实现基于内容视频检索的第一步,它是通过对镜头切换点的检测找出连续出现的两个镜头之间的边界,把属于同一个镜头的帧聚集在一起的过程。镜头切换主要有突变和渐变两种方式,突变是指一个镜头与另一个镜头之间没有过渡,由一个镜头瞬间直接转换为另一个镜头的方法; 渐变是指一个镜头到另一个镜头渐渐过渡的过程,主要包括: 淡入淡出溶解和扫换等。

突变镜头切换的相邻两帧之间差别很大(密度/RGB/运动向量),所以无论在像素域还是压缩域,检测突变的方法都比较成熟,检测成功率也高。而镜头渐变切换时相邻两个帧之间的差别不是很大,并且帧间结构上具有相关性,使得渐变检测有一定难度。此外,由于由快速/慢速的物体运动,动画,频闪,消失,画面交接,分解等产生错误的检测,也会导致检测正确率很低。

镜头边界检测典型方法包括模板匹配法,直方图法,基于边缘的方法和基于模型的方法等。此外,还有颜色柱状图法,域中系数法,运动矢量法以及基于多维空间仿生信息学理论的方法等。镜头边界检测作为视频检索的第一步具有重要意义,其结果将对整个视频检索结果产生直接的影响。

逐对比较(pair-wise comparison)法是较为经典的视频分隔方法。该方法在像素级别上对相机的移动很敏感,在区块级别上允许微小运动。具体公式如下:

插入公式

为了提高分割精度和对视频种运动对象的识别,研究者又提出了视频分割的直方图比较法。直方图比较法对运动的容忍度更高,颜色层同样可用,但仅最高有效位可以存储柄数(???)。

插入公式

域中系数法(Twin-comparison)使用Tb和Ts两个临界值去适应短期和长期的过渡。伪代码如下,其中Fs为潜在的过渡起始帧,Fe为过渡结束帧,Fi为第i帧。

插入公式

当选择临界值Tb和Ts时,帧间差值的分布在最小值附近有一个高峰,它是由噪声引起的,而不是变换,并且遵循高斯分布(μ,σ)。Tb的选择根据公式 Tb = μ + ασ, 在下例中α∈[5, 6],Ts的值比平均差值大且在M的右边斜面上,Ts ∈[8, 10]。

浏览所有帧在计算上很困难,暂时跳过一些帧是很有用的,比如每隔10帧取一帧,这样更利于检测一般的过渡,但这样也可能会错过镜头暂停(camera break)或得到错误的检测(距离增加)。于是我们使用Multi-pass的方法,首先采用较大的跳跃因子(large skip factor)和较小的Tb,运用pair-wise或直方图法,来获取潜在范围,其次,两种方法结合使用,提升信心度来搜寻候选范围。

关键帧提取

视频关键帧提取,一个镜头包含大量信息,在视频结构化的基础上,依据镜头内容的复杂程度选择一个或多个关键帧代表镜头的主要内容,因此关键帧( 或关键帧序列) 便成为对镜头内容进行表示的手段关键帧的选取方法很多,比较 经典的有镜头边界法(选取镜头中的首帧和末帧),颜色特征法(首帧为关键帧,其后比较与前面关键帧的颜色差异),运动分析法(分析相机运动)和聚类分析法。其中聚类分析法首先需设定阈值,选定初始n个关键帧位置。第二步,按照到关键帧的最小距离重新划分。第三步,指定每一聚类的中心帧为新的关键帧,如果与上次划分区别不大则停止,否则重复后两步。

视频特征提取

对于不同级别的视频单元,所提取的特征也是不同的。在场景层次上,提取故事情节;对于镜头视频检索的最小单位,提取运动对象基本信息(定位形状)及视频的运动信息(对象运动摄像机运动);在关键帧层次上,提取颜色、纹理、形状、语义等低级特征。纵观现有的特征提取方法,有自动方式和手动方式两种。提取低级特征比较简单,往往可以全自动的进行,而高级语义特征的提取难度相当大,需要更多的人工交互。

较常用的特征大部分建立在镜头级上,当视频分割成镜头后,就要对各个镜头进行特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频检索的依据。 视频数据的特征分为静态特征和动态特征。静态特征的提取主要针对关键帧,可以采用通常的图像特征提取方法,如提取颜色特征纹理特征形状和边缘特征等。

动态特征也称为运动特征,是视频镜头的重要特征,是反映视频变化的重要信息传统的获取视频运动特征的方法是运动估计,通过匹配算法估计出每个像素或区域的运动矢量,作为视频的运动特征。典型方法有像素域运动估计,首先估计出图像中每个像素点的运动矢量,然后取主运动矢量为全局运动矢量。像素域运动估计算法虽然结果很好,但针对该方法计算量大效率低的问题,衍生出很多种快速算法,如块匹配运动估计、可变形块匹配以及分层块匹配估计等。运动对象的轨迹也是常用的运动特征之一,它描述了视频对象的运动过程,通过从视频序列中抽取运动信息及其轨迹来提取视频特征。此外,还有基于运动建模的视频运动特征等等。然而仅靠运动信息对一般的视频数据实现较好的检索还有一定困难,在实际应用中需结合其他的特征,才能达到比较满意的检索效果。

视频搜索引擎效率提升方法

高效的索引技术是基于内容的检索在大型数据库中发挥优势的保证。索引技术随着数据库的发展而发展, 提高索引效率有缩减特征向量的维度和聚类索引算法两种方法, 针对图像检索需要3个步骤: (1) 进行维度约减; (2) 对存在的索引方法进行评价;(3)根据评价定制自己的索引方式。目前多维索引技术研究较多的是聚类和神经网络。

聚类就是按照一定的要求和规律对事物进行区分和分类的过程,在图像数据库中,聚类就是在研究大量图像特征的基础上通过学习产生出类别,然后按次类别对图像进行分类。它的优势就是可以动态地进行图像分类, 而且可以有效地降低维度和查询范围, 提高查询效率。常用的聚类算法有分割算法、层次算法、基于密度的方法、基于网格的方法和基于模型的方法.分割算法是将n个目标划分到k个聚类中去, k为输入的参数。首先选择k个代表点,其余目标根据到各类代表点的距离划分到k个聚类中;然后用每个类的中心(k-means算法)或离中心最近的点(k-medoid 算法)代表这个聚类, 将目标重新分割,这一过程迭代进行,直至收敛。这个算法简单、有效,但要先确定类的数目, 即初始类别数和初始聚类中心要预先设定,这些初始参数将直接影响最后的聚类结果;分割算法适用于聚类为凸形状和各类相距较远且直径相差不多的情况, 否则可能产生错误的分割。层次算法将数据集分解成树状图, 即循环地将数据集分裂成子集, 直到每个子集只包含一个目标。树状图可采用分裂或合并的方法构建。层次算法不像分割算法那样需要聚类数这个参数,但需要定义停止条件。层次算法的难点在于最优停止条件难以确定, 同时也难以处理聚类形状复杂的情况。

6.4.3 视频检索系统应用

6.5 小结

coursenote/006.txt · Last modified: 2014/05/22 08:20 (external edit)