User Tools

Site Tools


coursenote:013

第13课. 数字媒体检索介绍

传统检索检索方式:基于文本

代表搜索引擎:Google/Baidu/Yahoo/Bing等

工作原理:利用网络蜘蛛搜索链接,抓取内容,提取链接进行再度搜索,理论上可以遍历所有网页。为数据内容创建索引存于服务器上。

新兴发展的检索方式:基于多媒体内容

代表搜索引擎:Google

技术原理:按图搜索:用户上传图片,Google会先提取图片特征信息,依靠超大规模并行、实时的图像特征匹配,反馈查询结果。

按音乐搜索:音乐特征提取算法

13.1.0 数字媒体检索的主要方法

  • 基于文本的数字媒体检索

  • 基于内容的数字媒体检索

13.1.1 基于内容的数字媒体检索

  • 基于多媒体数据实例查询
  • 示例:The GNU Image-Finding Tool

http://www.gnu.org/software/gift/

13.2.0 数字媒体分析以及检索的工作流程

  • 1.数字媒体数据流
  • 2.发现特征{x1,x2….xn}
  • 3.数字媒体数据分段
  • 4.识别、分类、聚类
  • 5.标引以及检索

13.3.0 基于内容的图像检索工作流程

  • 1.图像输入
  • 2.找到特征
  • 3.相似度测量
  • 4.识别、分类、聚类
  • 5.标引以及检索

13.3.1 图像的特征

  • 找出图像的特征是图像检索的关键

基于图像的检索经常需要预先构造图像的特征数据库

  • 主要的图像特征:
    1. 颜色特征
    2. 纹理特征
    3. 形状特征
    4. 空间关系特征

13.3.2 图像的颜色特征

  • 颜色特征是应用最为广泛的可视特征,主要用来分析图像的颜色分配
  • 包括:
    1. 颜色直方图
    2. 颜色矩
    3. 色彩集
    4. 颜色聚类矢量
    5. 颜色关系图

13.3.3 图像的形状特征

  • 形状特征计算基于对象的段或一部分区域主要包括
    1. 轮廓特征
    2. 区域特征
  • 典型方法包括
    1. 傅里叶形状描述
    2. 不变矩阵

13.4.0 图像检索相

13.4.1 基于颜色特征检索

  • 将RGB转为HSV
  • 全部和部分图像的LSI矩阵直方图

13.4.2 一个基于内容的图像检索几何视图

13.5.0 图像相似度

不同图像怎样测量基于特征的相似度

  • 图像特征总是形成一固定长度的特征向量
  • 因此相似度可以衡量于
    1. 欧氏距离
    2. 直方图交集
    3. 二次距离
    4. 马氏距离
    5. 非几何相似

13.6.0 实用的图像检索系统

13.6.1 实用的图像检索系统

  • 现有的图像检索系统都有以下一到多个功能
    1. 随机检索
    2. 分类检索
    3. 元数据检索
    4. 基于实例的检索
    5. 基于草图的检索
    6. 基于纹理的检索
    7. 基于颜色的检索

13.7.0 音乐检索技术

2333.jpg

13.7.1 基于内容的音乐检索

  • 说明: 用声音内容为依据,做音乐检索
  • 目的:让使用者可以用自然的方法点选歌曲

http://www.soundhound.com/

  • 困难:使用者的节奏,快慢不同,拍子不准,音调高低不同

若允许使用者从歌的任意处唱,计算量会很大

13.7.2 基于内容的音乐检索流程图

13.8.0 主要音频特征

  • 时域特征
    1. 平均能量
    2. 过零率
    3. 沉默比
  • 频域特征
    1. 声谱
    2. 带宽
    3. 能量分布
    4. 调和性
    5. 音高

13.8.1 时域特征

  • 振幅和时间代表着一段音频信号
  • 平均能量: 指的是这段音频的音量
  • 过零率:指的是音频信号振幅变化的频率
  • 沉默率:指的是静默的声音片段所占的比例

13.8.2 频域特征

  • 声谱
  • 带宽:指的是声音的频率范围
  • 能量分布
  • 调和性
  • 音高

13.9.0 音乐检索的相关研究

2332.jpg

13.9.1 前人的方法

  • 克服节奏快满不同的问题
  • 克服音调高低不同的问题
  • 全曲比对费时很久且准确率低
  • 使用浮点数运算

13.9.2 Dynamic Time Warping

  • x轴为歌声的中介格式向量,y轴为资料库某一首歌的中介格式向量
  • 计算他们之间距离,取最小值,进行配对
  • 从头比对和全曲比对的区别

13.9.3 DTW的改进方法

  • 改进方法一
    1. 改用整数运算
    2. 改良式DTW
  • 改进方法二
    1. 将资料库中的每一首歌的中介格式,从每一个音符为起点切成数个长度为D=72的片段
    2. 用两阶段的方法比对:第一阶段为线性伸缩比对,第二阶段为DTW

<note important> 本节编撰作者(请大家在这里报到):

  • 虞开元 (3090104025) 更新了:13.1 & 13.6
  • 徐昕 (3090104032) 编写了:13.1.0-13.8.0
  • 胡波 (3090104031) 编写了:13.8.1-13.9.3
  • 黄梁 (3090104026) 更新了:13.6-13.9

浙江大学2008-2011版权所有,如需转载或引用,请与 作者联系。 </note>

coursenote/013.txt · Last modified: 2015/11/13 08:49 (external edit)