第13课. 数字媒体检索介绍
传统检索检索方式:基于文本
代表搜索引擎:Google/Baidu/Yahoo/Bing等
工作原理:利用网络蜘蛛搜索链接,抓取内容,提取链接进行再度搜索,理论上可以遍历所有网页。为数据内容创建索引存于服务器上。
新兴发展的检索方式:基于多媒体内容
代表搜索引擎:Google
技术原理:按图搜索:用户上传图片,Google会先提取图片特征信息,依靠超大规模并行、实时的图像特征匹配,反馈查询结果。
按音乐搜索:音乐特征提取算法
13.1.0 数字媒体检索的主要方法
13.1.1 基于内容的数字媒体检索
13.2.0 数字媒体分析以及检索的工作流程
1.数字媒体数据流
2.发现特征{x1,x2….xn}
3.数字媒体数据分段
4.识别、分类、聚类
5.标引以及检索
13.3.0 基于内容的图像检索工作流程
1.图像输入
2.找到特征
3.相似度测量
4.识别、分类、聚类
5.标引以及检索
13.3.1 图像的特征
基于图像的检索经常需要预先构造图像的特征数据库
主要的图像特征:
颜色特征
纹理特征
形状特征
空间关系特征
13.3.2 图像的颜色特征
13.3.3 图像的形状特征
形状特征计算基于对象的段或一部分区域主要包括
轮廓特征
区域特征
典型方法包括
傅里叶形状描述
不变矩阵
13.4.0 图像检索相
13.4.1 基于颜色特征检索
将RGB转为HSV
全部和部分图像的LSI矩阵直方图
13.4.2 一个基于内容的图像检索几何视图
13.5.0 图像相似度
不同图像怎样测量基于特征的相似度
图像特征总是形成一固定长度的特征向量
因此相似度可以衡量于
欧氏距离
直方图交集
二次距离
马氏距离
非几何相似
13.6.0 实用的图像检索系统
13.6.1 实用的图像检索系统
现有的图像检索系统都有以下一到多个功能
随机检索
分类检索
元数据检索
基于实例的检索
基于草图的检索
基于纹理的检索
基于颜色的检索
13.7.0 音乐检索技术
13.7.1 基于内容的音乐检索
13.7.2 基于内容的音乐检索流程图
13.8.0 主要音频特征
时域特征
平均能量
过零率
沉默比
频域特征
声谱
带宽
能量分布
调和性
音高
13.8.1 时域特征
振幅和时间代表着一段音频信号
平均能量: 指的是这段音频的音量
过零率:指的是音频信号振幅变化的频率
沉默率:指的是静默的声音片段所占的比例
13.8.2 频域特征
声谱
带宽:指的是声音的频率范围
能量分布
调和性
音高
13.9.0 音乐检索的相关研究
13.9.1 前人的方法
克服节奏快满不同的问题
克服音调高低不同的问题
全曲比对费时很久且准确率低
使用浮点数运算
13.9.2 Dynamic Time Warping
13.9.3 DTW的改进方法
改进方法一
改用整数运算
改良式DTW
改进方法二
将资料库中的每一首歌的中介格式,从每一个音符为起点切成数个长度为D=72的片段
用两阶段的方法比对:第一阶段为线性伸缩比对,第二阶段为DTW
<note important> 本节编撰作者(请大家在这里报到):
虞开元 (3090104025) 更新了:13.1 & 13.6
徐昕 (3090104032) 编写了:13.1.0-13.8.0
胡波 (3090104031) 编写了:13.8.1-13.9.3
黄梁 (3090104026) 更新了:13.6-13.9
浙江大学2008-2011版权所有,如需转载或引用,请与 作者联系。
</note>