====== 第13课. 数字媒体检索介绍 ====== 传统检索检索方式:基于文本 代表搜索引擎:Google/Baidu/Yahoo/Bing等 工作原理:利用网络蜘蛛搜索链接,抓取内容,提取链接进行再度搜索,理论上可以遍历所有网页。为数据内容创建索引存于服务器上。 新兴发展的检索方式:基于多媒体内容 代表搜索引擎:Google 技术原理:按图搜索:用户上传图片,Google会先提取图片特征信息,依靠超大规模并行、实时的图像特征匹配,反馈查询结果。 按音乐搜索:音乐特征提取算法 ===== 13.1.0 数字媒体检索的主要方法 ===== * 基于文本的数字媒体检索 {{:coursenote:1234.jpg?200|}} * 基于内容的数字媒体检索 ==== 13.1.1 基于内容的数字媒体检索==== *基于多媒体数据实例查询 *示例:The GNU Image-Finding Tool http://www.gnu.org/software/gift/ ===== 13.2.0 数字媒体分析以及检索的工作流程 ===== *1.数字媒体数据流 *2.发现特征{x1,x2....xn} *3.数字媒体数据分段 *4.识别、分类、聚类 *5.标引以及检索 ===== 13.3.0 基于内容的图像检索工作流程 ===== *1.图像输入 *2.找到特征 *3.相似度测量 *4.识别、分类、聚类 *5.标引以及检索 ==== 13.3.1 图像的特征==== *找出图像的特征是图像检索的关键 基于图像的检索经常需要预先构造图像的特征数据库 *主要的图像特征: - 颜色特征 - 纹理特征 - 形状特征 - 空间关系特征 ==== 13.3.2 图像的颜色特征==== *颜色特征是应用最为广泛的可视特征,主要用来分析图像的颜色分配 *包括: - 颜色直方图 - 颜色矩 - 色彩集 - 颜色聚类矢量 - 颜色关系图 ===== 13.3.3 图像的形状特征 ===== *形状特征计算基于对象的段或一部分区域主要包括 - 轮廓特征 - 区域特征 *典型方法包括 - 傅里叶形状描述 - 不变矩阵 ===== 13.4.0 图像检索相 ===== ==== 13.4.1 基于颜色特征检索 ==== *将RGB转为HSV *全部和部分图像的LSI矩阵直方图 ===== 13.4.2 一个基于内容的图像检索几何视图 ===== {{:coursenote:1234_1.jpg?300|}} {{:coursenote:1234_2.jpg?300|}} ==== 13.5.0 图像相似度==== 不同图像怎样测量基于特征的相似度 *图像特征总是形成一固定长度的特征向量 *因此相似度可以衡量于 - 欧氏距离 - 直方图交集 - 二次距离 - 马氏距离 - 非几何相似 ===== 13.6.0 实用的图像检索系统 ===== * Google http://www.google.com/imghp?hl=zh-CN&tab=ii * QBIC http://www.qbic.almaden.ibm.com/ * Virage http://wwwvirage.com/cgi-bin/query-e * RetrievalWare http://vrw.excalib.com/cgi-bin/sdk/cst/cst2.bat * MARS http://jadzia.ifp.uiuc.edu:8000 ==== 13.6.1 实用的图像检索系统 ==== *现有的图像检索系统都有以下一到多个功能 - 随机检索 - 分类检索 - 元数据检索 - 基于实例的检索 - 基于草图的检索 - 基于纹理的检索 - 基于颜色的检索 ===== 13.7.0 音乐检索技术 ===== {{:coursenote:2333.jpg}} ==== 13.7.1 基于内容的音乐检索 ==== *说明: 用声音内容为依据,做音乐检索 *目的:让使用者可以用自然的方法点选歌曲 http://www.soundhound.com/ * 困难:使用者的节奏,快慢不同,拍子不准,音调高低不同 若允许使用者从歌的任意处唱,计算量会很大 ==== 13.7.2 基于内容的音乐检索流程图 ==== {{:coursenote:1234_3.jpg?300|}} ===== 13.8.0 主要音频特征 ===== *时域特征 - 平均能量 - 过零率 - 沉默比 * 频域特征 - 声谱 - 带宽 - 能量分布 - 调和性 - 音高 ==== 13.8.1 时域特征 ==== *振幅和时间代表着一段音频信号 *平均能量: 指的是这段音频的音量 *过零率:指的是音频信号振幅变化的频率 *沉默率:指的是静默的声音片段所占的比例 ==== 13.8.2 频域特征 ==== *声谱 *带宽:指的是声音的频率范围 *能量分布 *调和性 *音高 ===== 13.9.0 音乐检索的相关研究 ===== {{:coursenote:2332.jpg}} ==== 13.9.1 前人的方法 ==== *克服节奏快满不同的问题 *克服音调高低不同的问题 *全曲比对费时很久且准确率低 *使用浮点数运算 ==== 13.9.2 Dynamic Time Warping ==== *x轴为歌声的中介格式向量,y轴为资料库某一首歌的中介格式向量 *计算他们之间距离,取最小值,进行配对 *从头比对和全曲比对的区别 ==== 13.9.3 DTW的改进方法==== *改进方法一 - 改用整数运算 - 改良式DTW *改进方法二 - 将资料库中的每一首歌的中介格式,从每一个音符为起点切成数个长度为D=72的片段 - 用两阶段的方法比对:第一阶段为线性伸缩比对,第二阶段为DTW 本节编撰作者(请大家在这里报到): * [[yukaiyuan.2012@gmail.com|虞开元]] (3090104025) 更新了:13.1 & 13.6 * [[272081852@qq.com|徐昕]] (3090104032) 编写了:13.1.0-13.8.0 * [[283781449@qq.com|胡波]] (3090104031) 编写了:13.8.1-13.9.3 * [[525411759@qq.com|黄梁]] (3090104026) 更新了:13.6-13.9 浙江大学2008-2011版权所有,如需转载或引用,请与[[zhx@cad.zju.edu.cn | 作者联系]]。