This shows you the differences between two versions of the page.
— |
coursenote:013 [2023/08/19 20:17] (current) |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== 第13课. 数字媒体检索介绍 ====== | ||
+ | 传统检索检索方式:基于文本 | ||
+ | 代表搜索引擎:Google/Baidu/Yahoo/Bing等 | ||
+ | |||
+ | 工作原理:利用网络蜘蛛搜索链接,抓取内容,提取链接进行再度搜索,理论上可以遍历所有网页。为数据内容创建索引存于服务器上。 | ||
+ | |||
+ | 新兴发展的检索方式:基于多媒体内容 | ||
+ | |||
+ | 代表搜索引擎:Google | ||
+ | |||
+ | 技术原理:按图搜索:用户上传图片,Google会先提取图片特征信息,依靠超大规模并行、实时的图像特征匹配,反馈查询结果。 | ||
+ | |||
+ | 按音乐搜索:音乐特征提取算法 | ||
+ | |||
+ | | ||
+ | ===== 13.1.0 数字媒体检索的主要方法 ===== | ||
+ | * 基于文本的数字媒体检索 | ||
+ | {{:coursenote:1234.jpg?200|}} | ||
+ | * 基于内容的数字媒体检索 | ||
+ | ==== 13.1.1 基于内容的数字媒体检索==== | ||
+ | *基于多媒体数据实例查询 | ||
+ | *示例:The GNU Image-Finding Tool | ||
+ | http://www.gnu.org/software/gift/ | ||
+ | ===== 13.2.0 数字媒体分析以及检索的工作流程 ===== | ||
+ | *1.数字媒体数据流 | ||
+ | *2.发现特征{x1,x2....xn} | ||
+ | *3.数字媒体数据分段 | ||
+ | *4.识别、分类、聚类 | ||
+ | *5.标引以及检索 | ||
+ | ===== 13.3.0 基于内容的图像检索工作流程 ===== | ||
+ | *1.图像输入 | ||
+ | *2.找到特征 | ||
+ | *3.相似度测量 | ||
+ | *4.识别、分类、聚类 | ||
+ | *5.标引以及检索 | ||
+ | ==== 13.3.1 图像的特征==== | ||
+ | *找出图像的特征是图像检索的关键 | ||
+ | 基于图像的检索经常需要预先构造图像的特征数据库 | ||
+ | *主要的图像特征: | ||
+ | - 颜色特征 | ||
+ | - 纹理特征 | ||
+ | - 形状特征 | ||
+ | - 空间关系特征 | ||
+ | ==== 13.3.2 图像的颜色特征==== | ||
+ | *颜色特征是应用最为广泛的可视特征,主要用来分析图像的颜色分配 | ||
+ | *包括: | ||
+ | - 颜色直方图 | ||
+ | - 颜色矩 | ||
+ | - 色彩集 | ||
+ | - 颜色聚类矢量 | ||
+ | - 颜色关系图 | ||
+ | ===== 13.3.3 图像的形状特征 ===== | ||
+ | *形状特征计算基于对象的段或一部分区域主要包括 | ||
+ | - 轮廓特征 | ||
+ | - 区域特征 | ||
+ | *典型方法包括 | ||
+ | - 傅里叶形状描述 | ||
+ | - 不变矩阵 | ||
+ | ===== 13.4.0 图像检索相 ===== | ||
+ | ==== 13.4.1 基于颜色特征检索 ==== | ||
+ | *将RGB转为HSV | ||
+ | *全部和部分图像的LSI矩阵直方图 | ||
+ | ===== 13.4.2 一个基于内容的图像检索几何视图 ===== | ||
+ | {{:coursenote:1234_1.jpg?300|}} | ||
+ | {{:coursenote:1234_2.jpg?300|}} | ||
+ | ==== 13.5.0 图像相似度==== | ||
+ | 不同图像怎样测量基于特征的相似度 | ||
+ | *图像特征总是形成一固定长度的特征向量 | ||
+ | *因此相似度可以衡量于 | ||
+ | - 欧氏距离 | ||
+ | - 直方图交集 | ||
+ | - 二次距离 | ||
+ | - 马氏距离 | ||
+ | - 非几何相似 | ||
+ | ===== 13.6.0 实用的图像检索系统 ===== | ||
+ | |||
+ | http://www.google.com/imghp?hl=zh-CN&tab=ii | ||
+ | * QBIC | ||
+ | http://www.qbic.almaden.ibm.com/ | ||
+ | * Virage | ||
+ | http://wwwvirage.com/cgi-bin/query-e | ||
+ | * RetrievalWare | ||
+ | http://vrw.excalib.com/cgi-bin/sdk/cst/cst2.bat | ||
+ | * MARS | ||
+ | http://jadzia.ifp.uiuc.edu:8000 | ||
+ | ==== 13.6.1 实用的图像检索系统 ==== | ||
+ | *现有的图像检索系统都有以下一到多个功能 | ||
+ | - 随机检索 | ||
+ | - 分类检索 | ||
+ | - 元数据检索 | ||
+ | - 基于实例的检索 | ||
+ | - 基于草图的检索 | ||
+ | - 基于纹理的检索 | ||
+ | - 基于颜色的检索 | ||
+ | ===== 13.7.0 音乐检索技术 ===== | ||
+ | {{:coursenote:2333.jpg}} | ||
+ | ==== 13.7.1 基于内容的音乐检索 ==== | ||
+ | *说明: 用声音内容为依据,做音乐检索 | ||
+ | *目的:让使用者可以用自然的方法点选歌曲 | ||
+ | http://www.soundhound.com/ | ||
+ | * 困难:使用者的节奏,快慢不同,拍子不准,音调高低不同 | ||
+ | 若允许使用者从歌的任意处唱,计算量会很大 | ||
+ | ==== 13.7.2 基于内容的音乐检索流程图 ==== | ||
+ | {{:coursenote:1234_3.jpg?300|}} | ||
+ | ===== 13.8.0 主要音频特征 ===== | ||
+ | *时域特征 | ||
+ | - 平均能量 | ||
+ | - 过零率 | ||
+ | - 沉默比 | ||
+ | * 频域特征 | ||
+ | - 声谱 | ||
+ | - 带宽 | ||
+ | - 能量分布 | ||
+ | - 调和性 | ||
+ | - 音高 | ||
+ | |||
+ | |||
+ | ==== 13.8.1 时域特征 ==== | ||
+ | *振幅和时间代表着一段音频信号 | ||
+ | *平均能量: 指的是这段音频的音量 | ||
+ | *过零率:指的是音频信号振幅变化的频率 | ||
+ | *沉默率:指的是静默的声音片段所占的比例 | ||
+ | |||
+ | ==== 13.8.2 频域特征 ==== | ||
+ | |||
+ | *声谱 | ||
+ | *带宽:指的是声音的频率范围 | ||
+ | *能量分布 | ||
+ | *调和性 | ||
+ | *音高 | ||
+ | ===== 13.9.0 音乐检索的相关研究 ===== | ||
+ | {{:coursenote:2332.jpg}} | ||
+ | ==== 13.9.1 前人的方法 ==== | ||
+ | *克服节奏快满不同的问题 | ||
+ | *克服音调高低不同的问题 | ||
+ | *全曲比对费时很久且准确率低 | ||
+ | *使用浮点数运算 | ||
+ | ==== 13.9.2 Dynamic Time Warping ==== | ||
+ | *x轴为歌声的中介格式向量,y轴为资料库某一首歌的中介格式向量 | ||
+ | *计算他们之间距离,取最小值,进行配对 | ||
+ | *从头比对和全曲比对的区别 | ||
+ | ==== 13.9.3 DTW的改进方法==== | ||
+ | *改进方法一 | ||
+ | - 改用整数运算 | ||
+ | - 改良式DTW | ||
+ | *改进方法二 | ||
+ | - 将资料库中的每一首歌的中介格式,从每一个音符为起点切成数个长度为D=72的片段 | ||
+ | - 用两阶段的方法比对:第一阶段为线性伸缩比对,第二阶段为DTW | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | <note important> 本节编撰作者(请大家在这里报到): | ||
+ | * [[yukaiyuan.2012@gmail.com|虞开元]] (3090104025) 更新了:13.1 & 13.6 | ||
+ | * [[272081852@qq.com|徐昕]] (3090104032) 编写了:13.1.0-13.8.0 | ||
+ | * [[283781449@qq.com|胡波]] (3090104031) 编写了:13.8.1-13.9.3 | ||
+ | * [[525411759@qq.com|黄梁]] (3090104026) 更新了:13.6-13.9 | ||
+ | |||
+ | 浙江大学2008-2011版权所有,如需转载或引用,请与[[zhx@cad.zju.edu.cn | 作者联系]]。 | ||
+ | </note> |