====== 第12课. 数字媒体检索介绍 ====== ===== 12.1 数字媒体检索的起源 ===== ==== 12.1.1 信息的检索==== 基于关键部分和提示,来进行用户所需部分的检索 支持: *日常生活的使用 *程序编写 *思考和设计 ===== 12.2 数字媒体检索的主要方法 ===== ==== 12.2.1 基于文本的数字媒体检索==== *布尔模型 *聚类模型 *矢量模型 *概率模型 文本检索代表:百度、谷歌、雅虎 ==== 12.2.2 基于内容的数字媒体检索==== *多媒体实例查询 *示例:The GNU Image-Finding Tool *示例网址:http://www.gnu.org/software/gift/ ==== 12.2.3 数字媒体分析以及检索的工作流程==== *1.数字媒体数据流 *2.发现特征 *3.数字媒体数据分段 *4.识别、分类、聚类 *5.标引以及检索 ===== 12.3 基于内容的图像检索 ===== ==== 12.3.1 图像检索流程图==== {{:coursenote:1.jpg?300|}} ==== 12.3.2 图像检索工作流程==== *1.图像输入 *2.找到特征 *3.相似度测量 *4.识别、分类、聚类 *5.标引以及检索 ==== 12.3.3 图像的特征==== *找出图像的特征是图像检索的关键 *主要的图像特征: - 颜色特征 - 纹理特征 - 形状特征 - 空间关系特征 ==== 12.3.4 图像的颜色特征==== *颜色特征是应用最为广泛的可视特征,主要用来分析图像的颜色分配 *包括: - 颜色直方图 - 颜色矩 - 色彩集 - 颜色聚类矢量 - 颜色关系图 *颜色直方图示例: {{:coursenote:2.jpg?300|}} *颜色矩概念:是图像的总体统计特征,一般应用到其它图像特征以有效缩小寻找范围。 *其包含: - 一阶矩(mean) - 二阶矩(variance) - 三阶矩(skewness) {{:coursenote:4.jpg?|}} *颜色矩示例: {{:coursenote:3.jpg?300|}} ====12.3.5 图像的纹理特征==== *纹理是图像的视觉特征,表现了图像表面的齐次现象。纹理与颜色或亮度无关,是物体表面的本质特征。 *主要的纹理特征: * Tamura纹理特征 * Self-regression 纹理模型 * 基于图像变换的纹理特征 * DWT(离散小波变换),DFT(离散傅里叶变换),Garbor 过滤器 * 其他 ==== 12.3.6 Tamura 纹理 ==== * 基于人类对纹理的视觉感知的心理学研究 *纹理的六个属性: -粗糙度 -对比度 -方向度 -线相似度 -规整度 -粗略度 *粗糙度的计算 *计算每个像素点形成的滑动窗口平均颜色强度值 {{coursenote:01.jpg?300|}} {{coursenote:02.jpg?300|}} *计算每个特像素点横向和纵向的能量变化 {{coursenote: 03.jpg?300|}} *选择变换最大的尺度 {{coursenote:04.jpg?200|}} *计算出粗糙度 {{coursenote:05.jpg?200|}} *对比度 *对比度指的是一幅图像中明暗区域最亮的白和最暗的黑之间不同亮度层级的测量,即指一幅图像灰度反差的大小 *对比度计算: {{coursenote:06.jpg?200|}} {{coursenote:07.jpg?200|}} *对比度强的图像直方图: {{coursenote:08.jpg?200|}} *对比度弱的图像直方图: {{coursenote:09.jpg?200|}} *方向度的计算 *给定卷积算子,计算每个像素点梯度的模和方向 *卷积算子为: {{coursenote:10.jpg?250|}} *梯度的模和方向的计算公式为: {{coursenote:11.jpg?200|}} *生成像素点梯度方向直方图 {{coursenote:12.jpg?300|}} *更新梯度方向直方图并计算 {{coursenote:14.jpg?|300}} *计算公式: {{coursenote:15.jpg?300|}} ==== 12.3.7 (MR)SAR 模型 ==== *每一个像素点都是一个由它邻近点和干扰计算而得的随机变量 * 是Markov Random Field模型的子应用 {{coursenote:100.jpg?300|}} *主要的纹理特征: * SAR模型(同步自回归) * 基于邻近像素点的讨论方法 * MRSAR模型(SAR的多种解法) * 在多种方案中重复纹理计算来讨论间隔尺度 * 在不同图像层中运用SAR * 公制->不同的参数 {{:101.jpg?300|}} ==== 12.3.8 边缘直方图 ==== *边缘直方图(EHD) *从六个方向计算边缘的空间分配:0°,45°,90°,135°,无方向,无边缘 * 使用这些滤波图 {{:102.jpg?300|}} * 一个区域的局部EHD * 一个图的子块落入改区域时,整合这些图块的EHD {{:103.jpg?300|}} ==== 12.3.9 the Fourier Transform ==== *在一个新的基准上重复函数 * 将函数作为一个多维向量 * 我们应用一个线性转换来转换这个基准 * 每个基准元素产生的点 {{:104.jpg?300|}} * 在这个表达式中,u、v选择基准元素,于是x、y的函数转换成了u、v函数 * 基准元素形式:{{:5.jpg?200|}} {{:6.jpg?300|}} ==== 12.3.10 Discrete Fourier Transform ==== * {{:coursenote:7.jpg|300}} * {{:coursenote:108.jpg}} * {{:coursenote:109.jpg}} * {{:coursenote:10.jpg}} * 自然图与其FT {{:coursenote:11.jpg}} * 当纹理区域和方向变化的时候,FT图案发生了什么变化? * 频度区域特征 * 能量分布:角度与圆形 {{:coursenote:102.jpg}} ==== 12.3.11 Gabor Texture(小波纹理) ==== * 傅里叶系数是基于整张图片的,这意味着我们失去了图像的空间信息 * 目标:本地空间序列分析 * 小波纹理核心内容:类似于在傅里叶变换基础上叠加高斯变换 - Ordered List Item带定向正弦波的均衡高斯变换的乘积 - Gabor滤镜成双使用:均衡化与反均衡化 - 每对恢复均衡化与反均衡化组成都在一个特定方向上 - (kx,ky):空间频率(滤镜对其反应强烈) - σ:滤镜的比例。当σ=∞时,与傅里叶变换近似 * 我们要应用很多不同比例、不同方向、不同空间频率的Gabor滤镜。 {{:coursenote:aki01.png}} * 范例——Gabor滤波 - 不同方向、比例的斑马条纹,以及经过Gabor滤波卷积运算的 - 条纹变大变小使得响应减退 - 当条状带的空间频率和高斯与Gabor滤镜吻合时,响应强烈 - 空间频率分析如下: {{:coursenote:aki02.png}} * 图像I(x,y)经过Gabor变换后(合计MxN) {{:coursenote:aki03.png}} {{:coursenote:aki04.png}} * 对每个比例和方向使用第一和第二个矩 {{:coursenote:05_eq.png}} {{:coursenote:05_pic.png}} * 特征:例如,4种比例,6个方向,得到48个维度 {{:coursenote:aki06.png}} * 以2D形式排列整理能量的均值 - 结构化:局部图案 - 方向性:柱状图案 - 颗粒化:排状图案 - 随机:随集图案 {{:coursenote:aki07.png}} {{:coursenote:aki08.png}} ==== 小波特征(PWT,TWT) ==== * 小波 - 使用含递归过滤、二次取样的一套基本函数的特征分解 - 每个层次讲2D信号分解成4个子块:LL、LH、HL、HH(L=Low,H=High) {{:coursenote:aki09.png}} * PWT:pyramid-structured wavelet transform(金字塔结构的小波变换) - 递归分解LL区块 - 特征维数(3x3x1+1)x2=20 * TWT: Tree Wavelet Transform(树式小波变换) - 一些信息在中间频率通道 - 特征维数 40x2=80 {{:coursenote:aki10.png}} * 纹理比较 - 通过使用Corel Photo图表,我们得到了大量的基于不同范围相关图像不同纹理特征的检索结果 {{:coursenote:aki11.png}} ===== 12.4 图像形状特征 ===== ===== 12.4.1 概述 ===== * 形状特征是基于物体分割或区域计算获得的,主要包括: - 计数特征 - 区域特征 * 典型方法: - 傅里叶性状描述 - 矩不变量 ===== 12.4.2 基于区域的描述符VS基于数量的描述符 ===== * 列代表数量相似度 - 数量的概略 * 排代表区域相似度 - 像素分布 {{:coursenote:aki12.png}} ===== 12.5.1 图像特征的维度缩减 ===== * 图像特征空间缩减 - 线性维度缩减技术:PCA…… - 非线性维度缩减技术:Isomap,LEE - 基于群集的特征缩减方法 * 高维度的特征索引 -数据库为中心的高维度特征索引 -分类归并的方法 -SOM ===== 12.5.2 图像相似度 ===== * 图像特征往往能组成一个固定长度的特征向量 * 因此相似度可以通过以下方法来计算 -Euclidian distance -Histogram intersection -Quadratic distance -Mahalanobis distance(马氏距离) -Non-geometrical similarity ===== 12.6 实际的图像检索系统 ===== *QBIC (Query By Image Content) -http://www.qbic.almaden.ibm.com/ *Virage -http://wwwvirage.com/cgi-bin/query-e *RetrievalWare -http://vrw.excalib.com/cgi-bin/sdk/cst/cst2.bat *Photobook *MARS -http://jadzia.ifp.uiuc.edu:8000 *实际图像检索系统往往包括如下几个函数特征 -随机浏览 -分类浏览 -基于例子的检索 -基于概要的检索 -基于文本检索 ===== 12.7 图像检索的未来 ===== *人机交互 *发音语义的识别 *网页为中心 *高维数据 *主观性 *多媒体通道 *图像特征映射 *测试设置的构建 *行为测量的基准 本节编撰作者(请大家在这里报到): * [[605516437@qq.com|高杰]] (3090100671) 编写了:12.1.1-12.3.4 * [[593057123@qq.com|王佳萍]] (3090103144) 编写了:12.3.5-12.3.6 * [[poluo@vip.qq.com|邹瑶瑶]] (3090104023) 编写了:12.3.7-12.3.10 * [[xiaokaneier@gmail.com|柯棽耀]] (3090104024) 编写了:12.3.11-12.4.2 * [[232712746@qq.com|叶越]] (3090100670) 编写了:12.5.1-12.7 浙江大学2008-2011版权所有,如需转载或引用,请与[[zhx@cad.zju.edu.cn | 作者联系]]。