User Tools

Site Tools


coursenote:011

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

coursenote:011 [2015/11/13 08:49] (current)
Line 1: Line 1:
 +<note important>​尚未编辑的同学请注意:此处note编辑内容来自lesson 11的课件, image retrieval </​note>​
  
 +==========第五章: 数字媒体检索介绍(Introduction to digital media retrieval)============
 +
 +======== 第十一讲:图像检索(image retrieval) ========
 +
 +
 +
 +
 +
 +
 +
 +====11.2.2.3 Gabor 纹理====
 +   ​*傅里叶系数依赖于整个的图像(全局)-->​空间信息丢失
 +   ​*目的:区域空间频率分析
 +
 +   ​-**Gabor变换**:
 +     ​*根据模拟人类视觉系统而产生。通过模拟人类视觉系统,可以将视网膜成像分解成一组滤波图像,每个分解的图像能够反映频率和方向在局部范围内的强度变化。通过一组多通道Gabor滤波器,可以获得纹理特征。
 +     ​*Gabor变换的根本就是Gabor滤波器的设计,而滤波器的设计又是其频率函数(U,​V)和Gauss函数参数(一个)的设计。实际上,Gabor变换是为了提取信号Fourier变换的局部信息,使用了一个Gauss函数作为窗函数,因为一个Gauss函数的Fourier变换还是一个Gauss函数,所以Fourier逆变换也是局部的。
 +     ​*利用Gabor核函数,可采用“离散二维叠加和卷积”或“快速傅立叶变换卷积”的方法求解Gabor变换,并对变换结果求均值和方差作为提取的特征。
 +   ​-**Gabor 纹理**:
 +    {{:​coursenote:​11.2.2.3.jpg|}}
 +    ​
 +*通过频率参数和高斯函数参数的选取,Gabor变换可以选取很多纹理特征,但是Gabor是非正交的,不同特征分量之间有冗余,
 +*所以在对纹理图像的分析中效率不太高。
 +
 +====11.2.2.4 小波特征(PWT,​ TWT)====
 +  -**小波**:
 +     ​*用递归筛选和次取样的一组基础函数分解信号
 +     ​*每一层将2D信号分解为4个次能带,LL,​ LH, HL, HH
 +  -**PWT**: (pyramid-structured wavelet transform金字塔结构的小波变换)
 +     ​*递归地分解LL带
 +     ​*特征维:(3X3X1+1)X2=20
 +  -**TWT**: (tree-structured wavelet transform树状结构的小波变换)
 +     ​*一些信息在中间频率的信道上
 +     ​*特征维:40X2=80 ​
 +     ​*{{:​coursenote:​11.2.2.41.jpg|}}
 +
 +       ​*不同纹理特征的检索结果比较 ​
 +     ​*{{:​coursenote:​11.2.2.42.jpg|}}
 +     
 +      ​
 +====11.2.3 图像的形状特征(Image shape features)====
 +  *形状特征是基于物体的片段或者区域计算的。主要包括:
 +    *轮廓特征
 +    *区域特征
 +  *典型的形状特征描述方法:
 +    *傅里叶形状描述符(Fourier shape description)
 +    *形状不变矩(Moment Invariants)
 +
 +---------
 +
 +**11.2.3.1基于轮廓特征与基于区域特征的表示方法比较**
 +{{:​coursenote:​11.2.3.1.jpg|}}
 +     ​-列为轮廓相似:
 +           ​轮廓外形的相似
 +      -排为区域相似
 +           ​像素的分布相似  ​
 +           
 +**基于轮廓特征的描述符**
 +      -基于曲率尺度空间(CSS)
 +       ​-较Zernike矩、ART、傅里叶方法、旋转角度、基于小波的特征提取优越
 +       ​-旋转和比例的恒常性
 +       ​-对一些不严格转换的鲁棒性
 +       ​{{:​coursenote:​11.2.3.2.jpg|}}
 +      ​
 +      ​
 +**基于区域特征的描述符**
 +      -在2维物体区域内表示像素的分布
 +       ​-应用了一个复杂的2D ART
 +      -旋转和比例上具恒常性
 +       ​-对一些不严格的转换具鲁棒性
 +
 +优势:
 +      -可用无连接的区域描述复杂图形
 +       ​-对分割噪声鲁棒
 +       ​-尺寸小
 +       ​-能快速的提取和匹配
 +       
 +如上图: ​         ​
 +      -适用于(a)
 +      -可识别(b)中各图像的差异
 +       ​-找到(c)-(e)中的相似点
 +
 +--------
 +
 + 
 +**11.2.3.2基于形状特征的检索方法的问题**
 +    *目前很多的方法都基于以下几个假设:
 +      -图像分割已实现
 +      -在操作人员感兴趣的对象范围内
 +      -图像不混杂且没有阴影
 +      -对象是刚性的
 +      -属于2D模型
 +      -事先知道该模型
 +  ​
 +**图像特征的降维**
 +
 +1.在图像检索系统里,虽然增加图像的维度能够大大增强检索的精确度,但也会带来大量的计算。因此减少特征数据的冗余十分重要。
 +
 +2.图像特征空间缩减的技术方法
 +    -线性降维技术:PCA…
 +    -非线性降维技术:Isomap,​ LLE…
 +    -基于特征缩减方法的聚类
 +    -高维度的特征检索
 +
 +3.面向数据库的高维度数据检索
 +    -分组查找技术,K-d tree,R tree…
 +    -聚类
 +    -SOM
 +       
 +**图像的相似**
 +
 +·怎样衡量基于特征的不同图像之间的相似点?
 +  ​
 +·图像特征一般都会形成一个固定长度的特征向量,​因此相似性可以由下面几个衡量:
 +         ​-欧氏距离
 +    所谓欧氏距离变换,是指对于一张二值图像(再次我们假定白色为前景色,黑色为背景色),将前景中的像素的值转化为该点到达最近的背景点的距离。
 +     
 +  欧氏距离变换在数字图像处理中的应用范围很广泛,尤其对于图像的骨架提取,是一个很好的参照。
 +
 +         ​-直方图相交
 +算法:
 +{{:​coursenote:​11.3.11.gif|}}
 +
 +        -二次距离
 +         ​-马氏距离
 +D=sqrt{[His1-His2] * S^(-1) * [(His1-His2)的转置列向量]}
 +其中:His1,His2为两个图像直方图一维矩阵
 +
 +S(i,​j)={[His1(i)-u(i)]*[His1(j)-u(j)]+[His2(i)-u(i)]*[His2(j)-u(j)]}/​2
 +
 +U = {2.5, 3, 6.5, 5}
 +
 +
 +         ​-非几何的相似
 +          ​
 +**图像检索系统:**
 +
 +·大多数现有的图像检索系统都有一个或多个如下列出的功能特点:
 +       ​-随机浏览
 +       ​-分类浏览
 +       ​-基于示例的检索(按例查询)
 +       ​-基于草图的检索(按绘查询)
 +       ​-基于纹理的检索
 +       
 +11.2.4**图像检索的前景**
 +
 +-人机交互:是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界 ​
 +面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表
 +板、或是发电厂的控制室。人机交互界面的设计要包含用户对系统的理解(即心智模型),那是为了系统的可用性或者用户友
 +好性。而未来的图像检索必然更加的友好性,让用户更轻松的完成搜索。
 +    ​
 +-基于语义特征的检索:为了克服基于简单视觉特征的图像检索方法的不足,人们提出了基于语义的图像检索方法,与基于低层物理特征查
 +询不同“语义特征查询是基于文字的查询”包含了自然语言处理和传统图像检索技术。
 +
 +这种检索方法的目标是最大限度地减小图像简单视觉特征与丰富的语义之间的语义鸿沟,缩小语义鸿沟的办法有(种)由高
 +层语义导出低层特征和由低层特征向高层语义的转换图像语义具有模糊性、复杂性、抽象性,一般包括3个语义层次:特征语
 +义、目标和空间关系语义、高层语义。特征语义就是图像的颜色、形状、纹理等低级视觉特征,与视觉感知直接相连;目标语
 +义和空间关系语义需要识别和提取图像中的目标类别、目标之间的空间位置等关系,涉及到模式识别和逻辑推理的相关技术;
 +高层语义主要涉及图像的场景语义(如海滨、街道、室内等)、行为语义(如表演、超越、进攻等)和情感语义(如平静、和
 +谐、振奋等)。一般而言,高层的图像语义往往建立在较低层次的语义获得的基础上,并且层次越高,语义越复杂,涉及的领
 +域知识越多。
 +              ​
 +-网络为本:未来的检索将会将本地检索渐渐转向为基于网络的检索。
 +
 +-高维数据:如今的数据越来越来多,也越来越负杂,这也要求数据逐步向高维数据转变。
 +
 +-有多个媒体的通道:未来的检索将会由多个媒体通道来完成,大大提高检索的效率。
 +
 +-图像特征匹配:特征匹配是指通过分别提取两个或多个图像的特征(点、线、面等特征),对特征进行参数描述,然后运用所描述的参
 +
 +数来进行匹配的一种算法。
 +基于特征的匹配所处理的图像一般包含的特征有颜色特征、纹理特征、形状特征、空间位置特征等。
 +特征匹配首先对图像进行预处理来提取其高层次的特征,然后建立两幅图像之间特征的匹配对应关系,通常使用的特征基
 +元有点特征、边缘特征和区域特征。 特征匹配需要用到许多诸如矩阵的运算、梯度的求解、还有傅立叶变换和泰勒展开
 +等数学运算。
 +
 +-性能度量标准
 +
 +-测试集的构建
 +
 +==== ====
 +
 +<note important>​ 本节编撰作者(请大家在这里报到): ​
 +  * [[918521151@qq.com|陈鼎熠]] ​ (学号:3090100631) ​ 编写内容:​11.2.2.3&​11.2.2.4&​11.2.3&​11.2.4
 +
 +  * [[xxxx@xxx.com|XXX]] ​ (学号) ​ 编写内容:​
 +
 +浙江大学2008-2011版权所有,如需转载或引用,请与[[zhx@cad.zju.edu.cn | 作者联系]]。
 +</​note>​
coursenote/011.txt · Last modified: 2015/11/13 08:49 (external edit)