User Tools

Site Tools


coursenote:014

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

coursenote:014 [2015/11/13 16:49]
coursenote:014 [2023/08/19 20:17] (current)
Line 1: Line 1:
 +====== 第14课.数字媒体检索介绍 ======
 +===== 14.1 数字媒体分析检索工作流程 =====
 +数字媒体数据流→找到特征→数据分段→识别/​分类/​聚类→索引/​检索
 +{{:​coursenote:​14-1.png?​nolink&​200|}}
  
 +===== 14.2 视频检索技术 =====
 +==== 14.2.1 视频与图像的区别和关系 ====
 +1.图像是静态的,视频是动态的。
 +2.视频流可以看做是图像帧的序列。
 +
 +==== 14.2.2 数字媒体检索主要方法 ====
 +  - 文本检索
 +  - 内容检索
 +a.文本检索:关键词提取
 +
 +b.数据库查询:实体提取
 +{{:​coursenote:​14-4.png?​nolink&​200 |}}
 +
 +{{:​coursenote:​14-5.png?​nolink&​200 |}}
 +视频镜头是视频索引的基本单元。
 +
 +===== 14.3 内容检索CBVR =====
 +例子:YouTube Video Page
 +[[http://​baike.baidu.com/​view/​357961.htm]]
 +
 +CBVR有两个阶段:
 +——数据库总体阶段:
 +·视频镜头边界检测
 +·关键帧选择
 +·特征提取
 +——视频检索阶段:
 +·相似度测量
 +{{ :​coursenote:​14-6.png?​nolink&​200 |}}
 +
 +==== 14.3.1 视频数据结构化 ====
 +{{:​coursenote:​147.png?​nolink&​200 |}}
 +场景和镜头等的语义层在播放时会被消除,这会使用户处理原视频数据变得不便。
 +=== 14.3.1.1 视频结构化中基本定义 ===
 +  * frame 帧
 +  * shot  镜头
 +  * key frame  关键帧
 +  * scene 场景
 +  * group 组
 +
 +==== 14.3.2 提案 ====
 +
 +=== 14.3.2.0 步骤 ===
 +  * 分析视频数据流
 +  * 把数据流分段成镜头
 +  * 使用提取的特征来对镜头进行索引(相机工作特点/​颜色等)
 +  * 浏览方法和用户接口
 +
 +=== 14.3.2.1 希望得到的视频交互 ===
 +  * 关注快速的视觉浏览
 +  * 短期内能够得到长视频的主题
 +  * 非单纯快进
 +  * 挑战:找到管理必需的视觉提示,并进行有效视觉化表示。
 +
 +**观众-视频交互概念模型**
 +  * 观众交互
 +  * 视频计算
 +  * 视频生产和编辑
 +
 +==== 14.3.3 视频分段 ====
 +**问题:**
 +  - 传统的剪切检测—使用帧对比检测帧之间的不同(密度/​RGB/​运动向量)
 +  - 由快速/​慢速的物体运动,动画,频闪,消失,画面交接,分解等产生错误的检测。
 +  - 结果:低检测成功率
 +
 +=== 14.3.3.1 基本视频分段规则 ===
 +  * 成对比较
 +  * 像素级
 +  * 对相机移动敏感
 +  * 区块级(似然性比率)
 +  * 允许微小运动
 +测量视频帧的静态属性:**色彩直方图对比法**
 +{{:​coursenote:​1418.png?​nolink&​300 |}}
 +
 +
 +
 +{{:​coursenote:​1419.png?​nolink&​300 |}}
 +
 +
 +
 +{{:​coursenote:​1413.png?​nolink&​300 |}}
 +=== 14.3.3.2直方图对比 ===
 +  * 场景切换
 +  * 逐步变换检测
 +使用Tb和Ts两个临界值去适应短期和长期的变换
 +短期的区别小;长期的区别大。
 +**twin_comparison**
 +  * Fs——变换开始帧
 +  * Fe——变换结束帧
 +scan frame
 +if(Diff(Fi)>​=Tb)
 + ​detect as camera break
 +else if(Tb>​Diff(Fi)>​=Ts)
 +  Fi→Fs
 +  i+1→i
 + ​while(Diff(Fi)>​=Ts)
 +  i+1→i
 +  if(Diff(Fs,​Fi)>​=Tb)
 +   ​Fi→Fe
 +**临界值Tb,​Ts的选择:**
 +帧之间区别的分布在最小值附近有一个高峰,它是由噪声引起的,而不是变换。并且遵循高斯分布(μ,​σ)
 +Tb = μ + ασ, α∈[5, 6]
 +Ts比平均值大且在右边的斜面上
 +一般情况下:Ts ∈[8, 10]
 +
 +**Multi-pass方法:**
 +浏览所有帧是很困难的。一时的跳过更有效。
 +  * 比如每10帧选1帧
 +  * 更适合逐步变换检测
 +  * 可能会遗漏相机损坏
 +  * 可能导致错误的检测
 +
 +=== 14.3.3.3 相机的运动 ===
 +  * 由相机移动造成的逐步变换
 +  * 基本方法:观察在移动矢量上的光线。
 +
 +=== 14.3.3.4 其他视频分段方法 ===
 +{{:​coursenote:​20.png?​nolink&​300 |}}
 +
 +=== 14.3.3.5 视频分段解决方法 ===
 +  * 92%~98%成功率:超过4.5小时的视频
 +  * 90%成功率:所有切换的1/​3都是通过特殊的影响。
 +{{:​coursenote:​1416.png?​nolink&​200 |}}
 +
 +==== 14.3.4 镜头分析 ====
 +镜头是捕捉一个场景空间和时间内容的帧序列。
 +提取信息:相机工作产生空间环境;色彩信息产生物体信息。
 +
 +=== 14.3.4.1 相机工作信息提取 ===
 +  * 相机运动会产生物体全局的变化
 +  * 生成点追踪=运动矢量
 +  * 运动矢量产生相机工作参数
 +  * 计算复杂,也不健全
 +**基于X光线成像的方案:计算简单,健全。**
 +  * 与时间并行=固定相机
 +  * 歪斜=相机摇晃pan
 +  * 歪斜度数=摇晃速度
 +  * 线性分布=聚焦zoom
 +  * track和dolly没有相关信息
 +{{:​coursenote:​1422.png?​nolink&​300 |}}
 +
 +==== 14.3.5 ​ 新的视频接口 ====
 +
 +  * 视频范围
 +
 +  * 视频空间图标
 +
 +  * 空间监视
 +
 +  * 介绍视频
 +=== 14.3.5.1视频文件 ===
 +
 +{{:​coursenote:​000001.png}}
 +
 +  * 照片和视频索引
 +  * 表明潜在简单结构的视频应用
 +===14.3.5.2 视频范围 ===
 +
 +{{:​coursenote:​00002.png}}
 +
 +  * 可能使用视频工程工具。
 +
 +  * 表明潜在的复杂结构的视频应用
 +
 +=== 14.3.5.3相关的工作 ===
 +
 +  * 重视视觉接口
 +  ​
 +  * 必须激活用户的视觉
 +
 +  * 必须刺激用户的能力操纵视频
 +
 +{{:​coursenote:​00003.png}}
 +
 +
 +<note important>​ 本节编撰作者(请大家在这里报到): ​
 +  * [[3090104657@zju.edu.cn|朱映臻]] ​ (3090104657) ​ 编写了:​14—14.3.4
 +  * [[3090105054@zju.edu.com|阿卜力克木]] ​ (3090105054) ​ 编写了:​14.3.5
 +  * 浙江大学2008-2011版权所有,如需转载或引用,请与[[zhx@cad.zju.edu.cn | 作者联系]]。
 +</​note>​