User Tools

Site Tools


coursenote:014

第14课.数字媒体检索介绍

14.1 数字媒体分析检索工作流程

数字媒体数据流→找到特征→数据分段→识别/分类/聚类→索引/检索

14.2 视频检索技术

14.2.1 视频与图像的区别和关系

1.图像是静态的,视频是动态的。 2.视频流可以看做是图像帧的序列。

14.2.2 数字媒体检索主要方法

  1. 文本检索
  2. 内容检索

a.文本检索:关键词提取

b.数据库查询:实体提取

视频镜头是视频索引的基本单元。

14.3 内容检索CBVR

例子:YouTube Video Page http://baike.baidu.com/view/357961.htm

CBVR有两个阶段: ——数据库总体阶段: ·视频镜头边界检测 ·关键帧选择 ·特征提取 ——视频检索阶段: ·相似度测量

14.3.1 视频数据结构化

场景和镜头等的语义层在播放时会被消除,这会使用户处理原视频数据变得不便。

14.3.1.1 视频结构化中基本定义

  • frame 帧
  • shot 镜头
  • key frame 关键帧
  • scene 场景
  • group 组

14.3.2 提案

14.3.2.0 步骤

  • 分析视频数据流
  • 把数据流分段成镜头
  • 使用提取的特征来对镜头进行索引(相机工作特点/颜色等)
  • 浏览方法和用户接口

14.3.2.1 希望得到的视频交互

  • 关注快速的视觉浏览
  • 短期内能够得到长视频的主题
  • 非单纯快进
  • 挑战:找到管理必需的视觉提示,并进行有效视觉化表示。

观众-视频交互概念模型

  • 观众交互
  • 视频计算
  • 视频生产和编辑

14.3.3 视频分段

问题:

  1. 传统的剪切检测—使用帧对比检测帧之间的不同(密度/RGB/运动向量)
  2. 由快速/慢速的物体运动,动画,频闪,消失,画面交接,分解等产生错误的检测。
  3. 结果:低检测成功率

14.3.3.1 基本视频分段规则

  • 成对比较
  • 像素级
  • 对相机移动敏感
  • 区块级(似然性比率)
  • 允许微小运动

测量视频帧的静态属性:色彩直方图对比法

14.3.3.2直方图对比

  • 场景切换
  • 逐步变换检测

使用Tb和Ts两个临界值去适应短期和长期的变换 短期的区别小;长期的区别大。 twin_comparison

  • Fs——变换开始帧
  • Fe——变换结束帧

scan frame if(Diff(Fi)>=Tb) detect as camera break else if(Tb>Diff(Fi)>=Ts)

Fi→Fs
i+1→i

while(Diff(Fi)>=Ts)

i+1→i
if(Diff(Fs,Fi)>=Tb)
 Fi→Fe

临界值Tb,Ts的选择: 帧之间区别的分布在最小值附近有一个高峰,它是由噪声引起的,而不是变换。并且遵循高斯分布(μ,σ) Tb = μ + ασ, α∈[5, 6] Ts比平均值大且在右边的斜面上 一般情况下:Ts ∈[8, 10]

Multi-pass方法: 浏览所有帧是很困难的。一时的跳过更有效。

  • 比如每10帧选1帧
  • 更适合逐步变换检测
  • 可能会遗漏相机损坏
  • 可能导致错误的检测

14.3.3.3 相机的运动

  • 由相机移动造成的逐步变换
  • 基本方法:观察在移动矢量上的光线。

14.3.3.4 其他视频分段方法

14.3.3.5 视频分段解决方法

  • 92%~98%成功率:超过4.5小时的视频
  • 90%成功率:所有切换的1/3都是通过特殊的影响。

14.3.4 镜头分析

镜头是捕捉一个场景空间和时间内容的帧序列。 提取信息:相机工作产生空间环境;色彩信息产生物体信息。

14.3.4.1 相机工作信息提取

  • 相机运动会产生物体全局的变化
  • 生成点追踪=运动矢量
  • 运动矢量产生相机工作参数
  • 计算复杂,也不健全

基于X光线成像的方案:计算简单,健全。

  • 与时间并行=固定相机
  • 歪斜=相机摇晃pan
  • 歪斜度数=摇晃速度
  • 线性分布=聚焦zoom
  • track和dolly没有相关信息

14.3.5 新的视频接口

  • 视频范围
  • 视频空间图标
  • 空间监视
  • 介绍视频

14.3.5.1视频文件

  • 照片和视频索引
  • 表明潜在简单结构的视频应用

14.3.5.2 视频范围

  • 可能使用视频工程工具。
  • 表明潜在的复杂结构的视频应用

14.3.5.3相关的工作

  • 重视视觉接口
  • 必须激活用户的视觉
  • 必须刺激用户的能力操纵视频

<note important> 本节编撰作者(请大家在这里报到):

</note>

coursenote/014.txt · Last modified: 2015/11/13 08:49 (external edit)