第14课.数字媒体检索介绍

14.1 数字媒体分析检索工作流程

数字媒体数据流→找到特征→数据分段→识别/分类/聚类→索引/检索

14.2 视频检索技术

14.2.1 视频与图像的区别和关系

1.图像是静态的，视频是动态的。 2.视频流可以看做是图像帧的序列。

14.2.2 数字媒体检索主要方法

文本检索
内容检索

a.文本检索：关键词提取

b.数据库查询：实体提取

视频镜头是视频索引的基本单元。

14.3 内容检索CBVR

例子：YouTube Video Page http://baike.baidu.com/view/357961.htm

CBVR有两个阶段： ——数据库总体阶段： ·视频镜头边界检测 ·关键帧选择 ·特征提取 ——视频检索阶段： ·相似度测量

14.3.1 视频数据结构化

场景和镜头等的语义层在播放时会被消除，这会使用户处理原视频数据变得不便。

14.3.1.1 视频结构化中基本定义

frame 帧
shot 镜头
key frame 关键帧
scene 场景
group 组

14.3.2 提案

14.3.2.0 步骤

分析视频数据流
把数据流分段成镜头
使用提取的特征来对镜头进行索引（相机工作特点/颜色等）
浏览方法和用户接口

14.3.2.1 希望得到的视频交互

关注快速的视觉浏览
短期内能够得到长视频的主题
非单纯快进
挑战：找到管理必需的视觉提示，并进行有效视觉化表示。

观众-视频交互概念模型

观众交互
视频计算
视频生产和编辑

14.3.3 视频分段

问题：

传统的剪切检测—使用帧对比检测帧之间的不同（密度/RGB/运动向量）
由快速/慢速的物体运动，动画，频闪，消失，画面交接，分解等产生错误的检测。
结果：低检测成功率

14.3.3.1 基本视频分段规则

成对比较
像素级
对相机移动敏感
区块级（似然性比率）
允许微小运动

测量视频帧的静态属性：色彩直方图对比法

14.3.3.2直方图对比

场景切换
逐步变换检测

使用Tb和Ts两个临界值去适应短期和长期的变换短期的区别小；长期的区别大。 twin_comparison

Fs——变换开始帧
Fe——变换结束帧

scan frame if(Diff(Fi)>=Tb) detect as camera break else if(Tb>Diff(Fi)>=Ts)

Fi→Fs
i+1→i

while(Diff(Fi)>=Ts)

i+1→i
if（Diff(Fs,Fi)>=Tb）
 Fi→Fe

临界值Tb,Ts的选择： 帧之间区别的分布在最小值附近有一个高峰，它是由噪声引起的，而不是变换。并且遵循高斯分布(μ,σ) Tb = μ + ασ, α∈[5, 6] Ts比平均值大且在右边的斜面上一般情况下：Ts ∈[8, 10]

Multi-pass方法： 浏览所有帧是很困难的。一时的跳过更有效。

比如每10帧选1帧
更适合逐步变换检测
可能会遗漏相机损坏
可能导致错误的检测

14.3.3.3 相机的运动

由相机移动造成的逐步变换
基本方法：观察在移动矢量上的光线。

14.3.3.4 其他视频分段方法

14.3.3.5 视频分段解决方法

92%~98%成功率：超过4.5小时的视频
90%成功率：所有切换的1/3都是通过特殊的影响。

14.3.4 镜头分析

镜头是捕捉一个场景空间和时间内容的帧序列。提取信息：相机工作产生空间环境；色彩信息产生物体信息。

14.3.4.1 相机工作信息提取

相机运动会产生物体全局的变化
生成点追踪=运动矢量
运动矢量产生相机工作参数
计算复杂，也不健全

基于X光线成像的方案：计算简单，健全。

与时间并行=固定相机
歪斜=相机摇晃pan
歪斜度数=摇晃速度
线性分布=聚焦zoom
track和dolly没有相关信息

14.3.5 新的视频接口

视频范围

视频空间图标

空间监视

介绍视频

14.3.5.1视频文件

照片和视频索引
表明潜在简单结构的视频应用

14.3.5.2 视频范围

可能使用视频工程工具。

表明潜在的复杂结构的视频应用

14.3.5.3相关的工作

重视视觉接口

必须激活用户的视觉

必须刺激用户的能力操纵视频

<note important> 本节编撰作者(请大家在这里报到)：

朱映臻 (3090104657) 编写了:14—14.3.4
阿卜力克木 (3090105054) 编写了:14.3.5

</note>

Digital Asset Management 2011

Table of Contents

第14课.数字媒体检索介绍

14.1 数字媒体分析检索工作流程

14.2 视频检索技术

14.2.1 视频与图像的区别和关系

14.2.2 数字媒体检索主要方法

14.3 内容检索CBVR

14.3.1 视频数据结构化

14.3.1.1 视频结构化中基本定义

14.3.2 提案

14.3.2.0 步骤

14.3.2.1 希望得到的视频交互

14.3.3 视频分段

14.3.3.1 基本视频分段规则

14.3.3.2直方图对比

14.3.3.3 相机的运动

14.3.3.4 其他视频分段方法

14.3.3.5 视频分段解决方法

14.3.4 镜头分析

14.3.4.1 相机工作信息提取

14.3.5 新的视频接口

14.3.5.1视频文件

14.3.5.2 视频范围

14.3.5.3相关的工作

Digital Asset Management 2011

User Tools

Site Tools

Table of Contents

第14课.数字媒体检索介绍

14.1 数字媒体分析检索工作流程

14.2 视频检索技术

14.2.1 视频与图像的区别和关系

14.2.2 数字媒体检索主要方法

14.3 内容检索CBVR

14.3.1 视频数据结构化

14.3.1.1 视频结构化中基本定义

14.3.2 提案

14.3.2.0 步骤

14.3.2.1 希望得到的视频交互

14.3.3 视频分段

14.3.3.1 基本视频分段规则

14.3.3.2直方图对比

14.3.3.3 相机的运动

14.3.3.4 其他视频分段方法

14.3.3.5 视频分段解决方法

14.3.4 镜头分析

14.3.4.1 相机工作信息提取

14.3.5 新的视频接口

14.3.5.1视频文件

14.3.5.2 视频范围

14.3.5.3相关的工作

Page Tools