数字媒体数据流→找到特征→数据分段→识别/分类/聚类→索引/检索
1.图像是静态的,视频是动态的。 2.视频流可以看做是图像帧的序列。
a.文本检索:关键词提取
b.数据库查询:实体提取
视频镜头是视频索引的基本单元。
例子:YouTube Video Page http://baike.baidu.com/view/357961.htm
CBVR有两个阶段: ——数据库总体阶段: ·视频镜头边界检测 ·关键帧选择 ·特征提取 ——视频检索阶段: ·相似度测量
场景和镜头等的语义层在播放时会被消除,这会使用户处理原视频数据变得不便。
观众-视频交互概念模型
问题:
测量视频帧的静态属性:色彩直方图对比法
使用Tb和Ts两个临界值去适应短期和长期的变换 短期的区别小;长期的区别大。 twin_comparison
scan frame if(Diff(Fi)>=Tb) detect as camera break else if(Tb>Diff(Fi)>=Ts)
Fi→Fs i+1→i
while(Diff(Fi)>=Ts)
i+1→i if(Diff(Fs,Fi)>=Tb) Fi→Fe
临界值Tb,Ts的选择: 帧之间区别的分布在最小值附近有一个高峰,它是由噪声引起的,而不是变换。并且遵循高斯分布(μ,σ) Tb = μ + ασ, α∈[5, 6] Ts比平均值大且在右边的斜面上 一般情况下:Ts ∈[8, 10]
Multi-pass方法: 浏览所有帧是很困难的。一时的跳过更有效。
镜头是捕捉一个场景空间和时间内容的帧序列。 提取信息:相机工作产生空间环境;色彩信息产生物体信息。
基于X光线成像的方案:计算简单,健全。