This shows you the differences between two versions of the page.
— |
coursenote:014 [2023/08/19 20:17] (current) |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== 第14课.数字媒体检索介绍 ====== | ||
+ | ===== 14.1 数字媒体分析检索工作流程 ===== | ||
+ | 数字媒体数据流→找到特征→数据分段→识别/分类/聚类→索引/检索 | ||
+ | {{:coursenote:14-1.png?nolink&200|}} | ||
+ | ===== 14.2 视频检索技术 ===== | ||
+ | ==== 14.2.1 视频与图像的区别和关系 ==== | ||
+ | 1.图像是静态的,视频是动态的。 | ||
+ | 2.视频流可以看做是图像帧的序列。 | ||
+ | |||
+ | ==== 14.2.2 数字媒体检索主要方法 ==== | ||
+ | - 文本检索 | ||
+ | - 内容检索 | ||
+ | a.文本检索:关键词提取 | ||
+ | |||
+ | b.数据库查询:实体提取 | ||
+ | {{:coursenote:14-4.png?nolink&200 |}} | ||
+ | |||
+ | {{:coursenote:14-5.png?nolink&200 |}} | ||
+ | 视频镜头是视频索引的基本单元。 | ||
+ | |||
+ | ===== 14.3 内容检索CBVR ===== | ||
+ | 例子:YouTube Video Page | ||
+ | [[http://baike.baidu.com/view/357961.htm]] | ||
+ | |||
+ | CBVR有两个阶段: | ||
+ | ——数据库总体阶段: | ||
+ | ·视频镜头边界检测 | ||
+ | ·关键帧选择 | ||
+ | ·特征提取 | ||
+ | ——视频检索阶段: | ||
+ | ·相似度测量 | ||
+ | {{ :coursenote:14-6.png?nolink&200 |}} | ||
+ | |||
+ | ==== 14.3.1 视频数据结构化 ==== | ||
+ | {{:coursenote:147.png?nolink&200 |}} | ||
+ | 场景和镜头等的语义层在播放时会被消除,这会使用户处理原视频数据变得不便。 | ||
+ | === 14.3.1.1 视频结构化中基本定义 === | ||
+ | * frame 帧 | ||
+ | * shot 镜头 | ||
+ | * key frame 关键帧 | ||
+ | * scene 场景 | ||
+ | * group 组 | ||
+ | |||
+ | ==== 14.3.2 提案 ==== | ||
+ | |||
+ | === 14.3.2.0 步骤 === | ||
+ | * 分析视频数据流 | ||
+ | * 把数据流分段成镜头 | ||
+ | * 使用提取的特征来对镜头进行索引(相机工作特点/颜色等) | ||
+ | * 浏览方法和用户接口 | ||
+ | |||
+ | === 14.3.2.1 希望得到的视频交互 === | ||
+ | * 关注快速的视觉浏览 | ||
+ | * 短期内能够得到长视频的主题 | ||
+ | * 非单纯快进 | ||
+ | * 挑战:找到管理必需的视觉提示,并进行有效视觉化表示。 | ||
+ | |||
+ | **观众-视频交互概念模型** | ||
+ | * 观众交互 | ||
+ | * 视频计算 | ||
+ | * 视频生产和编辑 | ||
+ | |||
+ | ==== 14.3.3 视频分段 ==== | ||
+ | **问题:** | ||
+ | - 传统的剪切检测—使用帧对比检测帧之间的不同(密度/RGB/运动向量) | ||
+ | - 由快速/慢速的物体运动,动画,频闪,消失,画面交接,分解等产生错误的检测。 | ||
+ | - 结果:低检测成功率 | ||
+ | |||
+ | === 14.3.3.1 基本视频分段规则 === | ||
+ | * 成对比较 | ||
+ | * 像素级 | ||
+ | * 对相机移动敏感 | ||
+ | * 区块级(似然性比率) | ||
+ | * 允许微小运动 | ||
+ | 测量视频帧的静态属性:**色彩直方图对比法** | ||
+ | {{:coursenote:1418.png?nolink&300 |}} | ||
+ | |||
+ | |||
+ | |||
+ | {{:coursenote:1419.png?nolink&300 |}} | ||
+ | |||
+ | |||
+ | |||
+ | {{:coursenote:1413.png?nolink&300 |}} | ||
+ | === 14.3.3.2直方图对比 === | ||
+ | * 场景切换 | ||
+ | * 逐步变换检测 | ||
+ | 使用Tb和Ts两个临界值去适应短期和长期的变换 | ||
+ | 短期的区别小;长期的区别大。 | ||
+ | **twin_comparison** | ||
+ | * Fs——变换开始帧 | ||
+ | * Fe——变换结束帧 | ||
+ | scan frame | ||
+ | if(Diff(Fi)>=Tb) | ||
+ | detect as camera break | ||
+ | else if(Tb>Diff(Fi)>=Ts) | ||
+ | Fi→Fs | ||
+ | i+1→i | ||
+ | while(Diff(Fi)>=Ts) | ||
+ | i+1→i | ||
+ | if(Diff(Fs,Fi)>=Tb) | ||
+ | Fi→Fe | ||
+ | **临界值Tb,Ts的选择:** | ||
+ | 帧之间区别的分布在最小值附近有一个高峰,它是由噪声引起的,而不是变换。并且遵循高斯分布(μ,σ) | ||
+ | Tb = μ + ασ, α∈[5, 6] | ||
+ | Ts比平均值大且在右边的斜面上 | ||
+ | 一般情况下:Ts ∈[8, 10] | ||
+ | |||
+ | **Multi-pass方法:** | ||
+ | 浏览所有帧是很困难的。一时的跳过更有效。 | ||
+ | * 比如每10帧选1帧 | ||
+ | * 更适合逐步变换检测 | ||
+ | * 可能会遗漏相机损坏 | ||
+ | * 可能导致错误的检测 | ||
+ | |||
+ | === 14.3.3.3 相机的运动 === | ||
+ | * 由相机移动造成的逐步变换 | ||
+ | * 基本方法:观察在移动矢量上的光线。 | ||
+ | |||
+ | === 14.3.3.4 其他视频分段方法 === | ||
+ | {{:coursenote:20.png?nolink&300 |}} | ||
+ | |||
+ | === 14.3.3.5 视频分段解决方法 === | ||
+ | * 92%~98%成功率:超过4.5小时的视频 | ||
+ | * 90%成功率:所有切换的1/3都是通过特殊的影响。 | ||
+ | {{:coursenote:1416.png?nolink&200 |}} | ||
+ | |||
+ | ==== 14.3.4 镜头分析 ==== | ||
+ | 镜头是捕捉一个场景空间和时间内容的帧序列。 | ||
+ | 提取信息:相机工作产生空间环境;色彩信息产生物体信息。 | ||
+ | |||
+ | === 14.3.4.1 相机工作信息提取 === | ||
+ | * 相机运动会产生物体全局的变化 | ||
+ | * 生成点追踪=运动矢量 | ||
+ | * 运动矢量产生相机工作参数 | ||
+ | * 计算复杂,也不健全 | ||
+ | **基于X光线成像的方案:计算简单,健全。** | ||
+ | * 与时间并行=固定相机 | ||
+ | * 歪斜=相机摇晃pan | ||
+ | * 歪斜度数=摇晃速度 | ||
+ | * 线性分布=聚焦zoom | ||
+ | * track和dolly没有相关信息 | ||
+ | {{:coursenote:1422.png?nolink&300 |}} | ||
+ | |||
+ | ==== 14.3.5 新的视频接口 ==== | ||
+ | |||
+ | * 视频范围 | ||
+ | |||
+ | * 视频空间图标 | ||
+ | |||
+ | * 空间监视 | ||
+ | |||
+ | * 介绍视频 | ||
+ | === 14.3.5.1视频文件 === | ||
+ | |||
+ | {{:coursenote:000001.png}} | ||
+ | |||
+ | * 照片和视频索引 | ||
+ | * 表明潜在简单结构的视频应用 | ||
+ | ===14.3.5.2 视频范围 === | ||
+ | |||
+ | {{:coursenote:00002.png}} | ||
+ | |||
+ | * 可能使用视频工程工具。 | ||
+ | |||
+ | * 表明潜在的复杂结构的视频应用 | ||
+ | |||
+ | === 14.3.5.3相关的工作 === | ||
+ | |||
+ | * 重视视觉接口 | ||
+ | | ||
+ | * 必须激活用户的视觉 | ||
+ | |||
+ | * 必须刺激用户的能力操纵视频 | ||
+ | |||
+ | {{:coursenote:00003.png}} | ||
+ | |||
+ | |||
+ | <note important> 本节编撰作者(请大家在这里报到): | ||
+ | * [[3090104657@zju.edu.cn|朱映臻]] (3090104657) 编写了:14—14.3.4 | ||
+ | * [[3090105054@zju.edu.com|阿卜力克木]] (3090105054) 编写了:14.3.5 | ||
+ | * 浙江大学2008-2011版权所有,如需转载或引用,请与[[zhx@cad.zju.edu.cn | 作者联系]]。 | ||
+ | </note> |