Differences

This shows you the differences between two versions of the page.

--- coursenote:014 [2015/11/13 16:49]
+++ coursenote:014 [2023/08/19 20:17] (current)
@@ Line 1: / Line 1: @@
+====== 第14课.数字媒体检索介绍 ======
+===== 14.1 数字媒体分析检索工作流程 =====
+数字媒体数据流→找到特征→数据分段→识别/分类/聚类→索引/检索
+{{:coursenote:14-1.png?nolink&200|}}
+===== 14.2 视频检索技术 =====
+==== 14.2.1 视频与图像的区别和关系 ====
+.图像是静态的，视频是动态的。
+.视频流可以看做是图像帧的序列。
+==== 14.2.2 数字媒体检索主要方法 ====
+  - 文本检索
+  - 内容检索
+a.文本检索：关键词提取
+b.数据库查询：实体提取
+{{:coursenote:14-4.png?nolink&200 |}}
+{{:coursenote:14-5.png?nolink&200 |}}
+视频镜头是视频索引的基本单元。
+===== 14.3 内容检索CBVR =====
+例子：YouTube Video Page
+[[http://baike.baidu.com/view/357961.htm]]
+CBVR有两个阶段：
+——数据库总体阶段：
+·视频镜头边界检测
+·关键帧选择
+·特征提取
+——视频检索阶段：
+·相似度测量
+{{ :coursenote:14-6.png?nolink&200 |}}
+==== 14.3.1 视频数据结构化 ====
+{{:coursenote:147.png?nolink&200 |}}
+场景和镜头等的语义层在播放时会被消除，这会使用户处理原视频数据变得不便。
+=== 14.3.1.1 视频结构化中基本定义 ===
+  * frame 帧
+  * shot  镜头
+  * key frame  关键帧
+  * scene 场景
+  * group 组
+==== 14.3.2 提案 ====
+=== 14.3.2.0 步骤 ===
+  * 分析视频数据流
+  * 把数据流分段成镜头
+  * 使用提取的特征来对镜头进行索引（相机工作特点/颜色等）
+  * 浏览方法和用户接口
+=== 14.3.2.1 希望得到的视频交互 ===
+  * 关注快速的视觉浏览
+  * 短期内能够得到长视频的主题
+  * 非单纯快进
+  * 挑战：找到管理必需的视觉提示，并进行有效视觉化表示。
+**观众-视频交互概念模型**
+  * 观众交互
+  * 视频计算
+  * 视频生产和编辑
+==== 14.3.3 视频分段 ====
+**问题：**
+  - 传统的剪切检测—使用帧对比检测帧之间的不同（密度/RGB/运动向量）
+  - 由快速/慢速的物体运动，动画，频闪，消失，画面交接，分解等产生错误的检测。
+  - 结果：低检测成功率
+=== 14.3.3.1 基本视频分段规则 ===
+  * 成对比较
+  * 像素级
+  * 对相机移动敏感
+  * 区块级（似然性比率）
+  * 允许微小运动
+测量视频帧的静态属性：**色彩直方图对比法**
+{{:coursenote:1418.png?nolink&300 |}}
+{{:coursenote:1419.png?nolink&300 |}}
+{{:coursenote:1413.png?nolink&300 |}}
+=== 14.3.3.2直方图对比 ===
+  * 场景切换
+  * 逐步变换检测
+使用Tb和Ts两个临界值去适应短期和长期的变换
+短期的区别小；长期的区别大。
+**twin_comparison**
+  * Fs——变换开始帧
+  * Fe——变换结束帧
+scan frame
+if(Diff(Fi)>=Tb)
+ detect as camera break
+else if(Tb>Diff(Fi)>=Ts)
+  Fi→Fs
+  i+1→i
+ while(Diff(Fi)>=Ts)
+  i+1→i
+  if（Diff(Fs,Fi)>=Tb）
+   Fi→Fe
+**临界值Tb,Ts的选择：**
+帧之间区别的分布在最小值附近有一个高峰，它是由噪声引起的，而不是变换。并且遵循高斯分布(μ,σ)
+Tb = μ + ασ, α∈[5, 6]
+Ts比平均值大且在右边的斜面上
+一般情况下：Ts ∈[8, 10]
+**Multi-pass方法：**
+浏览所有帧是很困难的。一时的跳过更有效。
+  * 比如每10帧选1帧
+  * 更适合逐步变换检测
+  * 可能会遗漏相机损坏
+  * 可能导致错误的检测
+=== 14.3.3.3 相机的运动 ===
+  * 由相机移动造成的逐步变换
+  * 基本方法：观察在移动矢量上的光线。
+=== 14.3.3.4 其他视频分段方法 ===
+{{:coursenote:20.png?nolink&300 |}}
+=== 14.3.3.5 视频分段解决方法 ===
+  * 92%~98%成功率：超过4.5小时的视频
+  * 90%成功率：所有切换的1/3都是通过特殊的影响。
+{{:coursenote:1416.png?nolink&200 |}}
+==== 14.3.4 镜头分析 ====
+镜头是捕捉一个场景空间和时间内容的帧序列。
+提取信息：相机工作产生空间环境；色彩信息产生物体信息。
+=== 14.3.4.1 相机工作信息提取 ===
+  * 相机运动会产生物体全局的变化
+  * 生成点追踪=运动矢量
+  * 运动矢量产生相机工作参数
+  * 计算复杂，也不健全
+**基于X光线成像的方案：计算简单，健全。**
+  * 与时间并行=固定相机
+  * 歪斜=相机摇晃pan
+  * 歪斜度数=摇晃速度
+  * 线性分布=聚焦zoom
+  * track和dolly没有相关信息
+{{:coursenote:1422.png?nolink&300 |}}
+==== 14.3.5  新的视频接口 ====
+  * 视频范围
+  * 视频空间图标
+  * 空间监视
+  * 介绍视频
+=== 14.3.5.1视频文件 ===
+{{:coursenote:000001.png}}
+  * 照片和视频索引
+  * 表明潜在简单结构的视频应用
+===14.3.5.2 视频范围 ===
+{{:coursenote:00002.png}}
+  * 可能使用视频工程工具。
+  * 表明潜在的复杂结构的视频应用
+=== 14.3.5.3相关的工作 ===
+  * 重视视觉接口
+  * 必须激活用户的视觉
+  * 必须刺激用户的能力操纵视频
+{{:coursenote:00003.png}}
+<note important> 本节编撰作者(请大家在这里报到)：
+  * [[3090104657@zju.edu.cn|朱映臻]]  (3090104657)  编写了:14—14.3.4
+  * [[3090105054@zju.edu.com|阿卜力克木]]  (3090105054)  编写了:14.3.5
+  * 浙江大学2008-2011版权所有，如需转载或引用，请与[[zhx@cad.zju.edu.cn | 作者联系]]。
+</note>

Digital Asset Management 2011

User Tools

Site Tools

Differences

Page Tools