第一部分 多变元分析(Multivariate Analysis)
课程初始化
引言: 数据驱动
大纲
背景
什么是数据驱动
数据驱动对于计算机科学和技术有何帮助
当今计算机科学最大的现状和挑战
计算机是高效运行的机器
完全过程化合成VS完全数据化
为电影中的一个角色创造动作
完全过程化合成
完全手工制作或者完全数据化
把两者结合起来的混合方法或许是最好的!?
贝叶斯推理
关于不确定性的一个规则模型
非结构化数据的通用模型
数据拟合和不确定分析的有效算法
但是,当前它通常被当做一个黑盒来使用
确定性 VS 机率性
数据驱动模型
数据驱动相关技术
机器学习 != 人工智能
学习问题的主要分类
学习情景根据训练例子中提供的有效信息的改变而改变
监督的:需要正确的输出
部分监督的:只输出一部分有效结果
无监督的:没有反馈,需要对输出进行自我评估
聚类:聚类是指将数据分割成连贯的群集的技术
结构异常识别:检测超出正常范围的数据点
加强的:标量反馈,可能暂时推迟
更多
为什么学习数据驱动有用?
开发强化的计算机系统
能够自动适应用户,更加符合用户要求
旧的系统往往很难获得必要的知识
发掘大型数据库中离线的新数据挖掘模式
提高对人的认识,生物学习
提供具体的理论计算分析,预测
分析大脑的学习过程中的爆发式活动
研究时机很好
数据量的快速增长
计算机不再昂贵而且功能强大
理论得到了很好的发展,有一系列的算法组件
对计算机科学和技术有用吗?
怎样才是一个成功的学习算法?
一些实际应用
Google!
目标识别和辨认——学习的力量
文档处理——贝叶斯分类器
网格处理——数据聚类和分割
纹理合成和分析——隐式马尔科夫模型
反射纹理合成——降维
人体建模——降维
图像处理和合成——图形建模
人体运动合成——时间序列分析
视频纹理——强化学习
总结
学习系统就是这样看上去很难但非常有用的东西
关键字:
名词:数据、模型、模式、特征
形容词:概率性的、统计的
动词:拟合、推理、挖掘
作业
参考文献
引言: 点估计
主成分分析(Component Analysis)
(Felix:11021004 正在用力扩充此部分内容)
Please refer to courseware slides for rich text formula display. Page numbers are appended after references, e.g. [pp.7] denotes page 7 of the current courseware.
引言
From Wikipedia:
“Principal components analysis (PCA) finds a set of synthetic variables that summarise the original set. It rotates the axes of variation to give a new set of ordered orthogonal axes that summarize decreasing proportions of the variation.”
原理
给定一个数据集Y, 需要找到一个变换X和一个特征向量W,以期通过W中的变元来描述Y。由于W中的变元是正交的,因此可以滤除Y中原来的变元之间的依赖关系[pp.23]。
如何计算
我们使用奇异值分解(Singular Value Decomposition, SVD)来计算主成分,即:X=UDV'. 其中U和V是正交(Orthogonal)矩阵,D是对角(Diagonal)矩阵,使用V'代表V的转置(Transpose)[pp.30].
在实际应用中,需要考虑到样本X的一些特殊情况,例如:
因为统计量是实数,因此可以使用V的转置矩阵(Transpose)来代替V的共轭矩阵(Conjugate transpose)
例子
My Abstract of this paper
PCA的问题
只适用于正态分布数据(?)
推广:ICA, K-PCA, …
距离和相似性(Distance and Similarity)
[PAPER] ISOMAP - Isometric feature mapping
LLE(Locally Linear Embedding)[pp.21]
谱聚类(Spectral clustering):利用邻接图和相似度矩阵[pp.29]
经典聚类算法[pp.38]
自底而下:顺序合并最近的点/聚类
Mixture density estimation[pp.51]
K-means clustering[pp.59]
Mean shift[pp.62]
总结
距离计算可以用于寻找数据集中合适的相似度标准,并发现本质的数据结构
图模型(Graphical Models)
HOMEWORK
本节编撰作者(请大家在这里报到):
浙江大学2008-2010版权所有,如需转载或引用,请与 作者联系。