第一讲 引言与点估计方法
0. 引言
提要
问题的背景
数据驱动的基本概念
数据驱动的应用与意义
当今计算机科学最大的现状和挑战
计算机是高效运行的机器
完全过程化合成VS完全数据化
为电影中的一个角色创造动作
完全过程化合成
完全手工制作或者完全数据化
把两者结合起来的混合方法或许是最好的!?
贝叶斯推理
关于不确定性的一个规则模型
非结构化数据的通用模型
数据拟合和不确定分析的有效算法
但是,当前它通常被当做一个黑盒来使用
确定性 VS 机率性
数据驱动模型
数据驱动相关技术
机器学习 != 人工智能
学习问题的主要分类
学习情景根据训练例子中提供的有效信息的改变而改变
监督的:需要正确的输出
部分监督的:只输出一部分有效结果
无监督的:没有反馈,需要对输出进行自我评估
聚类:聚类是指将数据分割成连贯的群集的技术
结构异常识别:检测超出正常范围的数据点
加强的:标量反馈,可能暂时推迟
更多
为什么学习数据驱动有用?
开发强化的计算机系统
能够自动适应用户,更加符合用户要求
旧的系统往往很难获得必要的知识
发掘大型数据库中离线的新数据挖掘模式
提高对人的认识,生物学习
提供具体的理论计算分析,预测
分析大脑的学习过程中的爆发式活动
研究时机很好
数据量的快速增长
计算机不再昂贵而且功能强大
理论得到了很好的发展,有一系列的算法组件
对计算机科学和技术有用吗?
怎样才是一个成功的学习算法?
一些实际应用
Google!
目标识别和辨认——学习的力量
文档处理——贝叶斯分类器
网格处理——数据聚类和分割
纹理合成和分析——隐式马尔科夫模型
反射纹理合成——降维
人体建模——降维
图像处理和合成——图形建模
人体运动合成——时间序列分析
视频纹理——强化学习
总结
学习系统就是这样看上去很难但非常有用的东西
关键字:
名词:数据、模型、模式、特征
形容词:概率性的、统计的
动词:拟合、推理、挖掘
作业
参考文献
1. 点估计
最大似然, 最大化后验估计, 贝叶斯估计, 回归方法与过拟合问题
你将要学习
点估计
最大似然估计(MLE, Maximal Likelihood Estimation)
贝叶斯学习(Bayesian Learning)
最大化后验(MAP, Maximize A Posterior)
高斯估计
回归(Regression)
基础方程 = 特性
方差和的最优化
回归与高斯估计的关系
倾向与方差的折中
你的第一个咨询工作
一个北京的IT亿万富翁咨询你如下问题:
* 富:我有一些图钉,我将其抛出,那么它尾部朝上的概率是多少?
* 你:那么扔几次看看吧...
* (图待上传)
* 你:概率是3/5
* 富:这是为什么呢?
* 你:这是因为...
二值分布
设头朝下的概率 P(Heads)= θ,尾朝下的概率 P(Tails)=1-θ,发生的事件D={T,H,H,T,T}
抛图钉是一种独立重复分布(i.i.d. Independent Identically distributed)
每一次实验彼此独立
根据二值分布的分布概率相同
如果一个事件D包含αH个头朝下的概率和αT个尾朝下的概率,这样事件的概率是:
P(D|θ)=θαH(1-θ)αT
最大似然估计
数据:观察事件集合D包含α H 个头朝下的事件和α T 个尾朝下的事件
前提:二值分布
在优化问题中对θ进行学习:
目标函数是什么?
D = {T, H, H, T, T}
MLE: 找出使观察到的现象的概率最大化的 θ
\begin{aligned}
\hat{\theta} & = \arg\max_\theta P(D|\theta) \\
& = \arg\max_\theta \ln P(D|\theta) \\
& = \arg\max_\theta \ln (\theta^{\alpha_H} (1-\theta)^{\alpha_T}) \\
& = \arg\max_\theta \alpha_H\ln\theta + \alpha_T\ln(1-\theta)
\end{aligned}
\hat{\theta} = \frac{\alpha_T}{\alpha_H+\alpha_T} = \frac{3}{2+3}
我需要抛多少次?
θ^ = αT / (αH + αT)
对话片段
* 富:我抛了两个头朝上和三个尾朝上
* 你:θ是3/5,我可以证明
* 富:如果我抛了20个头朝上和30个尾朝上呢
* 你:答案依然一样,我可以证明
* 富:能多解释一下吗
* 你:越多约好吗
* 富:所以我才会给你这么多报酬啊
简单边界(基于Höffding不等式)
P(|θ^ - θ*|≥ε)≤2e-2Nε^2
COPYRIGHT, 2013