User Tools

Site Tools


keynote:2013-lesson01

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
keynote:2013-lesson01 [2013/03/12 20:42]
hongxin [我需要抛多少次?]
keynote:2013-lesson01 [2023/08/19 21:02] (current)
Line 1: Line 1:
 +====== 第一讲 引言与点估计方法 ======
 +
 +===== 0. 引言 =====
 +
 +==== 提要 ====
 +  * 问题的背景
 +  * 数据驱动的基本概念
 +  * 数据驱动的应用与意义
 +
 +=== 当今计算机科学最大的现状和挑战 ===
 +  * 大量企业正在收集数据: ​
 +    * Google, Apple, Facebook, IBM, Microsoft, Amazon, …
 +    * 中国: 3Q War, Taobao, Sina, Baidu
 +  * 数据,数据,数据……
 +    * 需要大量乏味的重复的工作才能创建数字化的世界 ​
 +      * 需要寻找新的交互方式,创造新类型的媒体
 +      * 花费高的代价才能请专家(科学家、工程师、电影制作人员、图形设计师、优秀艺术家和游戏设计人员)来完成工作
 +  * 需要高效地处理已经存在的数据,并通过它们获得新的数据
 +
 +
 +=== 计算机是高效运行的机器 ===
 +  * 各种图像、场景,只要人能够创造,就可以利用计算机来得到它
 +  * 但是如何来创造这些图像、场景
 +
 +=== 完全过程化合成VS完全数据化 ===
 +  * 为电影中的一个角色创造动作
 +    * 完全过程化合成
 +       * 动作比较连贯,但是很容易让人觉得是伪造的,很少在实际中这样用
 +    * 完全手工制作或者完全数据化
 +      * 效果质量很高,但是连贯性不好
 +    * 把两者结合起来的混合方法或许是最好的!?
 +
 +=== 贝叶斯推理 ===
 +    * 关于不确定性的一个规则模型
 +    * 非结构化数据的通用模型
 +    * 数据拟合和不确定分析的有效算法
 +**但是,当前它通常被当做一个黑盒来使用**
 +
 +**确定性 VS 机率性**
 +===数据驱动模型===
 +{{:​keynote:​81.jpg?​500*320}}
 +===数据驱动相关技术===
 +{{:​keynote:​82.jpg?​500*320}}
 +**机器学习 != 人工智能**
 +
 +  * 学习系统不只是用来解决一个问题,而是基于一些特征来使系统本身更加优化:
 +    * 关于系统应该如何做出响应的一些例子
 +    * 关于系统在解决问题的过程中反复试验学习到的经验
 +  * 不同于通常的计算机科学,去实现一个未知的功能;仅仅是处理已知的输入输出数据对(学习过程中的训练例子)
 +
 +===学习问题的主要分类===
 +
 +  * 学习情景根据训练例子中提供的有效信息的改变而改变
 +    * 监督的:需要正确的输出
 +      * 分类:输入N个目标,输出结果为选择其中一个(语音识别、目标辨认、医学诊断)
 +      * 回归:输出准确值(预测未来的市场价格、温度)
 +    * 部分监督的:只输出一部分有效结果
 +    * 无监督的:没有反馈,需要对输出进行自我评估
 +      * 聚类:聚类是指将数据分割成连贯的群集的技术
 +      * 结构异常识别:检测超出正常范围的数据点
 +    * 加强的:​标量反馈,​可能暂时推迟
 +
 +===更多===
 +  * 时间序列分析
 +  * 降维
 +  * 模型选择
 +  * 泛型方法
 +  * 图形建模
 +
 +===为什么学习数据驱动有用?===
 +  * 开发强化的计算机系统
 +    * 能够自动适应用户,更加符合用户要求
 +    * 旧的系统往往很难获得必要的知识
 +    * 发掘大型数据库中离线的新数据挖掘模式
 +  * 提高对人的认识,生物学习
 +    * 提供具体的理论计算分析,预测
 +    * 分析大脑的学习过程中的爆发式活动
 +  * 研究时机很好
 +    * 数据量的快速增长
 +    * 计算机不再昂贵而且功能强大
 +    * 理论得到了很好的发展,有一系列的算法组件
 +
 +===对计算机科学和技术有用吗?===
 +  * 赞成方:所有事物都是机器学习,所有事物都是人的调整
 +    * 在有些时候,这个说法是正确的
 +  * 反对方:虽然是对“学习”的一种深化,但还有其它更强大和有效的算法。
 +    * 问题分类
 +    * 通用模型
 +    * 通过概率进行推算
 +  * 相信数学的魔力
 +
 +===怎样才是一个成功的学习算法?===
 +  * 计算效率
 +  * 鲁棒性
 +  * 统计稳定性
 +
 +===一些实际应用===
 +  * Google!
 +  * 目标识别和辨认——学习的力量
 +  * 文档处理——贝叶斯分类器
 +  * 网格处理——数据聚类和分割
 +  * 纹理合成和分析——隐式马尔科夫模型
 +  * 反射纹理合成——降维
 +  * 人体建模——降维
 +  * 图像处理和合成——图形建模
 +  * 人体运动合成——时间序列分析
 +  * 视频纹理——强化学习
 +
 +===总结===
 +  * 学习系统就是这样看上去很难但非常有用的东西:​-D
 +    * 关键字:
 +      * 名词:数据、模型、模式、特征
 +      * 形容词:概率性的、统计的
 +      * 动词:拟合、推理、挖掘
 +
 +===作业===
 +  * 在你的研究方向上寻找学习系统的潜在应用
 +
 +===参考文献===
 +  * Reinforcement learning: A survey
 +
 +===== 1. 点估计 =====
 +最大似然,​ 最大化后验估计,​ 贝叶斯估计,​ 回归方法与过拟合问题
 +==== 你将要学习 ====
 +  * 点估计
 +    * 最大似然估计(MLE,​ Maximal Likelihood Estimation)
 +    * 贝叶斯学习(Bayesian Learning)
 +    * 最大化后验(MAP,​ Maximize A Posterior)
 +  * 高斯估计
 +  * 回归(Regression)
 +    * 基础方程 = 特性
 +    * 方差和的最优化
 +    * 回归与高斯估计的关系
 +  * 倾向与方差的折中
 +==== 你的第一个咨询工作 ====
 +  一个北京的IT亿万富翁咨询你如下问题:
 +    * 富:我有一些图钉,我将其抛出,那么它尾部朝上的概率是多少?
 +    * 你:那么扔几次看看吧...
 +    * (图待上传)
 +    * 你:概率是3/​5
 +    * 富:这是为什么呢?
 +    * 你:这是因为...
 +
 +==== 二值分布 ====
 +  * 设头朝下的概率 P(Heads)= θ,尾朝下的概率 P(Tails)=1-θ,发生的事件D={T,​H,​H,​T,​T}
 +  * 抛图钉是一种独立重复分布(i.i.d. Independent Identically distributed)
 +   * 每一次实验彼此独立
 +   * 根据二值分布的分布概率相同
 +  * 如果一个事件D包含α<​sub>​H</​sub>​个头朝下的概率和α<​sub>​T</​sub>​个尾朝下的概率,这样事件的概率是:
 +
 +P(D|θ)=θ<​sup>​α<​sub>​H</​sub></​sup>​(1-θ)<​sup>​α<​sub>​T</​sub></​sup>​
 +==== 最大似然估计 ====
 +  * 数据:观察事件集合D包含α <​sub>​H</​sub>​ 个头朝下的事件和α <​sub>​T</​sub>​ 个尾朝下的事件
 +  * 前提:二值分布
 +  * 在优化问题中对θ进行学习:
 +   * 目标函数是什么?\\ D = {T, H, H, T, T}
 +  * MLE: 找出使观察到的现象的概率最大化的 θ
 +<​jsmath>​
 +\begin{aligned}
 +\hat{\theta} & = \arg\max_\theta P(D|\theta) \\\\
 + & = \arg\max_\theta \ln P(D|\theta) \\\\
 + & = \arg\max_\theta \ln (\theta^{\alpha_H} (1-\theta)^{\alpha_T}) \\\\
 + & = \arg\max_\theta \alpha_H\ln\theta + \alpha_T\ln(1-\theta)
 +\end{aligned}
 +</​jsmath>​
 +
 +
 +  * 导数为0时取极值,则有
 +\[
 +\hat{\theta} = \frac{\alpha_T}{\alpha_H+\alpha_T} = \frac{3}{2+3}
 +\]
 +
 +
 +==== 我需要抛多少次? ====
 +
 +θ<​sup>​^</​sup>​ = α<​sub>​T</​sub>​ / (α<​sub>​H</​sub>​ + α<​sub>​T</​sub>​)
 +  ​
 +  对话片段
 +    * 富:我抛了两个头朝上和三个尾朝上
 +    * 你:θ是3/​5,我可以证明
 +    * 富:如果我抛了20个头朝上和30个尾朝上呢
 +    * 你:答案依然一样,我可以证明
 +    * 富:能多解释一下吗
 +    * 你:越多约好吗
 +    * 富:所以我才会给你这么多报酬啊
 +
 +==== 简单边界(基于Höffding不等式) ====
 +  * 对于N = α<​sub>​H</​sub>​ + α<​sub>​T</​sub>​ 和 θ<​sup>​^</​sup>​ = α<​sub>​T</​sub>​ / α<​sub>​H</​sub>​ + α<​sub>​T</​sub>,​有
 +  * 令θ<​sup>​*</​sup>​为真实值,对任意ε>​0,有
 +        P(|θ<​sup>​^</​sup>​ - θ<​sup>​*</​sup>​|≥ε)≤2e<​sup>​-2Nε^2</​sup>​
 +
 +
 +
 +<note important>​ COPYRIGHT, 2013 </​note>​
 +