This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
keynote:lesson01 [2010/04/13 11:22] 10721060 |
keynote:lesson01 [2023/08/19 21:02] (current) |
||
---|---|---|---|
Line 47: | Line 47: | ||
===== 1.2 机器学习单元概况 ===== | ===== 1.2 机器学习单元概况 ===== | ||
- | <note important> Call for editing </note> | ||
Line 77: | Line 76: | ||
**但是,当前它通常被当做一个黑盒来使用** | **但是,当前它通常被当做一个黑盒来使用** | ||
- | **确定性 VS 几率性** | + | **确定性 VS 机率性** |
===数据驱动模型=== | ===数据驱动模型=== | ||
{{:keynote:81.jpg?500*320}} | {{:keynote:81.jpg?500*320}} | ||
Line 162: | Line 161: | ||
* Reinforcement learning: A survey | * Reinforcement learning: A survey | ||
<note important> Edit by Xinyuan Luo(骆歆远), <wisp@zju.edu.cn> </note> | <note important> Edit by Xinyuan Luo(骆歆远), <wisp@zju.edu.cn> </note> | ||
+ | |||
+ | ===未来体系结构对机器学习的支持=== | ||
+ | * 通用图灵机模型与冯诺依曼架构在并行处理上的局限[1] | ||
+ | * 冯诺依曼架构源自通用图灵机模型(Universal Turing Machine) | ||
+ | * 优点:便于建造、编程 | ||
+ | * 缺点:“解析指令->执行指令->处理数据”这种循环存在瓶颈,不利于并行处理 | ||
+ | * 设计与演化:生物神经元系统的达尔文主义解释[2] | ||
+ | * 生物的神经元网络是基于达尔文进化论的模式演化出来的 | ||
+ | * 知识和技能都是通过后天的不断学习和训练获得。在这种学习和训练中,大脑中神经元网络的结构不断完善 | ||
+ | * 不论是对一个物种的长期进化而言,还是单个个体的一生成长而言,其大脑的学习过程都是进化论(Darwinism)的 | ||
+ | * 区别“知识”与“技能”,即"Knowledge" vs "Skill" | ||
+ | * 机器学习形成的知识,其应用过程的算法效率未必最优 | ||
+ | * 等价的知识,存在多种表达和应用方式 | ||
+ | * 对某一知识,更高效的表达和应用算法,可以称之为技能(Skill),以区别于知识(Knowledge) | ||
+ | * 技能可以通过设计获得,也可以通过演化获得。 | ||
+ | * 演化思想在计算模式与体系结构设计中的萌芽 | ||
+ | * 自动并行化研究[3,4,5] | ||
+ | * 代码级别的知识学习与存储[6] | ||
+ | * 未来发展 | ||
+ | * 更高效的核间通讯:NoC、片上光通信 | ||
+ | * 新的计算模型:函数式编程语言、并行计算语言、GPGPU | ||
+ | * 自主进化(可重构)的众核处理器架构 | ||
+ | * 参考文献 | ||
+ | * [1] John Backus, Can programming be liberated from the von Neumann style?: a functional style and its algebra of programs, Commun. ACM, Vol. 21, No. 8. (August 1978), pp. 613-641. doi:10.1145/359576.359579 | ||
+ | * [2] Gerald Edelman, "Bright Air and Brilliant Fire: on the matter of mind", New York: Basic Books, 1992. | ||
+ | * [3] Gurindar S. Sohi, Scott E. Breach, T. N. Vijaykumar, Multiscalar Processors, SIGARCH Comput. Archit. News In ISCA '95: Proceedings of the 22nd annual international symposium on Computer architecture, Vol. 23 (May 1995), pp. 414-425. doi:10.1145/223982.224451 | ||
+ | * [4] L. Hammond, B. A. Hubbert, M. Siu, M. K. Prabhu, M. Chen, K. Olukolun, The Stanford Hydra CMP, IEEE Micro, Vol. 20, No. 2. (March 2000), pp. 71-84. doi:10.1109/40.848474 | ||
+ | * [5] Guilherme Ottoni, Ram Rangan, Adam Stoler, David I. August, Automatic Thread Extraction with Decoupled Software Pipelining,Microarchitecture, 2005. MICRO-38. Proceedings. 38th Annual IEEE/ACM International Symposium on In Proceedings of the 38th annual IEEE/ACM International Symposium on Microarchitecture (2005), pp. 105-118. doi:10.1109/MICRO.2005.13 | ||
+ | * [6] Yushi Kamiya, Tomoaki Tsumura, Hiroshi Matsuo, Yasuhiko Nakashima, A Speculative Technique for Auto-Memoization Processor with Multithreading, (December 2009), pp. 160-166. doi:10.1109/PDCAT.2009.67 | ||
+ | |||
+ | <note important> Edit by Ye Minjiao (叶敏娇, 11021036), <johnye@zju.edu.cn> </note> | ||
+ | |||
===== 1.4 点估计 ===== | ===== 1.4 点估计 ===== | ||
最大似然, 最大化后验估计, 贝叶斯估计, 回归方法与过拟合问题 | 最大似然, 最大化后验估计, 贝叶斯估计, 回归方法与过拟合问题 | ||
Line 179: | Line 210: | ||
* 富:我有一些图钉,我将其抛出,那么它尾部朝上的概率是多少? | * 富:我有一些图钉,我将其抛出,那么它尾部朝上的概率是多少? | ||
* 你:那么扔几次看看吧... | * 你:那么扔几次看看吧... | ||
- | (图待上传) | + | * (图待上传) |
* 你:概率是3/5 | * 你:概率是3/5 | ||
* 富:这是为什么呢? | * 富:这是为什么呢? | ||
* 你:这是因为... | * 你:这是因为... | ||
+ | |||
==== 二值分布 ==== | ==== 二值分布 ==== | ||
* 设头朝下的概率 P(Heads)= θ,尾朝下的概率 P(Tails)=1-θ,发生的事件D={T,H,H,T,T} | * 设头朝下的概率 P(Heads)= θ,尾朝下的概率 P(Tails)=1-θ,发生的事件D={T,H,H,T,T} | ||
Line 190: | Line 222: | ||
* 如果一个事件D包含α<sub>H</sub>个头朝下的概率和α<sub>T</sub>个尾朝下的概率,这样事件的概率是:\\P(D|θ)=θ<sup>α<sub>H</sub></sup>(1-θ)<sup>α<sub>T</sub></sup> | * 如果一个事件D包含α<sub>H</sub>个头朝下的概率和α<sub>T</sub>个尾朝下的概率,这样事件的概率是:\\P(D|θ)=θ<sup>α<sub>H</sub></sup>(1-θ)<sup>α<sub>T</sub></sup> | ||
==== 最大似然估计 ==== | ==== 最大似然估计 ==== | ||
- | * 数据:观察事件集合D包含α<sub>H</sub>个头朝下的事件和α<sub>T</sub>个尾朝下的事件 | + | * 数据:观察事件集合D包含α <sub>H</sub> 个头朝下的事件和α <sub>T</sub> 个尾朝下的事件 |
* 前提:二值分布 | * 前提:二值分布 | ||
* 在优化问题中对θ进行学习: | * 在优化问题中对θ进行学习: | ||
* 目标函数是什么?\\ D = {T, H, H, T, T} | * 目标函数是什么?\\ D = {T, H, H, T, T} | ||
- | * MLE: 找出使观察到的现象的概率最大化的θ | + | * MLE: 找出使观察到的现象的概率最大化的 θ |
- | θ<sup>^</sup> = arg<sub>θ</sub>max P(D|θ) | + | <jsmath> |
- | = arg<sub>θ</sub>max ln P(D|θ) | + | \begin{aligned} |
- | = arg<sub>θ</sub>max ln(θ<sup>α<sub>H</sub></sup>(1-θ)<sup>α<sub>T</sub></sup> | + | \hat{\theta} & = \arg\max_\theta P(D|\theta) \\\\ |
- | = arg<sub>θ</sub>max (α<sub>H</sub> ln θ + α<sub>T</sub> ln (1-θ)) | + | & = \arg\max_\theta \ln P(D|\theta) \\\\ |
+ | & = \arg\max_\theta \ln (\theta^{\alpha_H} (1-\theta)^{\alpha_T}) \\\\ | ||
+ | & = \arg\max_\theta \alpha_H\ln\theta + \alpha_T\ln(1-\theta) | ||
+ | \end{aligned} | ||
+ | </jsmath> | ||
* 导数为0时取极值,则有 | * 导数为0时取极值,则有 | ||
- | θ<sup>^</sup> = α<sub>T</sub> / α<sub>H</sub> + α<sub>T</sub> | + | \[ |
- | = 3 / 2 + 3 | + | \hat{\theta} = \frac{\alpha_T}{\alpha_H+\alpha_T} = \frac{3}{2+3} |
- | + | \] | |
+ | |||
==== 我需要抛多少次? ==== | ==== 我需要抛多少次? ==== | ||
θ<sup>^</sup> = α<sub>T</sub> / α<sub>H</sub> + α<sub>T</sub> | θ<sup>^</sup> = α<sub>T</sub> / α<sub>H</sub> + α<sub>T</sub> | ||
Line 216: | Line 255: | ||
* 对于N = α<sub>H</sub> + α<sub>T</sub> 和 θ<sup>^</sup> = α<sub>T</sub> / α<sub>H</sub> + α<sub>T</sub>,有 | * 对于N = α<sub>H</sub> + α<sub>T</sub> 和 θ<sup>^</sup> = α<sub>T</sub> / α<sub>H</sub> + α<sub>T</sub>,有 | ||
* 令θ<sup>*</sup>为真实值,对任意ε>0,有 | * 令θ<sup>*</sup>为真实值,对任意ε>0,有 | ||
- | P(|θ<sup>^</sup> - θ<sup>*</sup>|≥ε)≤2e<sup>-2Nε<sup>2</sup><sup> | + | P(|θ<sup>^</sup> - θ<sup>*</sup>|≥ε)≤2e<sup>-2Nε^2</sup> |
<note important> edit by Zhang Li,[[zhangli85@zju.edu.cn]] </note> | <note important> edit by Zhang Li,[[zhangli85@zju.edu.cn]] </note> |