User Tools

Site Tools


keynote:lesson01

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
keynote:lesson01 [2010/04/13 13:21]
10721060
keynote:lesson01 [2023/08/19 21:02] (current)
Line 47: Line 47:
 ===== 1.2 机器学习单元概况 ===== ===== 1.2 机器学习单元概况 =====
  
-<note important>​ Call for editing </​note>​ 
  
  
Line 77: Line 76:
 **但是,当前它通常被当做一个黑盒来使用** **但是,当前它通常被当做一个黑盒来使用**
  
-**确定性 VS 率性**+**确定性 VS 率性**
 ===数据驱动模型=== ===数据驱动模型===
 {{:​keynote:​81.jpg?​500*320}} {{:​keynote:​81.jpg?​500*320}}
Line 162: Line 161:
   * Reinforcement learning: A survey   * Reinforcement learning: A survey
 <note important>​ Edit by Xinyuan Luo(骆歆远),​ <​wisp@zju.edu.cn>​ </​note>​ <note important>​ Edit by Xinyuan Luo(骆歆远),​ <​wisp@zju.edu.cn>​ </​note>​
 +
 +===未来体系结构对机器学习的支持===
 +  * 通用图灵机模型与冯诺依曼架构在并行处理上的局限[1]
 +    * 冯诺依曼架构源自通用图灵机模型(Universal Turing Machine)
 +    * 优点:便于建造、编程
 +    * 缺点:“解析指令->​执行指令->​处理数据”这种循环存在瓶颈,不利于并行处理
 +  * 设计与演化:生物神经元系统的达尔文主义解释[2]
 +    * 生物的神经元网络是基于达尔文进化论的模式演化出来的
 +    * 知识和技能都是通过后天的不断学习和训练获得。在这种学习和训练中,大脑中神经元网络的结构不断完善
 +    * 不论是对一个物种的长期进化而言,还是单个个体的一生成长而言,其大脑的学习过程都是进化论(Darwinism)的
 +  * 区别“知识”与“技能”,即"​Knowledge"​ vs "​Skill"​
 +    * 机器学习形成的知识,其应用过程的算法效率未必最优
 +    * 等价的知识,存在多种表达和应用方式
 +    * 对某一知识,更高效的表达和应用算法,可以称之为技能(Skill),以区别于知识(Knowledge)
 +    * 技能可以通过设计获得,也可以通过演化获得。
 +  * 演化思想在计算模式与体系结构设计中的萌芽
 +    * 自动并行化研究[3,​4,​5]
 +    * 代码级别的知识学习与存储[6]
 +    * 未来发展
 +      * 更高效的核间通讯:NoC、片上光通信
 +      * 新的计算模型:函数式编程语言、并行计算语言、GPGPU
 +      * 自主进化(可重构)的众核处理器架构
 +  * 参考文献
 +    * [1] John Backus, Can programming be liberated from the von Neumann style?: a functional style and its algebra of programs, Commun. ACM, Vol. 21, No. 8. (August 1978), pp. 613-641. doi:​10.1145/​359576.359579
 +    * [2] Gerald Edelman, "​Bright Air and Brilliant Fire: on the matter of mind", New York: Basic Books, 1992.
 +    * [3] Gurindar S. Sohi, Scott E. Breach, T. N. Vijaykumar, Multiscalar Processors, SIGARCH Comput. Archit. News In ISCA '95: Proceedings of the 22nd annual international symposium on Computer architecture,​ Vol. 23 (May 1995), pp. 414-425. doi:​10.1145/​223982.224451
 +    * [4] L. Hammond, B. A. Hubbert, M. Siu, M. K. Prabhu, M. Chen, K. Olukolun, The Stanford Hydra CMP, IEEE Micro, Vol. 20, No. 2. (March 2000), pp. 71-84. doi:​10.1109/​40.848474
 +    * [5] Guilherme Ottoni, Ram Rangan, Adam Stoler, David I. August, Automatic Thread Extraction with Decoupled Software Pipelining,​Microarchitecture,​ 2005. MICRO-38. Proceedings. 38th Annual IEEE/ACM International Symposium on In Proceedings of the 38th annual IEEE/ACM International Symposium on Microarchitecture (2005), pp. 105-118. doi:​10.1109/​MICRO.2005.13
 +    * [6] Yushi Kamiya, Tomoaki Tsumura, Hiroshi Matsuo, Yasuhiko Nakashima, A Speculative Technique for Auto-Memoization Processor with Multithreading,​ (December 2009), pp. 160-166. doi:​10.1109/​PDCAT.2009.67
 +
 +<note important>​ Edit by Ye Minjiao (叶敏娇, 11021036), <​johnye@zju.edu.cn>​ </​note>​
 +
 ===== 1.4 点估计 ===== ===== 1.4 点估计 =====
 最大似然,​ 最大化后验估计,​ 贝叶斯估计,​ 回归方法与过拟合问题 最大似然,​ 最大化后验估计,​ 贝叶斯估计,​ 回归方法与过拟合问题
Line 179: Line 210:
     * 富:我有一些图钉,我将其抛出,那么它尾部朝上的概率是多少?     * 富:我有一些图钉,我将其抛出,那么它尾部朝上的概率是多少?
     * 你:那么扔几次看看吧...     * 你:那么扔几次看看吧...
-       (图待上传) +    * (图待上传) 
-     ​* 你:概率是3/​5 +    * 你:概率是3/​5 
-     ​* 富:这是为什么呢? +    * 富:这是为什么呢? 
-     ​* 你:这是因为...+    * 你:这是因为...
  
 ==== 二值分布 ==== ==== 二值分布 ====
Line 195: Line 226:
   * 在优化问题中对θ进行学习:   * 在优化问题中对θ进行学习:
    * 目标函数是什么?\\ D = {T, H, H, T, T}    * 目标函数是什么?\\ D = {T, H, H, T, T}
-  * MLE: 找出使观察到的现象的概率最大化的θ +  * MLE: 找出使观察到的现象的概率最大化的 θ 
-     θ<sup>​^</​sup> = arg <​sub>​θ</​sub>​ max P(D|θ)  +<jsmath> 
-     ​= arg <​sub>​θ</​sub>​ max ln P(D|θ)  +\begin{aligned} 
-     ​= arg <​sub>​θ</​sub>​ max ln(θ <​sup>​α <​sub>​H</​sub>​ </​sup> ​(1-θ<​sup>​α <​sub>​T</​sub>​ </​sup> ​ +\hat{\theta} & \arg\max_\theta ​P(D|\theta\\\\ 
-     ​= arg <​sub>​θ</​sub>​ max (α <​sub>​H</​sub> ​ln θ α <​sub>​T</​sub> ​ln (1-θ))+ \arg\max_\theta \ln P(D|\theta\\\\ 
 + \arg\max_\theta \ln (\theta^{\alpha_H} ​(1-\theta)^{\alpha_T}) \\\\ 
 + \arg\max_\theta \alpha_H\ln\theta ​\alpha_T\ln(1-\theta) 
 +\end{aligned} 
 +</​jsmath>​ 
  
   * 导数为0时取极值,则有   * 导数为0时取极值,则有
-     ​θ<​sup>​^</​sup> ​α<​sub>​T</​sub>​ / α<​sub>​H</​sub> ​α<​sub>​T</​sub>​ +\[ 
-     = 3 + +\hat{\theta} ​\frac{\alpha_T}{\alpha_H+\alpha_T} ​\frac{3}{2+3
-  +\] 
  
 ==== 我需要抛多少次? ==== ==== 我需要抛多少次? ====
Line 218: Line 255:
   * 对于N = α<​sub>​H</​sub>​ + α<​sub>​T</​sub>​ 和 θ<​sup>​^</​sup>​ = α<​sub>​T</​sub>​ / α<​sub>​H</​sub>​ + α<​sub>​T</​sub>,​有   * 对于N = α<​sub>​H</​sub>​ + α<​sub>​T</​sub>​ 和 θ<​sup>​^</​sup>​ = α<​sub>​T</​sub>​ / α<​sub>​H</​sub>​ + α<​sub>​T</​sub>,​有
   * 令θ<​sup>​*</​sup>​为真实值,对任意ε>​0,有   * 令θ<​sup>​*</​sup>​为真实值,对任意ε>​0,有
-        P(|θ<​sup>​^</​sup>​ - θ<​sup>​*</​sup>​|≥ε)≤2e<​sup>​-2Nε<sup>2</sup><sup>+        P(|θ<​sup>​^</​sup>​ - θ<​sup>​*</​sup>​|≥ε)≤2e<​sup>​-2Nε^2</​sup>​
  
  
 <note important>​ edit by Zhang Li,​[[zhangli85@zju.edu.cn]] </​note>​ <note important>​ edit by Zhang Li,​[[zhangli85@zju.edu.cn]] </​note>​
keynote/lesson01.1271136099.txt.gz · Last modified: 2023/08/19 21:01 (external edit)