User Tools

Site Tools


keynote:lesson02

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
keynote:lesson02 [2010/03/27 19:03]
10921007
keynote:lesson02 [2010/05/24 15:37]
10921038 微小改变,Bayes公式错了
Line 102: Line 102:
 I($S_i$)=-$log_2P_i$\\ I($S_i$)=-$log_2P_i$\\
 所以每个符号的平均信息是 $E_t=-\sum_{i=1}^{M}P_ilog_2P_i$ 所以每个符号的平均信息是 $E_t=-\sum_{i=1}^{M}P_ilog_2P_i$
 +这就是“熵”\\
 +用熵建立一个信息增量的方程\\
 +{{:​keynote:​infogain.jpg|}}\\
 +信息增量最大的属性就是最佳的属性\\
 <note important>​ Revised by Li Xin (李昕),​ <​lixin@zjucadcg.com>​ </​note>​ <note important>​ Revised by Li Xin (李昕),​ <​lixin@zjucadcg.com>​ </​note>​
  
Line 110: Line 114:
  
 根据贝叶斯公式: 根据贝叶斯公式:
-<​note>​$P(Y|X) = \frac{P(X)P(Y|X)}{P(Y)}$</​note>​ +<​note>​$P(Y|X) = \frac{P(Y)P(X|Y)}{P(X)}$</​note>​ 
-于是我们需要计算P(X),P(Y|X)即可+于是我们需要计算P(Y),P(X|Y)即可
  
 构造一个分类器(Naive Beyes Classifier),即目标函数$f:​X \to Y$ 构造一个分类器(Naive Beyes Classifier),即目标函数$f:​X \to Y$
Line 128: Line 132:
  
  
 +<note important>​ Revised by Bin Xu(徐斌), <​xu_bin@zju.edu.cn>​ </​note>​
  
 ===== 2.4 支持向量机(SVM) ===== ===== 2.4 支持向量机(SVM) =====
Line 139: Line 144:
   -注意到一般情况下这种超平面会有无数多个可能,所以定义margin:超平面距离两类数据集中最近的点的和。使得margin最大的超平面就是最优的超平面。   -注意到一般情况下这种超平面会有无数多个可能,所以定义margin:超平面距离两类数据集中最近的点的和。使得margin最大的超平面就是最优的超平面。
   -很多时候数据集并不是线性可分的,也就是说找不到合适的超平面把数据集严格的分成两类,这是有两种方法:   -很多时候数据集并不是线性可分的,也就是说找不到合适的超平面把数据集严格的分成两类,这是有两种方法:
-    -引入训练误差,即允许少量数据点被分在错误的类。 +    -引入训练误差,即允许少量数据点被分在错误的类。详细来说就是加入一些松弛变量 (slack variables) $\xi_i$ ,使得数据 $x_i$ 即使不能被超平面线性分割而是有 $\xi_i$ 那么大的误差也是允许的,同时,为了避免无限制的松弛,将 slack variables 也加入需要最小化的目标函数中,并(通常)使用一个参数 $C$ 来控制原本的目标函数和松弛变量的权重,即加入 $C\sum_{i=1}^l\xi_i$ 这样一项。 
-    -使用非线性的分类方式,也就是高维可分。+    -使用非线性的分类方式,也就是高维可分。这是通过 Kernel 方法来实现,具体来说,在原始空间中无法线性可分的数据,我们希望通过一个映射 $\Phi(\cdot)$ 将原始空间中的数据映射到一个更高维度(甚至是无穷维度)的空间中。这样的做法的可行性在于考虑到 SVM (以及许多相关线性算法)中使用数据的方式仅仅是依靠于数据之间的内积 $<​x_i,​x_j>​$ ,而我们可以通过核方法直接使用低维的数据计算出高维空间中映射后的数据点的内积:$K(x_i,​x_j) = <​\Phi(x_i),​\Phi(x_j)>​_\mathcal{H}$ (其中 $<​\cdot,​\cdot>​_\mathcal{H}$ 表示在高维空间 $\mathcal{H}$ 中的内积)。通过这样的方法,就能有效地解决了线性不可分的问题。 
 + 
 +<note important>​ 
 + ​Extended by //​[[pluskid@gmail.com|张弛原]] 2010/04/26 13:28// 
 +</​note>​
  
 ====2.4.3 SVM的应用==== ====2.4.3 SVM的应用====
keynote/lesson02.txt · Last modified: 2021/04/13 21:35 (external edit)