User Tools

Site Tools


keynote:lesson02

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
keynote:lesson02 [2010/03/27 20:27]
10921007
keynote:lesson02 [2010/06/26 14:22]
10921021
Line 16: Line 16:
 |4        |Sunny ​ |Warm      |High     ​|Strong ​ |Cool   ​|Change ​   |Yes     | |4        |Sunny ​ |Warm      |High     ​|Strong ​ |Cool   ​|Change ​   |Yes     |
 **实例空间X**:概念是定义在一个实例集合上的,本例中X是所有可能的日子,而Sky,​AirTemp之类是日子的属性;​\\ **实例空间X**:概念是定义在一个实例集合上的,本例中X是所有可能的日子,而Sky,​AirTemp之类是日子的属性;​\\
-**目标函数C**:学习的函数,可以是定义在实例集X上的任意布尔函数,​形式化为C:​X->​{0,​1};​\\+**目标函数C**:学习的函数,可以是定义在实例集X上的任意布尔函数,​形式化为C:​X->​{0,​1};​\\
 **训练样本D**:是为学习概念而提供的训练实例,训练样本中的每一个条目为X中的一个实例加上此实例对应的目标函数的值C(x);​\\ **训练样本D**:是为学习概念而提供的训练实例,训练样本中的每一个条目为X中的一个实例加上此实例对应的目标函数的值C(x);​\\
 **假设空间H**:所有可能假设的集合,它中的每一个假设h表示X上定义的布尔函数,即h:X->​{0,​1};​\\ **假设空间H**:所有可能假设的集合,它中的每一个假设h表示X上定义的布尔函数,即h:X->​{0,​1};​\\
Line 114: Line 114:
  
 根据贝叶斯公式: 根据贝叶斯公式:
-<​note>​$P(Y|X) = \frac{P(X)P(Y|X)}{P(Y)}$</​note>​ +<​note>​$P(Y|X) = \frac{P(Y)P(X|Y)}{P(X)}$</​note>​ 
-于是我们需要计算P(X),P(Y|X)即可+于是我们需要计算P(Y),P(X|Y)即可
  
 构造一个分类器(Naive Beyes Classifier),即目标函数$f:​X \to Y$ 构造一个分类器(Naive Beyes Classifier),即目标函数$f:​X \to Y$
Line 132: Line 132:
  
  
 +<note important>​ Revised by Bin Xu(徐斌), <​xu_bin@zju.edu.cn>​ </​note>​
  
 ===== 2.4 支持向量机(SVM) ===== ===== 2.4 支持向量机(SVM) =====
Line 143: Line 144:
   -注意到一般情况下这种超平面会有无数多个可能,所以定义margin:超平面距离两类数据集中最近的点的和。使得margin最大的超平面就是最优的超平面。   -注意到一般情况下这种超平面会有无数多个可能,所以定义margin:超平面距离两类数据集中最近的点的和。使得margin最大的超平面就是最优的超平面。
   -很多时候数据集并不是线性可分的,也就是说找不到合适的超平面把数据集严格的分成两类,这是有两种方法:   -很多时候数据集并不是线性可分的,也就是说找不到合适的超平面把数据集严格的分成两类,这是有两种方法:
-    -引入训练误差,即允许少量数据点被分在错误的类。 +    -引入训练误差,即允许少量数据点被分在错误的类。详细来说就是加入一些松弛变量 (slack variables) $\xi_i$ ,使得数据 $x_i$ 即使不能被超平面线性分割而是有 $\xi_i$ 那么大的误差也是允许的,同时,为了避免无限制的松弛,将 slack variables 也加入需要最小化的目标函数中,并(通常)使用一个参数 $C$ 来控制原本的目标函数和松弛变量的权重,即加入 $C\sum_{i=1}^l\xi_i$ 这样一项。 
-    -使用非线性的分类方式,也就是高维可分。+    -使用非线性的分类方式,也就是高维可分。这是通过 Kernel 方法来实现,具体来说,在原始空间中无法线性可分的数据,我们希望通过一个映射 $\Phi(\cdot)$ 将原始空间中的数据映射到一个更高维度(甚至是无穷维度)的空间中。这样的做法的可行性在于考虑到 SVM (以及许多相关线性算法)中使用数据的方式仅仅是依靠于数据之间的内积 $<​x_i,​x_j>​$ ,而我们可以通过核方法直接使用低维的数据计算出高维空间中映射后的数据点的内积:$K(x_i,​x_j) = <​\Phi(x_i),​\Phi(x_j)>​_\mathcal{H}$ (其中 $<​\cdot,​\cdot>​_\mathcal{H}$ 表示在高维空间 $\mathcal{H}$ 中的内积)。通过这样的方法,就能有效地解决了线性不可分的问题。 
 + 
 +<note important>​ 
 + ​Extended by //​[[pluskid@gmail.com|张弛原]] 2010/04/26 13:28// 
 +</​note>​
  
 ====2.4.3 SVM的应用==== ====2.4.3 SVM的应用====
keynote/lesson02.txt · Last modified: 2021/04/13 21:35 (external edit)