今天开始学习周志华老师的《机器学习》,边学边做笔记,总结一下自己的所学,会坚持更新,机器学习小白,出错的地方请各位大佬不吝指教。

教材链接:https://pan.baidu.com/s/1uNulv7Os0vzqjXc-c5mx5w 密码:6pzb


第一章 绪论

1、样本空间

百度百科定义:随机事件E的所有基本结果组成的集合为E的样本空间。样本空间的元素称为样本点或基本事件。

现实任务中样本空间规模通常很大(例如20个属性,每个属性有10个可能,则样本空间的规模已达10^20)。在机器学习中,通常假设样本空间中全部样本服从一个未知“分布”D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”

训练集:通常只是样本空间的一个很小的采样,我们希望它能很好地反映出样本空间的特性,否则就很难期望在训练集上训练的模型可以在整个样本空间都可以工作的很好。

泛化能力:机器学习的目标是使学得模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作的很好。学得模型适用于新样本的能力,称为“泛化”能力。具有强泛化能力的模型能很好的适用于整个样本空间。

一般而言,训练样本越多,我们的到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。

2、假设空间

归纳:从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律;

演绎:从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体情况。

"从样例中学习"显然是一个归纳的过程,亦称“归纳学习”(inductive learning)

仅仅“记住”训练样本,就是所谓的“机械学习”,或称“死记硬背式学习”;还需要具有良好的泛化能力。

我们可以把学习过程看做是一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。

假设空间有所有特征变量的可能取值所形成的假设组成。例如有3个可变特征,分别是0,1,那么面临的假设空间规模大小为3*3*3+1=28. (0,1,和非01值)

需要注意的是,现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一直,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”(version space)。这个时候可能会出现一个问题,现在有N个与训练集一致的假设,但是与它们对应的模型在面对新样本时,却会产生不一样的输出,那么我们怎么样选择采用哪一个模型呢?这时候就需要考虑归纳偏好

3、归纳偏好

任何一个有效的学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的算法所迷惑,而无法产生确定的学习结果(模型)。

“奥卡姆剃刀”(Occam's razor)原则:“如无必要,勿增实体”;即切勿浪费较多东西去做,用较少的东西,同样可以做好的事情;即“若有多个假设与观察一致,则选用最简单的那一个。”

“奥卡姆剃刀”是一个常用的、自然科学研究中最基本的原则,可以作为一种偏好用来引导算法确立。但并不是唯一的偏好。怎么判断一个假设更“简单”并不容易,需要借助其他机制才能解决。

事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

NFL定理(“没有免费的午餐”定理,No Free Lunch Theorem)对于一个学习算法Ea,若它在某些问题上比学习算法Eb好,则必然存在另一些问题,在那里Eb比Ea好。即无论学习算法Ea多么聪明,学习算法Eb多笨拙(哪怕胡猜),它们的期望性是相同的。证明请看西瓜书1.4节。NFL定理假设所有“问题”出现的机会相同,或所有问题同等重要,但实际情形不是这样,很多时候,我们只关注正在试图解决的问题。

NFL定理最重要的寓意:脱离具体问题,空泛的谈论“什么学习算法更好”毫无意义,因为要是考虑所有潜在的问题,则所有学习算法一样好,要谈论算法的相对优劣,必须针对具体的学习问题;在某些问题上表现良好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好于问题是否匹配,往往会起到决定性的作用。

 

10-07 14:32