Datawhale组队学习_Task01：概览西瓜书+南瓜书第1、2章

第一章绪论

1.1引言

打开书，五分钟后，合上书：嗯！学会了！如何判断一个好瓜

1.2基本术语

分类：对离散值进行预测的学习任务，是有监督学习的代表

回归：对连续值进行预测的学习任务，是有监督学习的代表

聚类：将训练集中的样本分成若干组，是无监督学习的代表

泛化能力：学得模型适用于新样本的能力

1.3假设空间

假设空间：与训练集匹配的假设所组成的空间

版本空间：与训练集一致的假设集合

有关于假设空间的疑惑：

若“色泽”“根蒂”“敲声”分别有3、3、3种可能取值，则我们面临的假设空间规模大小为4×4×4＋1=65

尝试解释：

首先就是这个“4”应该看作是3+1，其中这个+1表示的是在这个选项下任何情况均满足好瓜的假设（即通配），其次就是最后的+1表示的应该就是世界上不存在“好瓜”这一假设。

习题：

1.1 表1.1中若只包含编号为1和4的两个样例，试给出相应的版本空间。

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
4	乌黑	稍蜷	沉闷	否

解答：

1.3 若数据包含噪声，则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下，设计一种归纳偏好用于假设选择。

分析：既然数据中包含噪声，最直接的思路就是首先去除噪声。

去噪方法：若存在两个样例属性取值都相同，标记却不同，则只保留标记为正例的样例（或标记为反例的样例，也可以考虑更加复杂的统计相似样例），在此基础上求出版本空间。

也可以考虑其他方法：

>1.在求版本空间时，只除去与反例不一致的假设。

>2.求版本空间时，只留下包含了所有正例的假设。

第二章模型评估与选择

2.1 经验误差与过拟合

错误率：分类错误的样本数找样本总数的比例；

经验误差：学习器在训练集上的误差；

泛化误差：学习器在新样本上的误差；

过拟合：学习器将训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样导致了泛化性能下降。

欠拟合：对训练样本的一般性质尚未学习好，容易克服，如在决策树学习中扩展分支，在神经网络学习中增加训练轮数等。

2.2 评估方法

将数据集划分为训练集和测试集的方法

2.2.1 留出法

直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T

在划分时要注意在分类任务重至少保持样本的类别比例相似！

单次使用留出法得到的估计结果往往不够稳定可靠，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。

常见做法是将大约2/3~4/5的样本用于训练，剩余样本用于测试。

2.2.2 交叉验证法

依据分层采样的方法先将数据集划分为k个大小相似的互斥子集，每个子集尽可能保持数据分布的一致性，然后每次用（k-1）个子集的并集作为训练集，余下的那个子集作为测试机，这样就可以获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是k个测试结果的平均值，k常取10，也称10折交叉验证。

&emsp;&emsp;与留出法相似，将数据集D划分为k个子集同样存在多种划分方式，为了减小因样本划分不同而引入的差别，k折交叉验证通常要随即使用不同的划分重复p次，最终的评估结果是这p次k折交叉验证结果的均值，例如常见的**“10次10折交叉验证”**

留一法：每个子集中仅含一个样本，这使得评估结果比较精确，而当数据集比较大时，其计算开销《难以忍受》。

2.2.3 自助法

当前已知缺陷：

留出法与交叉验证法：实际评估的模型所使用的训练集比D小，这必然将引入一些因训练样本规模不同而导致的估计偏差

留一法：计算复杂度过高

若给定包含m个样本的数据集D，我们对它进行采样产生数据集D'：每次随机从D中挑选一个样本，将其拷贝放入D'，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行m次后，我们就可以得到包含M个样本的数据集D'，做一个估计。样本在m次采样中始终不被采到的概率是$（1-\frac{1}{m})^m$，取极限得到：

$\lim_{m\rightarrow+\infty} (1-\frac{1}{m})^m=\frac{1}{e}≈0.368$
即通过自主采样，初始数据集D中约有36.8％的样本未出现在采样数据集D'中于是我们可将D'用作训练集，D\D'用作测试集；这样，实际评估的模型与期望评估的模型都使用m个训练样本，而我们仍有约$\frac{1}{3}$的、没在训练集中出现的样本用于测试，这样的测试结果，亦称“包外估计”。

自助法在数据集较小，难以划分有限训练/测试集时很有用。

2.2.4 调参与最终模型

在模型选择完成后，学习算法和参数配置已选定，此时应该用数据集D重新训练模型，这个模型在训练过程中使用了所有m个样本，这才是我们最终提交给用户的模型。

2.3 性能度量

在预测任务中，给定样例集$D={(x_1,y_1)(x_2,y_2)...(x_m,y_m)}$，其中y_i是示例x_i的真实标记，要评估学习器$\mathcal{f}$的性能，就要把学习器预测结果$\mathcal{f(x)}$与真实标记$\mathcal{y}$进行比较。

2.3.1 错误率与精度

2.3.2 查准率、查全率与F1

真实情况	预测正例	预测反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）
则查重率P和查全率R分别定义为：

$\mathcal{P=\frac{TP}{TP+FP}}$
$\mathcal{R=\frac{TP}{TP+FN}}$

查重率与查全率也在一定程度上遵循测不准原理，通常只有在一些简单任务中，才能使查全率和查重率都很高。

P-R曲线中的内容：覆盖更大范围的学习器的性能更优

对查重率与查全率进行取舍的方式：

BEP：查重率=查全率时的取值，值大者性能更优；

F1度量：（公式不想打上来了）以beta参数来衡量查全率对查重率的相对重要性。