In Week 6, you will be learning about systematically improving your learning algorithm. The videos for this week will teach you how to tell when a learning algorithm is doing poorly, and describe the 'best practices' for how to 'debug' your learning algorithm and go about improving its performance.

We will also be covering machine learning system design. To optimize a machine learning algorithm, you’ll need to first understand where the biggest improvements can be made. In these lessons, we discuss how to understand the performance of a machine learning system with multiple parts, and also how to deal with skewed data.

When you're applying machine learning to real problems, a solid grasp of this week's content will easily save you a large amount of work.

Advice for Applying Machine Learning

Evaluating a Learning Algorithm

Deciding What to Try Next

到目前为止我们已经介绍了许多不同的学习算法如果你一直跟着这些视频的进度学习你会发现自己已经不知不觉地成为一个了解许多先进机器学习技术的专家了然而在懂机器学习的人当中依然存在着很大的差距一部分人确实掌握了怎样高效有力地运用这些学习算法而另一些人他们可能对我马上要讲的东西就不是那么熟悉了他们可能没有完全理解怎样运用这些算法因此总是把时间浪费在毫无意义的尝试上我想做的是确保你在设计机器学习的系统时你能够明白怎样选择一条最合适最正确的道路因此在这节视频和之后的几段视频中我将向你介绍一些实用的建议和指导帮助你明白怎样进行选择具体来讲我将重点关注的问题是假如你在开发一个机器学习系统或者想试着改进一个机器学习系统的性能你应如何决定接下来应该选择哪条道路？为了解释这一问题我想仍然使用预测房价的学习例子假如你已经完成了正则化线性回归也就是最小化代价函数J的值假如在你得到你的学习参数以后如果你要将你的假设函数放到一组新的房屋样本上进行测试假如说你发现在预测房价时产生了巨大的误差现在你的问题是要想改进这个算法接下来应该怎么办？实际上你可以想出很多种方法来改进这个算法的性能其中一种办法是使用更多的训练样本具体来讲也许你能想到通过电话调查或上门调查来获取更多的不同的房屋出售数据遗憾的是我看到好多人花费了好多时间想收集更多的训练样本他们总认为噢要是我有两倍甚至十倍数量的训练数据那就一定会解决问题的是吧？但有时候获得更多的训练数据实际上并没有作用在接下来的几段视频中我们将解释原因我们也将知道怎样避免把过多的时间浪费在收集更多的训练数据上这实际上是于事无补的另一个方法你也许能想到的是尝试选用更少的特征集因此如果你有一系列特征比如x1 x2 x3等等也许有很多特征也许你可以花一点时间从这些特征中仔细挑选一小部分来防止过拟合或者也许你需要用更多的特征也许目前的特征集对你来讲并不是很有帮助你希望从获取更多特征的角度来收集更多的数据同样地你可以把这个问题扩展为一个很大的项目比如使用电话调查来获得更多有关或者再进行土地测量来获得更多有关这块土地的信息等等因此这是一个复杂的问题同样的道理我们非常希望在花费大量时间完成这些工作之前我们就能知道其效果如何我们也可以尝试增加多项式特征的方法比如x1的平方 x2的平方 x1 x2的乘积我们可以花很多时间来考虑这一方法我们也可以考虑其他方法减小或增大正则化参数lambda的值我们列出的这个单子上面的很多方法都可以扩展开来扩展成一个六个月或更长时间的项目遗憾的是大多数人用来选择这些方法的标准是凭感觉的也就是说大多数人的选择方法是随便从这些方法中选择一种比如他们会说 “噢我们来多找点数据吧” 然后花上六个月的时间收集了一大堆数据然后也许另一个人说 “好吧让我们来从这些房子的数据中多找点特征吧” 我很遗憾不止一次地看到很多人花了不夸张地说至少六个月时间来完成他们随便选择的一种方法而在六个月或者更长时间后他们很遗憾地发现自己选择的是一条不归路幸运的是有一系列简单的方法能让你事半功倍排除掉单子上的至少一半的方法留下那些确实有前途的方法同时也有一种很简单的方法只要你使用就能很轻松地排除掉很多选择从而为你节省大量不必要花费的时间在接下来的两段视频中我首先介绍怎样评估机器学习算法的性能然后在之后的几段视频中我将开始讨论这些方法它们也被称为"机器学习诊断法" “诊断法”的意思是这是一种测试法你通过执行这种测试能够深入了解某种算法到底是否有用这通常也能够告诉你要想改进一种算法的效果什么样的尝试才是有意义的在这一系列的视频中我们将介绍具体的诊断法但我要提前说明一点的是这些诊断法的执行和实现是需要花些时间的有时候确实需要花很多时间来理解和实现但这样做的确是更有效率地利用好你的时间因为这些方法让你在开发学习算法时节省了几个月的时间早点从不必要的尝试中解脱出来早日脱离苦海因此在接下来几节课中我将先来介绍如何评价你的学习算法在此之后我将介绍一些诊断法希望能让你更清楚在接下来的尝试中如何选择更有意义的方法最终达到改进机器学习系统性能的目的

Evaluating a Hypothesis

在本节视频中我想介绍一下怎样用你学过的算法来评估假设函数在之后的课程中我们将以此为基础来讨论如何避免过拟合和欠拟合的问题当我们确定学习算法的参数的时候我们考虑的是选择参量来使训练误差最小化有人认为得到一个非常小的训练误差一定是一件好事但我们已经知道仅仅是因为这个假设具有很小的训练误差并不能说明它就一定是一个好的假设函数而且我们也学习了过拟合假设函数的例子所以这推广到新的训练集上是不适用的那么你该如何判断一个假设函数是过拟合的呢对于这个简单的例子我们可以对假设函数 h(x) 进行画图然后观察图形趋势但对于特征变量不止一个的这种一般情况还有像有很多特征变量的问题想要通过画出假设函数来进行观察就会变得很难甚至是不可能实现因此我们需要另一种方法来评估我们的假设函数如下给出了一种评估假设函数的标准方法假设我们有这样一组数据组在这里我只展示出10组训练样本当然我们通常可以有成百上千组训练样本为了确保我们可以评估我们的假设函数我们要做的是将这些数据分成两部分第一部分将成为我们的常用训练集而第二部分将成为我们的测试集将所有数据分成训练集和测试集其中一种典型的分割方法是按比例将70%的数据作为训练集 30%的数据作为测试集因此现在如果我们有了一些数据我们只用其中的70% 作为我们的训练集这里的m依然表示训练样本的总数而剩下的那部分数据将被用作测试集在这里我使用m下标test 来表示测试样本的总数因此这里的下标test将表示这些样本是来自测试集因此x(1)test y(1)test将成为我的第一组测试样本我想应该是这里的这一组样本最后再提醒一点在这里我是选择了前70%的数据作为训练集后30%的数据作为测试集但如果这组数据有某种规律或顺序的话那么最好是随机选择70%作为训练集剩下的30%作为测试集当然如果你的数据已经随机分布了那你可以选择前70%和后30% 但如果你的数据不是随机排列的最好还是打乱顺序或者使用一种随机的顺序来构建你的数据然后再取出前70%作为训练集后30%作为测试集接下来这里展示了一种典型的方法你可以按照这些步骤训练和测试你的学习算法比如线性回归算法首先你需要对训练集进行学习得到参数θ 具体来讲就是最小化训练误差J(θ) 这里的J(θ)是使用那70%数据来定义得到的也就是仅仅是训练数据接下来你要计算出测试误差我将用J下标test来表示测试误差那么你要做的就是取出你之前从训练集中学习得到的参数θ放在这里来计算你的测试误差可以写成如下的形式这实际上是测试集平方误差的平均值这也不难想象因此我们使用包含参数θ的假设函数对每一个测试样本进行测试然后通过假设函数和测试样本计算出mtest个平方误差当然这是当我们使用线性回归和平方误差标准时测试误差的定义那么如果是考虑分类问题比如说使用逻辑回归的时候呢训练和测试逻辑回归的步骤与之前所说的非常类似首先我们要从训练数据也就是所有数据的70%中学习得到参数θ 然后用如下的方式计算测试误差目标函数和我们平常做逻辑回归的一样唯一的区别是现在我们使用的是mtest个测试样本这里的测试误差Jtest(θ) 其实不难理解有时这是另一种形式的测试集更易于理解这里的误差其实叫误分类率也被称为0/1错分率 0/1表示了你预测到的正确或错误样本的情况比如说可以这样定义一次预测的误差关于假设h(x) 和标签y的误差那么这个误差等于1 当你的假设函数h(x)的值大于等于0.5 并且y的值等于0 或者当h(x)小于0.5 并且y的值等于1 因此这两种情况都表明你的假设对样本进行了误判这里定义阈值为0.5 那么也就是说假设结果更趋向于1 但实际是0 或者说假设更趋向于0 但实际的标签却是1 否则我们将误差值定义为0 此时你的假设值能够正确对样本y进行分类然后我们就能应用错分率误差来定义测试误差也就是1/mtest 乘以 h(i)(xtest)和y(i)的错分率误差从i=1到mtest 的求和这样我就写出了我的定义方式这实际上就是我的假设函数误标记的那部分测试集中的样本这也就是使用 0/1错分率或误分类率的准则来定义的测试误差以上我们介绍了一套标准技术来评价一个已经学习过的假设在下一段视频中我们要应用这些方法来帮助我们进行诸如特征选择一类的问题比如多项式次数的选择或者正则化参数的选择

Model Selection and Train/Validation/Test Sets

假如你想要确定对于某组数据最合适的多项式次数是几次怎样选用正确的特征来构造学习算法或者假如你需要正确选择学习算法中的正则化参数λ 你应该怎样做呢？这些问题我们称之为模型选择问题在我们对于这一问题的讨论中我们还将提到如何将数据分为三组也就是训练集、验证集和测试集而不仅仅是前面提到的两组数据在这节视频中我们将会介绍这些内容的含义以及如何使用它们进行模型选择我们已经多次接触到过拟合现象在过拟合的情况中学习算法在适用于训练集时表现非常完美但这并不代表此时的假设也很完美更一般地说这也是为什么训练集误差通常不能正确预测出该假设是否能很好地拟合新样本的原因具体来讲如果你把这些参数集比如θ0 θ1 θ2等等调整到非常拟合你的训练集那么结果就是你的假设会在训练集上表现地很好但这并不能确定当你的假设推广到训练集之外的新的样本上时预测的结果是怎样的而更为普遍的规律是只要你的参数非常拟合某个数据组比如说非常拟合训练集当然也可以是其他数据集那么你的假设对于相同数据组的预测误差比如说训练误差是不能够用来推广到一般情况的或者说是不能作为实际的泛化误差的也就是说不能说明你的假设对于新样本的效果下面我们来考虑模型选择问题假如说你现在要选择能最好地拟合你数据的多项式次数换句话说你应该选择一次函数二次函数还是三次函数呢等等一直到十次函数所以似乎应该有这样一个参数这里我用 d 来表示 d表示的就是你应该选择的多项式次数所以似乎除了你要确定的参数θ之外你还要考虑确定一个参数你同样需要用你的数据组来确定这个多项式的次数d 第一个选择是 d=1 也就表示线性(一次)方程我们也可以选择d=2或者3 等等一直到d=10 因此我们想确定这个多出来的参数d最适当的取值具体地说比如你想要选择一个模型那就从这10个模型中选择一个最适当的多项式次数并且用这个模型进行估计预测你的假设能否很好地推广到新的样本上那么你可以这样做你可以先选择第一个模型然后求训练误差的最小值这样你就会得到一个参数向量θ 然后你再选择第二个模型二次函数模型进行同样的过程这样你会得到另一个参数向量 θ 为了区别这些不同的参数向量θ 我想用上标(1) 上标(2)来表示这里的上标(1)表示的是在调整第一个模型使其拟合训练数据时得到的参数θ 同样地 θ上标(2)表示的是二次函数在和训练数据拟合的过程中得到的参数以此类推在拟合三次函数模型时我又得到一个参数θ(3) 等等直到θ(10) 接下来我们要做的是对所有这些模型求出测试集误差因此我可以算出 Jtest(θ(1)) Jtest(θ(2)) Jtest(θ(3)) 以此类推也就是对于每一个模型对应的假设都计算出其作用于测试集的表现如何接下来为了确定选择哪一个模型最好我要做的是看看这些模型中哪一个对应的测试集误差最小那么对于这一个例子我们假设最终选择了五次多项式模型目前看来还比较合理那么现在我确定了我的模型我得到了我的假设也就是这个五次函数模型现在我想知道这个模型能不能很好地推广到新样本我们可以观察这个五次多项式假设模型对测试集的拟合情况但这里有一个问题是这样做仍然不能公平地说明我的假设推广到一般时的效果其原因在于我们刚才是使用的测试集跟假设拟合来得到的多项式次数d 这个参数这也就是说我们选择了一个能够最好地拟合测试集的参数d的值因此我们的参数向量θ(5) 在拟合测试集时的结果很可能导致一个比实际泛化误差更完美的预测结果对吧？因为我是找了一个最能拟合测试集的参数d 因此我再用测试集来评价我的假设就显得不公平了因为我已经选了一个能够最拟合测试集的参数我选择的多项式次数d 本身就是按照最拟合测试集来选择的因此我的假设很可能很好地拟合测试集而且这种拟合的效果很可能会比对那些没见过的新样本拟合得更好而我们其实是更关心对新样本的拟合效果的所以再回过头来说在前面的幻灯片中我们看到如果我们用训练集来拟合参数 θ0 θ1 等等参数时那么拟合后的模型在作用于训练集上的效果是不能预测出我们将这个假设推广到新样本上时效果如何的这是因为这些参数能够很好地拟合训练集因此它们很有可能在对训练集的预测中表现地很好但对其他的新样本来说就不一定那么好了而在刚才这一页幻灯片上我讲到的步骤也是在做同样的事具体来讲我们做的实际上是用测试集来拟合参数d 通过用测试集来拟合这个参数同样也意味着这并不能较为公平地预测出假设函数的在遇到新样本时的表现为了解决这一问题在模型选择中如果我们想要评价某个假设我们通常采用以下的方法给定某个数据集和刚才将数据分为训练和测试集不同的是我们要将其分为三段第一部分还是叫训练集所以我们还是称这部分为训练集第二部分我把它叫做交叉验证集（cross validation set） Cross validation 我用CV来简写“交叉验证” 有时候也直接叫验证集不叫交叉验证集最后一部分依然和以前一样是测试集同时一种典型的分割比例是将60%的数据分给训练集大约20%的数据给交叉验证集最后20%给测试集这个比例可以稍微调整但这种分法是最典型的所以现在我们的训练集就只占总数据的60%了然后交叉验证集或者说验证集将拥有一部分样本我把它的数量用m下标CV来表示这是交叉验证集样本的数量按照之前我们的符号表示习惯我将用(x(i)CV, y(i)CV) 来表示第i个交叉验证样本最后我们还是有这样一些测试集样本用m下标test来表示测试样本的总数好的现在我们就定义了训练集、交叉验证集以及测试集我们随之也可以定义训练误差交叉验证误差和测试误差因此这便是我定义的训练误差我用J下标train来表示这跟我们之前定义的 J(θ)没有任何区别也就是对训练集数据进行预测得到的误差然后J下标CV定义为交叉验证集误差这也不难想象跟训练误差类似的定义只不过是在交叉验证集上预测得到的误差然后这是测试集跟前面一样好的那么我们的模型选择问题是这样的和之前使用测试集来选择模型不同我们现在要使用验证集或者说交叉验证集来选择模型具体来讲首先我们用第一个假设函数也就是第一个模型然后求代价函数的最小值然后我们会得到这个线性模型对应的参数向量θ 和之前一样我们还是用上表(1)来表示这个参数是对应于线性模型的对二次函数我们也做同样的事情这样可以得到θ(2) 然后是θ(3) 等等以此类推一直到10次多项式然后我要做的是跟之前用测试集来预测这些假设不同我要在交叉验证集中测试这些假设的表现我要测出Jcv来看看这些假设在交叉验证集中表现如何然后我要选择的是交叉验证集误差最小的那个假设因此对于这个例子假如是四次函数的模型有最小的交叉验证误差因此我们就选择这个四次多项式模型最后这样做的意义是参数d 别忘了参数d 是多项式的次数 d=2 d=3 一直到d=10 我们刚才做的是拟合出最好的系数d等于4 并且我们是通过交叉验证集来完成的因此这样一来这个参数d 这个多项式的次数就没有跟测试集进行拟合这样我们就回避了测试集的嫌疑我们可以光明正大地使用测试集来估计所选模型的泛化误差了好的这就是模型选择了以及你应该怎样将数据分成训练集、验证集和测试集以及使用你的交叉验证集数据来选择模型最后用测试集来评价模型的表现最后我还想提醒的一点是在如今的机器学习应用中确实也有很多人是像我之前介绍的那样做的我说过这并不是一个好的方法也就是用测试集来选择模型然后用同样的测试集来评价模型的表现报告测试误差看起来好像还能得到比较不错的泛化误差这的确是一种做法但不幸的是现在还有很多人这样做如果你有很多很多测试集的话这也许还能行得通但大多数的机器学习开发人员还是不会选择这样做因为最佳做法还是把数据分成训练集、验证集、测试集但我还是告诉你在现实中确实有很大一部分人有时会使用同样一组数据既作为验证集也作为测试集也就是只有训练集和测试集你的确可能会看到很多人选择这种方法但如果可能的话

Bias vs. Variance

Diagnosing Bias vs. Variance

当你运行一个学习算法时如果这个算法的表现不理想那么多半是出现两种情况要么是偏差比较大要么是方差比较大换句话说出现的情况要么是欠拟合要么是过拟合问题那么这两种情况哪个和偏差有关哪个和方差有关或者是不是和两个都有关搞清楚这一点非常重要因为能判断出现的情况是这两种情况中的哪一种其实是一个很有效的指示器指引着可以改进算法的最有效的方法和途径在这段视频中我想更深入地探讨一下有关偏差和方差的问题希望你能对它们有一个更深入的理解并且也能弄清楚怎样评价一个学习算法能够判断一个算法是偏差还是方差有问题因为这个问题对于弄清如何改进学习算法的效果非常重要好的这几幅图你已经见过很多次了如果你用两个很简单的假设来拟合数据比如说用一条直线那么不足以拟合这组数据(欠拟合) 而如果你用两个很复杂的假设来拟合时那么对训练集来说则会拟合得很好但又过于完美(过拟合) 而像这样的中等复杂度的假设比如某种二次多项式的假设次数既不高也不低这种假设对数据拟合得刚刚好此时对应的的泛化误差也是三种情况中最小的现在我们已经掌握了训练集验证集和测试集的概念我们就能更好地理解偏差和方差的问题具体来说我们沿用之前所使用的训练集误差和验证集误差的定义也就是平方误差即对训练集数据进行预测或对验证集数据进行预测所产生的平均平方误差下面我们来画出如下这个示意图横坐标上表示的是多项式的次数因此横坐标越往右的位置表示多项式的次数越大那么我们来画这幅图对应的情况 d可能等于1的情况是用很简单的函数来进行拟合而在右边的这个图中水平横坐标表示有更多更大的d值表示更高次数的多项式因此这些位置对应着使用更复杂的函数来拟合你的训练集时所需要的d值让我们来把训练集误差和交叉验证集误差画在这个坐标中我们先来画训练集误差随着我们增大多项式的次数我们将对训练集拟合得越来越好所以如果d等于1时对应着一个比较大的训练误差而如果我们的多项式次数很高时我们的训练误差就会很小甚至可能等于0 因为可能非常拟合训练集所以当我们增大多项式次数时我们不难发现训练误差明显下降这里我写上J下标train 来表示训练集误差因为随着我们对数据拟合所需多项式次数的增大训练误差是趋于下降的接下来我们再看交叉验证误差事实上如果我们观察测试集误差的话我们会得到一个和交叉验证误差非常接近的结果所以我们知道如果d等于1的话意味着用一个很简单的函数来拟合数据此时我们不能很好地拟合训练集(欠拟合) 也就是说我们会得到一个较大的交叉验证误差而如果我们用一个中等大小的多项式次数来拟合时在前一张幻灯片中我们用的d等于2 那么我们会得到一个更小的交叉验证误差因为我们找了一个能够更好拟合数据的次数同样地反过来如果次数d太大比如说d的值取为4 那么我们又过拟合了我们又会得到一个较大的交叉验证误差因此如果你平稳地过渡这几个点你可以绘制出一条平滑的曲线就像这样我用Jcv(θ)来表示同样地如果你画出Jtest(θ) 你也将得到一条类似的曲线这样一幅图同时也帮助我们更好地理解偏差和方差的概念具体来说假设你得出了一个学习算法而这个算法并没有表现地如你期望那么好所以你的交叉验证误差或者测试集误差都很大我们应该如何判断此时的学习算法正处于高偏差的问题还是高方差的问题交叉验证误差比较大的情况对应着曲线中的这一端或者这一端那么左边的这一端对应的就是高偏差的问题也就是你使用了一个过于小的多项式次数比如d等于1 但实际上我们需要一个较高的多项式次数来拟合数据相反地右边这一端对应的是高方差问题也就是说多项式次数d 对于我们的数据来讲太大了这幅图也提示了我们怎样区分这两种情况具体地说对于高偏差的情况也就是对应欠拟合的情况我们发现交叉验证误差和训练误差都会很大因此如果你的算法有偏差问题的话那么训练集误差将会比较大同时你可能会发现交叉验证集误差也很大两个误差可能很接近或者可能验证误差稍大一点所以如果你看到这样的组合情况那就表示你的算法正处于高偏差的问题反过来如果你的算法处于高方差的问题那么如果你观察这里我们会发现 Jtrain 就是训练误差会很小也就意味着你对训练集数据拟合得非常好而你的交叉验证误差假设此时我们最小化的是平方误差而反过来你的交叉验证集误差或者说你的交叉验证集对应的代价函数的值将会远远大于训练集误差这里的双大于符号是一个数学符号表示远远大于用两个大于符号表示因此如果你看见这种组合的情况这就预示着你的学习算法可能正处于高方差和过拟合的情况同时区分这两种不同情形的关键依据是如果你的算法处于高偏差的情况那么你的训练集误差会很大因为你的假设不能很好地拟合训练集数据而当你处于高方差的问题时你的训练误差通常都会很小并且远远小于交叉验证误差好的但愿这节课能让你更清楚地理解偏差和方差这两种问题在之后几段视频中我还将对偏差和误差做更多的解释但我们之后要关注的是诊断一个学习算法是处于高偏差还是高方差的情况在后面几段视频中我还将向你展示更多细节我们将会看到通过分清一个学习算法是处于高偏差还是高方差还是两种情况的结合这能够更好地指引我们应该采取什么样的措施来提高学习算法的性能表现【果壳教育无边界字幕组】门捷列夫的关键依据是如果你的算法处于高偏差的情况那么你的训练集误差会很大因为你的假设不能很好地拟合训练集数据而当你处于高方差的问题时你的训练误差通常都会很小并且远远小于交叉验证误差希望这节课的内容更清楚地理解偏差和方差这两种问题在之后几段视频中我还将对偏差和误差做更多的解释但我们之后要关注的是诊断一个学习算法是否处于高偏差或高方差的情况在后面几段视频中我还将向你展示更多细节我们将会看到通过分清一个学习算法是处于高偏差还是高误差还是两种情况的结合这能够更好地指引我们应该采取什么样的措施来提高学习算法的性能表现

Regularization and Bias/Variance

现在你应该已经知道算法正则化可以有效地防止过拟合但正则化跟算法的偏差和方差又有什么关系呢？在这段视频中我想更深入地探讨一下偏差和方差的问题讨论一下两者之间是如何相互影响的以及和算法的正则化之间的相互关系假如我们要对这样一个高阶多项式进行拟合为了防止过拟合现象我们要使用一个正则化项因此我们试图通过这样一个正则化项来让参数的值尽可能小正则化项的求和范围照例取为 j 等于1到 m 而非 j 等于0到 m 然后我们来分析以下三种情形第一种情形是正则化参数 λ 取一个比较大的值比如 λ 的值取为10000甚至更大在这种情况下所有这些参数 θ1 θ2 θ3 等等将被大大惩罚其结果是这些参数的值将近似等于0 并且假设模型 h(x) 的值将等于或者近似等于 θ0 因此我们最终得到的假设函数应该是这个样子近似是一条平滑的直线因此这个假设处于高偏差对数据集欠拟合(underfit) 因此一条水平直线对这个数据集来讲不是一个好的假设与之对应的另一种情况是 λ值很小比如说 λ 的值等于0 在这种情况下如果我们要拟合一个高阶多项式的话那么我们通常会处于过拟合(overfitting)的情况在拟合一个高阶多项式时如果没有进行正则化或者正则化程度很微小的话我们通常会得到高方差和过拟合的结果因为 λ 的值等于0相当于没有正则化项因此会对假设过拟合只有当我们取一个中间大小的既不大也不小的 λ 值时我们才会得到一组合理的对数据刚好拟合的 θ 参数值那么我们应该怎样自动地选择出一个最合适的正则化参数 λ 呢？重申一下我们的模型和学习参数以及最优化目标是这样的让我们假设在使用正则化的情形中定义 Jtrain(θ) 为另一种不同的形式同样定义为最优化目标但不使用正则化项在先前的授课视频中当我们没有使用正则化时我们定义的Jtrain(θ) 就是代价函数J(θ) 但当我们使用正则化多出这个 λ 项时我们就将训练集误差也就是Jtrain 定义为训练集数据预测误差的平方求和或者说是训练集的平均误差平方和但不考虑正则化项与此类似我们来定义交叉验证集误差和测试集误差和之前一样定义为对交叉验证集和测试集进行预测的平均误差平方和总结一下我们对于训练误差Jtrain Jcv Jtest的定义都是平均误差平方和或者准确地说是训练集验证集和测试集进行预测在不使用正则化项时平均误差平方和的一半下面就是我们自动选取正则化参数 λ 的方法通常我的做法是选取一系列我想要尝试的 λ 值因此首先我可能考虑不使用正则化的情形以及一系列我可能会试的值比如说我可能从0.01 0.02 0.04开始一直试下去通常我会将步长设为2倍速度增长直到一个比较大的值在本例中以两倍步长递增的话我们最终取值10.24 实际上我们取的是10 但已经非常接近了因为小数点后的24对最终的结果不会有太大影响因此这样我就得到了12个不同的正则化参数 λ 对应的12个不同的模型当然了你也可以试小于0.01的值或者大于10的值但在这里我就不讨论这些情况了得到这12组模型后接下来我们要做的事情是选用第一个模型也就是 λ 等于0 然后最小化我们的代价函数 J(θ) 这样我们就得到了某个参数向量 θ 与之前视频的做法类似我使用θ上标(1) 来表示第一个参数向量θ 然后我再取第二个模型 λ 等于0.01的模型最小化代价方差当然现在 λ 等于0.01 那么会得到一个完全不同的参数向量 θ 用 θ(2)来表示同理接下来我会得到 θ(3) 对应于我的第三个模型以此类推一直到最后一个 λ 等于10或10.24的模型对应 θ(12) 接下来我就可以用交叉验证集来评价这些假设和参数了因此我可以从第一个模型开始然后是第二个模型对每一个不同的正则化参数 λ 进行拟合然后用交叉验证集来评价每一个模型也即测出每一个参数 θ 在交叉验证集上的平均误差平方和然后我就选取这12个模型中交叉验证集误差最小的那个模型作为最终选择对于本例而言假如说最终我选择了 θ(5) 也就是五次多项式因为此时的交叉验证集误差最小做完这些最后如果我想看看该模型在测试集上的表现我可以用经过学习得到的模型 θ(5) 来测出它对测试集的预测效果如何再次重申这里我们依然是用交叉验证集来拟合模型这也是为什么我之前预留了一部分数据作为测试集的原因这样我就可以用这部分测试集比较准确地估计出我的参数向量 θ 对于新样本的泛化能力这就是模型选择在选取正则化参数 λ 时的应用在这段视频中我想讲的最后一个问题是当我们改变正则化参数 λ 的值时交叉验证集误差和训练集误差会随之发生怎样的变化我想提醒一下我们最初的代价函数 J(θ) 但在这里我们把训练误差定义为不包括正则化项交叉验证集误差也定义为不包括正则化项我要做的是绘制出 Jtrain和 Jcv 的曲线表达的是随着我增大正则化项参数 λ 的值看看我的假设在训练集上的表现如何变化以及在交叉验证集上表现如何变化就像我们之前看到的如果 λ 的值很小那也就是说我们几乎没有使用正则化因此我们有很大可能处于过拟合而如果 λ 的值取的很大的时候也就是说取值在横坐标的右端那么由于 λ 的值很大我们很有可能处于高偏差的问题所以如果你画出 Jtrain 和 Jcv 的曲线你就会发现当 λ 的值取得很小时对训练集的拟合相对较好因为没有使用正则化因此对于 λ 值很小的情况正则化项可以忽略你只需要对平方误差求最小值即可所以当 λ 值很小时你最终能得到一个值很小的Jtrain 而如果 λ 的值很大时你将处于高偏差问题不能对训练集很好地拟合因此你的误差值可能位于这个位置因此当 λ 增大时训练集误差Jtrain的值会趋于上升因为 λ 的值比较大时对应着高偏差的问题此时你连训练集都不能很好地拟合反过来当 λ 的值取得很小的时候你的数据能随意地与高次多项式很好地拟合而交叉验证集误差的曲线是这样的在曲线的右端当 λ 的值取得很大时我们会处于欠拟合问题因此这对应着偏差问题那么此时交叉验证集误差将会很大我写在这里这是交叉验证集误差Jcv(θ) 由于高偏差的原因我们不能很好地拟合我们的假设不能在交叉验证集上表现地比较好而曲线的左端对应的是高方差问题此时我们的 λ 值取得很小很小因此我们会对数据过度拟合所以由于过拟合的原因交叉验证集误差也会很大好的这就是当我们改变正则化参数 λ 的值时交叉验证集误差和训练集误差随之发生的变化当然在中间取的某个 λ 的值表现得刚好合适这种情况下表现最好交叉验证集误差或者测试集误差都很小当然由于我在这里画的图显得太卡通也太理想化了对于真实的数据你得到的曲线可能比这看起来更凌乱会有很多的噪声对某个实际的数据集你或多或少能看出像这样的一个趋势通过绘出这条曲线通过交叉验证集误差的变化趋势你可以用自己选择出或者编写程序自动得出能使交叉验证集误差最小的那个点然后选出那个与之对应的参数 λ 的值当我在尝试为学习算法选择正则化参数 λ 的时候我通常都会画出像这样一个图帮助我更好地理解各种情况同时也帮助我确认我选择的正则化参数值到底好不好希望这节课的内容让你更深入地理解了正则化以及它对学习算法的偏差和方差的影响到目前为止你已经从不同角度认识了方差和偏差问题在下一节视频中我要做的是基于我们已经介绍过的所有这些概念将它们结合起来建立我们的诊断法也称为学习曲线这种方法通常被用来诊断一个学习算法到底是处于偏差问题还是方差问题还是两者都有【果壳教育无边界字幕组】翻译/时间轴：所罗门捷列夫假如说最终我选择了theta(5) 也就是五次多项式因为此时的交叉验证集误差最小做完这些最后如果我想看看该模型在测试集上的表现我可以用经过学习得到的模型theta(5) 来测出它对测试集的预测效果如何再次重申一下这里我们依然是用交叉验证集来拟合模型这也是为什么我之前预留了一部分数据作为测试集的原因这样我就可以用这部分测试集比较准确地估计出我的参数向量theta 对于新样本的泛化能力这就是模型选择在选取正则化参数lambda时的应用在这段视频中我想讲的最后一个问题是当我们改变正则化参数lambda的值时交叉验证集误差和训练集误差会随之发生怎样的变化我想提醒一下我们最初的代价函数J(θ) 原来是这样的形式但在这里我们把训练误差定义为不包括正则化项交叉验证集误差也定义为不包括正则化项我要做的是绘制出Jtrain和Jcv的曲线随着我增大正则化项参数 lambda的值看看我的假设在训练集上的表现如何变化以及在交叉验证集上表现如何变化就像我们之前看到的如果正则化项参数 lambda的值很小那也就是说我们几乎没有使用正则化因此我们有很大可能处于过拟合而如果lambda的值取的很大的时候也就是说取值在横坐标的右端那么由于lambda的值很大我们很有可能处于高偏差的问题所以如果你画出 Jtrain和Jcv的曲线你就会发现当lambda的值取得很小时对训练集的拟合相对较好因为没有使用正则化因此对于lambda值很小的情况正则化项基本可以忽略你只需要对平方误差做最小化处理即可所以当lambda值很小时你最终能得到一个值很小的Jtrain 而如果lambda的值很大时你将处于高偏差问题不能对训练集很好地拟合因此你的误差值可能位于这个位置因此当lambda增大时训练集误差Jtrain的值会趋于上升因为lambda的值比较大时对应着高偏差的问题此时你连训练集都不能很好地拟合反过来当lambda的值取得很小的时候你的数据能随意地与高次多项式很好地拟合交叉验证集误差的曲线是这样的在曲线的右端当lambda的值取得很大时我们会处于欠拟合问题也对应着偏差问题那么此时交叉验证集误差将会很大我写在这里这是交叉验证集误差Jcv 由于高偏差的原因我们不能很好地拟合我们的假设不能在交叉验证集上表现地比较好而曲线的左端对应的是高方差问题此时我们的lambda值取得很小很小因此我们会对数据过度拟合所以由于过拟合的原因交叉验证集误差Jcv 结果也会很大好的这就是当我们改变正则化参数 lambda的值时交叉验证集误差和训练集误差随之发生的变化当然在中间取的某个 lambda的值表现得刚好合适这种情况下表现最好交叉验证集误差或者测试集误差都很小当然由于我在这里画的图显得太卡通也太理想化了对于真实的数据你得到的曲线可能比这看起来更凌乱会有很多的噪声对某个实际的数据集你或多或少能看出像这样的一个趋势通过绘出这条曲线通过交叉验证集误差的变化趋势你可以用自己选择出或者编写程序自动得出能使交叉验证集误差最小的那个点然后选出那个与之对应的参数lambda的值当我在尝试为学习算法选择正则化参数 lambda的时候我通常都会得出类似这个图的结果帮助我更好地理解各种情况同时也帮助我确认我选择的正则化参数值到底好不好希望这节课的内容让你更深入地理解了正则化以及它对学习算法的偏差和方差的影响到目前为止你已经从不同角度见识了方差和偏差问题在下一节视频中我要做的是基于我们已经浏览过的所有这些概念将它们结合起来建立我们的诊断法也称为学习曲线这种方法通常被用来诊断一个学习算法到底是处于偏差问题还是方差问题还是两者都有

Learning Curves

本节课我们介绍学习曲线绘制学习曲线非常有用也许你想检查你的学习算法运行是否一切正常或者你希望改进算法的表现或效果那么学习曲线就是一种很好的工具我经常使用学习曲线来判断某一个学习算法是否处于偏差方差问题或是二者皆有下面我们就来介绍学习曲线为了绘制一条学习曲线我通常先绘制出Jtrain 也就是训练集数据的平均误差平方和或者Jcv 也即交叉验证集数据的平均误差平方和我要将其绘制成一个关于参数m的函数也就是一个关于训练集样本总数的函数所以m一般都是一个常数比如m等于100 表示100组训练样本但我要自己取一些m的值也就是说我要自行对m的取值做一点限制比如说我取10 20或者 30 40组训练集然后绘出训练集误差以及交叉验证集误差好的那么我们来看看这条曲线绘制出来是什么样子假设我只有一组训练样本也即m=1 正如第一幅图中所示并且假设使用二次函数来拟合模型那么由于我只有一个训练样本拟合的结果很明显会很好是吧用二次函数来拟合对这一个训练样本拟合其误差一定为0 如果有两组训练样本二次函数也能很好地拟合即使是使用正则化拟合的结果也会很好而如果不使用正则化的话那么拟合效果绝对棒极了如果我用三组训练样本的话好吧看起来依然能很好地用二次函数拟合也就是说当m等于1 m=2 或m=3时对训练集数据进行预测得到的训练集误差都将等于0 这里假设我不使用正则化当然如果使用正则化那么误差就稍大于0 顺便提醒一下如果我的训练集样本很大而我要人为地限制训练集样本的容量比如说这里我将m值设为3 然后我仅用这三组样本进行训练然后对应到这个图中我只看对这三组训练样本进行预测得到的训练误差也是和我模型拟合的三组样本所以即使我有100组训练样本而我还是想绘制当m等于3时的训练误差那么我要关注的仍然是对这三组训练样本进行预测的误差同样这三组样本也是我们用来拟合模型的三组样本所有其他的样本我都在训练过程中选择性忽略了好的总结一下我们现在已经看到当训练样本容量m很小的时候训练误差也会很小因为很显然如果我们训练集很小那么很容易就能把训练集拟合到很好甚至拟合得天衣无缝现在我们来看当m等于4的时候好吧二次函数似乎也能对数据拟合得很好那我们再看当m等于5的情况这时候再用二次函数来拟合好像效果有下降但还是差强人意而当我的训练集越来越大的时候你不难发现要保证使用二次函数的拟合效果依然很好就显得越来越困难了因此事实上随着训练集容量的增大我们不难发现我们的平均训练误差是逐渐增大的因此如果你画出这条曲线你就会发现训练集误差也就是对假设进行预测的误差平均值随着m的增大而增大再重复一遍对这一问题的理解当训练样本很少的时候对每一个训练样本都能很容易地拟合到很好所以训练误差将会很小而反过来当m的值逐渐增大那么想对每一个训练样本都拟合到很好就显得愈发的困难了因此训练集误差就会越来越大那么交叉验证集误差的情况如何呢好的交叉验证集误差是对完全陌生的交叉验证集数据进行预测得到的误差那么我们知道当训练集很小的时候泛化程度不会很好意思是不能很好地适应新样本因此这个假设就不是一个理想的假设只有当我使用一个更大的训练集时我才有可能得到一个能够更好拟合数据的可能的假设因此你的验证集误差和测试集误差都会随着训练集样本容量m的增加而减小因为你使用的数据越多你越能获得更好地泛化表现或者说对新样本的适应能力更强因此数据越多越能拟合出合适的假设所以如果你把Jtrain和Jcv绘制出来就应该得到这样的曲线现在我们来看看当处于高偏差或者高方差的情况时这些学习曲线又会变成什么样子假如你的假设处于高偏差问题为了更清楚地解释这个问题我要用一个简单的例子来说明也就是用一条直线来拟合数据的例子很显然一条直线不能很好地拟合数据所以最后得到的假设很有可能是这样的现在我们来想一想如果我们增大训练集样本容量会发生什么情况呢所以现在不像画出的这样只有这五组样本了我们有了更多的训练样本那么如果你用一条直线来拟合不难发现还是会得到类似的一条直线假设我的意思是刚才的情况用一条直线不能很好地拟合而现在把样本容量扩大了这条直线也基本不会变化太大因为这条直线是对这组数据最可能也是最接近的拟合但一条直线再怎么接近也不可能对这组数据进行很好的拟合所以如果你绘出交叉验证集误差应该是这样子的最左端表示训练集样本容量很小比如说只有一组样本那么表现当然很不好而随着你增大训练集样本数当达到某一个容量值的时候你就会找到那条最有可能拟合数据的那条直线并且此时即便你继续增大训练集的样本容量即使你不断增大m的值你基本上还是会得到的一条差不多的直线因此交叉验证集误差我把它标在这里或者测试集误差将会很快变为水平而不再变化只要训练集样本容量值达到或超过了那个特定的数值交叉验证集误差和测试集误差就趋于不变这样你会得到最能拟合数据的那条直线那么训练误差又如何呢同样训练误差一开始也是很小的而在高偏差的情形中你会发现训练集误差会逐渐增大一直趋于接近交叉验证集误差这是因为你的参数很少但当m很大的时候数据太多此时训练集和交叉验证集的预测效果将会非常接近这就是当你的学习算法处于高偏差情形时学习曲线的大致走向最后补充一点高偏差的情形反映出的问题是交叉验证集和训练集误差都很大也就是说你最终会得到一个值比较大Jcv 和Jtrain 这也得出一个很有意思的结论那就是如果一个学习算法有很大的偏差那么当我们选用更多的训练样本时也就是在这幅图中随着我们增大横坐标我们发现交叉验证集误差的值不会表现出明显的下降实际上是变为水平了所以如果学习算法正处于高偏差的情形那么选用更多的训练集数据对于改善算法表现无益正如我们右边的这两幅图所体现的这里我们只有五组训练样本然后我们找到这条直线来拟合然后我们增加了更多的训练样本但我们仍然得到几乎一样的一条直线因此如果学习算法处于高偏差时给我再多的训练数据也于事无补交叉验证集误差或测试集误差也不会降低多少所以能够看清你的算法正处于高偏差的情形是一件很有意义的事情因为这样可以让你避免把时间浪费在想收集更多的训练样本因为再多的数据也是无意义的接下来我们再来看看当学习算法正处于高方差的时候学习曲线应该是什么样子的首先我们来看训练集误差如果你的训练集样本容量很小比如像图中所示情形只有五组训练样本如果我们用很高阶次的多项式来拟合比如这里我用了100次的多项式函数当然不会有人这么用的这里只是演示并且假设我们使用一个很小的lambda值可能不等于0 但足够小的lambda 那么很显然我们会对这组数据拟合得非常非常好因此这个假设函数对数据过拟合所以如果训练集样本容量很小时训练集误差Jtrain 将会很小随着训练集样本容量的增加可能这个假设函数仍然会对数据或多或少有一点过拟合但很明显此时要对数据很好地拟合显得更加困难和吃力了所以随着训练集样本容量的增大我们会发现Jtrain的值会随之增大因为当训练样本越多的时候我们就越难跟训练集数据拟合得很好但总的来说训练集误差还是很小交叉验证集误差又如何呢好的在高方差的情形中假设函数对数据过拟合因此交叉验证集误差将会一直都很大即便我们选择一个比较合适恰当的训练集样本数因此交叉验证集误差画出来差不多是这样的所以算法处于高方差情形最明显的一个特点是在训练集误差和交叉验证集误差之间有一段很大的差距而这个曲线图也反映出如果我们要考虑增大训练集的样本数也就是在这幅图中向右延伸曲线我们大致可以看出这两条学习曲线蓝色和红色的两条曲线正在相互靠近因此如果我们将曲线向右延伸出去那么似乎训练集误差很可能会逐渐增大而交叉验证集误差则会持续下降当然我们最关心的还是交叉验证集误差或者测试集误差对吧所以从这幅图中我们基本可以预测如果继续增大训练样本的数量将曲线向右延伸交叉验证集误差将会逐渐下降所以在高方差的情形中使用更多的训练集数据对改进算法的表现事实上是有效果的这同样也体现出知道你的算法正处于高方差的情形也是非常有意义的因为它能告诉你是否有必要花时间来增加更多的训练集数据好的在前一页和这一页幻灯片中我画出的学习曲线都是相当理想化的曲线针对一个实际的学习算法如果你画出学习曲线的话你会看到基本类似的结果就像我在这里画的一样虽然如此有时候你也会看到带有一点噪声或干扰的曲线但总的来说像这样画出学习曲线确实能帮助你看清你的学习算法是否处于高偏差高方差或二者皆有的情形所以当我打算改进一个学习算法的表现时我通常会进行的一项工作就是画出这些学习曲线一般来讲这项工作会让你更轻松地看出偏差或方差的问题在下一节视频中我们将介绍如何判断是否应采取具体的某个行为来改进学习算法的表现

Deciding What to Do Next Revisited

我们已经介绍了怎样评价一个学习算法我们讨论了模型选择问题偏差和方差的问题那么这些诊断法则怎样帮助我们判断哪些方法可能有助于改进学习算法的效果而哪些可能是徒劳的呢让我们再次回到最开始的例子在那里寻找答案这就是我们之前的例子我们使用正则化的线性回归拟合模型却发现该算法没有达到预期效果我们提到我们有如下这些选择那么如何判断哪些方法更可能是有效的呢第一种可供选择的方法是使用更多的训练集数据这种方法对于高方差的情况是有帮助的也就是说如果你的模型不处于高方差问题而是处于高偏差的时候那么通过前面的视频我们已经知道获取更多的训练集数据并不会有太明显的帮助所以要选择第一种方法你应该先画出学习曲线然后看出你的模型应该至少有那么一点方差问题也就是说你的交叉验证集误差应该比训练集误差大一点第二种方法情况又如何呢第二种方法是少选几种特征这同样是对高方差时有效换句话说如果你通过绘制学习曲线或者别的什么方法看出你的模型处于高偏差问题那么切记千万不要浪费时间试图从已有的特征中挑出一小部分来使用因为你已经发现高偏差的问题了使用更少的特征不会有任何帮助反过来如果你发现从你的学习曲线或者别的某种诊断图中你看出了高方差的问题那么恭喜你花点时间挑选出一小部分合适的特征吧这是把时间用在了刀刃上方法三选用更多的特征又如何呢通常来讲尽管不是所有时候都适用但增加特征数一般可以帮助解决高偏差问题所以如果你需要增加更多的特征时一般是由于你现有的假设函数太简单因此我们才决定增加一些别的特征来让假设函数更好地拟合训练集类似的增加更多的多项式特征这实际上也是属于增加特征因此也是用于修正高偏差问题具体来说如果你画出的学习曲线告诉你你还是处于高方差问题那么采取这种方法就是浪费时间最后增大和减小λ 这种方法尝试起来很方便我想尝试这个方法不至于花费你几个月时间但我们已经知道减小λ可以修正高偏差如果我说的你还不清楚的话我建议你暂停视频仔细回忆一下想明白减小λ的值为何有助于修正高偏差而增大λ的值为何解决高方差如果你确实不明白其中的原因那就暂停一下好好想想直到真的弄清楚这个道理或者看看上一节视频最后我们绘制的学习曲线试着理解清楚为什么是那样的最后我们回顾一下这几节课介绍的这些内容并且看看它们和神经网络的联系我想介绍一些很实用的经验或建议这些也是我平时为神经网络模型选择结构或者连接形式的一些技巧当你在进行神经网络拟合的时候如果你要进行神经网络的拟合比如说一个相对比较简单的神经网络模型相对来讲它的隐藏单元比较少甚至只有一个隐藏单元如果你要进行神经网络的拟合其中一个选择是选用一个相对简单的网络结构比如说只有一个隐藏层或者可能相对来讲比较少的隐藏单元因此像这样的一个简单的神经网络参数就不会很多很容易出现欠拟合这种比较小型的神经网络其最大优势在于计算量较小与之相对的另一种情况是相对较大型的神经网络结构要么隐藏层单元比较多比如这一层中的隐藏单元数就很多要么隐藏层比较多因此这种比较复杂的神经网络参数一般较多也更容易出现过拟合这种结构的一大劣势也许不是主要的但还是需要考虑那就是当网络中的神经元数量很多的时候这种结构会显得计算量较大虽然有这个情况但通常来讲这不是大问题这种大型网络结构最主要的问题还是它更容易出现过拟合现象事实上如果你经常应用神经网络特别是大型神经网络的话你就会发现越大型的网络性能越好但如果发生了过拟合你可以使用正则化的方法来修正过拟合一般来说使用一个大型的神经网络并使用正则化来修正过拟合问题通常比使用一个小型的神经网络效果更好但主要可能出现的问题是计算量相对较大最后你还需要选择隐藏层的层数你是应该用一个隐藏层呢还是应该用三个呢就像我们这里画的或者还是用两个隐藏层呢通常来说正如我在前面的视频中讲过的默认的情况是使用一个隐藏层但是如果你确实想要选择多个隐藏层你也可以试试把数据分割为训练集验证集和测试集然后使用交叉验证的方法比较一个隐藏层的神经网络然后试试两个三个隐藏层以此类推然后看看哪个神经网络在交叉验证集上表现得最理想也就是说你得到了三个神经网络模型分别有一个两个三个隐藏层然后你对每一个模型都用交叉验证集数据进行测试算出三种情况下的交叉验证集误差Jcv 然后选出你认为最好的神经网络结构好了这就是偏差和方差问题以及诊断该问题的学习曲线方法在改进学习算法的表现时你可以充分运用以上这些内容来判断哪些途径可能是有帮助的而哪些方法可能是无意义的如果你理解了以上几节视频中介绍的内容并且懂得如何运用那么你已经可以使用机器学习方法有效的解决实际问题了你也能像硅谷的大部分机器学习从业者一样他们每天的工作就是使用这些学习算法来解决众多实际问题我希望这几节中提到的一些技巧关于方差偏差以及学习曲线为代表的诊断法能够真正帮助你更有效率地应用机器学习让它们高效地工作

Machine Learning System Design

Building a Spam Classifier

Prioritizing What to Work On

在接下来的视频中我将谈到机器学习系统的设计这些视频将谈及在设计复杂的机器学习系统时你将遇到的主要问题同时我们会试着给出一些关于如何巧妙构建一个复杂的机器学习系统的建议接下来的视频可能看起来有点不连贯因为这些视频会涉及一些你在设计机器学习系统时可能会遇到的不同问题虽然下面的课程的的数学性可能不是那么强但是我认为我们将要讲到的这些东西是非常有用的可能在构建大型的机器学习系统时节省大量的时间具体的说我首先要讲的是当我们在进行机器学习时着重要考虑什么问题首先我要举一个垃圾邮件分类的例子假如你想建立一个垃圾邮件分类器看这些垃圾邮件与非垃圾邮件的例子左边这封邮件想向你推销东西注意这封垃圾邮件有意的拼错一些单词就像 "Med1cine" 中有一个1 "m0rtgage"里有个0 右边的邮件显然不是一个垃圾邮件实际上这是我弟弟写给我的假设我们已经有一些加过标签的训练集包括标注的垃圾邮件表示为y=1 和非垃圾邮件表示为y=0 我们如何以监督学习的方法来构造一个分类器来区分垃圾邮件和非垃圾邮件呢？为了应用监督学习我们首先必须确定的是如何用邮件的特征构造向量x 给出训练集中的特征x和标签y 我们就能够训练出某种分类器比如用逻辑回归的方法这里有一种选择邮件的一些特征变量的方法比如说我们可能会想出一系列单词或者成百上千的单词我们可以认为这些单词能够用来区分垃圾邮件或非垃圾邮件比如说如果有封邮件包含单词"deal(交易)" 那么它就很有可能是一封垃圾邮件同时包含单词"buy(买)"的邮件也很有可能是一封垃圾邮件包含"discount(折扣)"的邮件也很有可能是垃圾邮件如果一封邮件中包含了我的名字"Andrew" 这有可能是一个知道我的人写的这说明这封邮件不太可能是垃圾邮件因为某些原因我认为 "now(现在)"这个单词表明了这封邮件可能并不是垃圾邮件因为我经常收到一些很紧急的邮件当然还有别的单词我们可以选出这样成百上千的单词给出一封这样的邮件我们可以将这封邮件用一个特征向量来表示方法如下现在我列出一些之前选好的单词然后按字典序排序其实并不是一定要排序的啦你看这些是之前的单词像“discount” 等等还有单词"now" 等等看看这个例子右边的这封邮件我准备检查一下这些词汇看它们是否出现在这封邮件中我用一个特征向量x 表示右边的这封邮件我的名字没有出现因此这里是0 单词"buy(购买)"出现了所以这里是1 注意在向量里面只有1或0 表示有没有出现所以尽管"buy"出现了两次这里仍然只是1 注意我不会去统计每个词出现的次数单词"deal"也出现了所以这里也是1 单词"discount"并没有出现至少在这封邮件里是这样以此类推单词"now"出现了所以我在特征向量中依据对应的单词是否出现填上0和1 在这个例子中因为我选择了100个单词用于表示是否可能为垃圾邮件所以这个特征向量x 的维度是100 并且如果这个特定的单词即单词 j 出现在这封邮件中那么每一个特征变量 Xj 的值为1 反之 Xj为0 好这样我们就可以使用特征向量来表示这封邮件顺便说一句虽然我所描述的这个过程是我自己选取的100个单词但是在实际工作中最普遍的做法是遍历整个训练集然后在训练集中选出出现次数最多的n个单词 n一般介于10,000和50,000之间然后把这些单词作为你要用的特征因此不同于手动选取我们只用遍历训练样本然后选出出现频率最高的词语差不多是10,000到50,000个单词这些单词会构成特征这样你就可以用它们来做垃圾邮件分类如果你正在构造一个垃圾邮件分类器你应该会面对这样一个问题那就是你最该去使用哪一种改进你的方法从而使得你的垃圾邮件分类器具有较高的准确度从直觉上讲是要收集大量的数据生成了这个叫做 data 的对象是吧？事实上确实好多人这么做很多人认为收集越多的数据算法就会表现的越好事实上就垃圾邮件分类而言有一个叫做"Honey Pot"的项目它可以建立一个假的邮箱地址故意将这些地址泄露给发垃圾邮件的人这样就能收到大量的垃圾邮件你看这样的话我们就能得到非常多的垃圾邮件来训练学习算法但是在前面的课程中我们知道大量的数据可能会有帮助也可能没有对于大部分的机器学习问题还有很多办法用来提升机器学习的效果比如对于垃圾邮件而言也许你会想到用更复杂的特征变量像是邮件的路径信息这种信息通常会出现在邮件的标题中因此垃圾邮件发送方在发送垃圾邮件时他们总会试图让这个邮件的来源变得模糊一些或者是用假的邮件标题或者通过不常见的服务器来发送邮件用不常见的路由他们就能给你发送垃圾邮件而且这些信息也有可能包含在邮件标题部分因此可以想到我们可以通过邮件的标题部分来构造更加复杂的特征来获得一系列的邮件路由信息进而判定这是否是一封垃圾邮件你还可能会想到别的方法比如从邮件的正文出发寻找一些复杂点的特征例如单词"discount" 是否和单词"discounts"是一样的又比如单词"deal(交易)"和"dealer(交易商)"是否也应视为等同甚至像这个例子中有的单词小写有的大写或者我们是否应该用标点符号来构造复杂的特征变量因为垃圾邮件可能会更多的使用感叹号这些都不一定同样的我们也可能构造更加复杂的算法来检测或者纠正那些故意的拼写错误例如 "m0rtgage" "med1cine" "w4tches" 因为垃圾邮件发送方确实这么做了因为如果你将4放到"w4tches"中那么用我们之前提到的简单的方法垃圾邮件分类器不会把"w4tches" 和"watches" 看成一样的这样我们就很难区分这些故意拼错的垃圾邮件发垃圾邮件的也很机智他们这么做就逃避了一些过滤当我们使用机器学习时总是可以“头脑风暴”一下想出一堆方法来试试就像这样顺带一提我有一段时间研究过垃圾邮件分类的问题实际上我花了很多时间来研究这个尽管我能够理解垃圾邮件分类的问题我确实懂一些这方面的东西但是我还是很难告诉你这四种方法中你最该去使用哪一种事实上坦白地说最常见的情况是一个研究小组可能会随机确定其中的一个方法但是有时候这种方法并不是最有成效的你知道你只是随机选择了其中的一种方法实际上当你需要通过头脑风暴来想出不同方法来尝试去提高精度的时候你可能已经超越了很多人了令人难过的是大部分人他们并不尝试着列出可能的方法他们做的只是某天早上醒来因为某些原因有了一个突发奇想 "让我们来试试用Honey Pot项目收集大量的数据吧" 不管出于什么奇怪的原因早上的灵机一动还是随机选一个然后干上大半年但是我觉得我们有更好的方法是的我们将在随后的课程中讲到这个那就是误差分析我会告诉你怎样用一个更加系统性的方法从一堆不同的方法中选取合适的那一个因此你更有可能选择一个真正的好方法能让你花上几天几周甚至是几个月去进行深入的研究

Error Analysis

在上一节课中我讲到了应当怎样面对机器学习问题有很多提高算法表现的方法在本次课程中我们将会讲到误差分析（error analysis）的概念这会帮助你更系统地做出决定如果你准备研究机器学习的东西或者构造机器学习应用程序最好的实践方法不是建立一个非常复杂的系统拥有多么复杂的变量而是构建一个简单的算法这样你可以很快地实现它每当我研究机器学习的问题时我最多只会花一天的时间就是字面意义上的24小时来试图很快的把结果搞出来即便效果不好坦白的说就是根本没有用复杂的系统但是只是很快的得到的结果即便运行得不完美但是也把它运行一遍最后通过交叉验证来检验数据一旦做完你可以画出学习曲线这个我们在前面的课程中已经讲过了通过画出学习曲线以及检验误差来找出你的算法是否有高偏差和高方差的问题或者别的问题在这样分析之后再来决定用更多的数据训练或者加入更多的特征变量是否有用这么做的原因是这在你刚接触机器学习问题时是一个很好的方法你并不能提前知道你是否需要复杂的特征变量或者你是否需要更多的数据还是别的什么提前知道你应该做什么是非常难的因为你缺少证据缺少学习曲线因此你很难知道你应该把时间花在什么地方来提高算法的表现但是当你实践一个非常简单即便不完美的方法时你可以通过画出学习曲线来做出进一步的选择你可以用这种方式来避免一种电脑编程里的过早优化问题这种理念是我们必须用证据来领导我们的决策怎样分配自己的时间来优化算法而不是仅仅凭直觉凭直觉得出的东西一般总是错误的除了画出学习曲线之外一件非常有用的事是误差分析我的意思是说当我们在构造比如构造垃圾邮件分类器时我会看一看我的交叉验证数据集然后亲自看一看哪些邮件被算法错误地分类因此通过这些被算法错误分类的垃圾邮件与非垃圾邮件你可以发现某些系统性的规律什么类型的邮件总是被错误分类经常地这样做之后这个过程能启发你构造新的特征变量或者告诉你现在这个系统的短处然后启发你如何去提高它具体地说这里有一个例子假设你正在构造一个垃圾邮件分类器你拥有500个实例在交叉验证集中假设在这个例子中该算法有非常高的误差率它错误分类了一百个交叉验证实例所以我要做的是人工检查这100个错误然后手工为它们分类基于例如这些是什么类型的邮件哪些变量能帮助这个算法来正确分类它们明确地说通过鉴定这是哪种类型的邮件通过检查这一百封错误分类的邮件我可能会发现最容易被误分类的邮件可能是有关药物的邮件基本上这些邮件都是卖药的或者卖仿品的比如卖假表或者一些骗子邮件又叫做钓鱼邮件等等所以在检查哪些邮件被错误分类的时候我会看一看每封邮件数一数比如在这100封错误归类的邮件中我发现有12封错误归类的邮件是和卖药有关的邮件 4封是推销仿品的推销假表或者别的东西然后我发现有53封邮件是钓鱼邮件诱骗你告诉他们你的密码剩下的31封别的类型的邮件通过算出每个类别中不同的邮件数你可能会发现比如该算法在区分钓鱼邮件的时候总是表现得很差这说明你应该花更多的时间来研究这种类型的邮件然后看一看你是否能通过构造更好的特征变量来正确区分这种类型的邮件同时我要做的是看一看哪些特征变量可能会帮助算法正确地分类邮件我们假设能帮助我们提高邮件分类表现的方法是检查有意的拼写错误不寻常的邮件路由来源以及垃圾邮件特有的标点符号方式比如很多感叹号与之前一样我会手动地浏览这些邮件假设有5封这种类型的邮件 16封这种类型的 32封这种类型的以及一些别的类型的如果这就是你从交叉验证中得到的结果那么这可能说明有意地拼写错误出现频率较少这可能并不值得你花费时间去编写算法来检测这种类型的邮件但是如果你发现很多的垃圾邮件都有不一般的标点符号规律那么这是一个很强的特征说明你应该花费你的时间去构造基于标点符号的更加复杂的特征变量因此这种类型的误差分析是一种手动检测的过程检测算法可能会犯的错误这经常能够帮助你找到更为有效的手段这也解释了为什么我总是推荐先实践一种快速即便不完美的算法我们真正想要的是找出什么类型的邮件是这种算法最难分类出来的对于不同的算法不同的机器学习算法它们所遇到的问题一般总是相同的通过实践一些快速即便不完美的算法你能够更快地找到错误的所在并且快速找出算法难以处理的例子这样你就能集中精力在这些真正的问题上最后在构造机器学习算法时另一个有用的小窍门是保证你自己保证你能有一种数值计算的方式来评估你的机器学习算法我这么说的意思是如果你在构造一个学习算法如果你能有一种评估你算法的方法这是非常有用的一种用数字说话的评估方法你的算法可能精确可能有错但是它能准确的告诉你你的算法到底表现有多好在接下来的课程中我会更详细的讲述这个概念但是先看看这个例子假设我们试图决定是否应该把像"discount""discounts""discounter""discountring" 这样的单词都视为等同一种方法是检查这些单词的开头几个字母比如当你在检查这些单词开头几个字母的时候你发现这几个单词大概可能有着相同的意思在自然语言处理中这种方法是通过一种叫做词干提取的软件实现的如果你想自己来试试你可以在网上搜索一下 "Porter Stemmer(波特词干提取法)" 这是在词干提取方面一个比较不错的软件这个软件会将单词"discount""discounts"以及等等都视为同一个单词但是这种词干提取软件只会检查单词的头几个字母这有用但是也可能会造成一些问题因为举个例子因为这个软件会把单词"universe(宇宙)" 和"university(大学)" 也视为同一个单词因为这两个单词开头的字母是一样的因此当你在决定是否应该使用词干提取软件用来分类这总是很难说清楚特别地误差分析也并不能帮助你决定词干提取是不是一个好的方法与之相对地最好的方法来发现词干提取软件对你的分类器到底有没有用是迅速地着手试一试来看看它表现到底怎么样为了这么做通过数值来评估你的算法是非常有用的具体地说自然而然地你应该通过交叉验证来验证不用词干提取与用词干提取的算法的错误率因此如果你不在你的算法中使用词干提取然后你得到比如 5%的分类错误率然后你再使用词干提取来运行你的算法你得到比如 3%的分类错误那么这很大的减少了错误发生于是你决定词干提取是一个好的办法就这个特定的问题而言这里有一个数量的评估数字即交差验证错误率我们以后会发现这个例子中的评估数字还需要一些处理但是我们可以在今后的课程中看到这么做还是会让你能更快地做出决定比如是否使用词干提取再说一个例子假设你在想是否应该区分单词的大小写比如单词"mom" 大写的"M" 和小写的"m" 它们应该被视作同一个单词还是不同的单词它们应该被视作相同的特征变量还是不同的再说一次因为我们有一种能够评估我们算法的方法如果你在这里试一试如果我不区分大小写最后得到3.2%的错误率然后我发现这个表现的较差些如果如果我只用了词干提取这之后我再思考是否要区分大小写因此当你在构造学习算法的时候你总是会去尝试很多新的想法实现出很多版本的学习算法如果每一次你实践新想法的时候你都手动地检测这些例子去看看是表现差还是表现好那么这很难让你做出决定到底是否使用词干提取是否区分大小写但是通过一个量化的数值评估你可以看看这个数字误差是变大还是变小了你可以通过它更快地实践你的新想法它基本上非常直观地告诉你你的想法是提高了算法表现还是让它变得更坏这会大大提高你实践算法时的速度所以我强烈推荐在交叉验证集上来实施误差分析而不是在测试集上但是还是有一些人会在测试集上来做误差分析即使这从数学上讲是不合适的所以我还是推荐你在交叉验证向量上来做误差分析总结一下当你在研究一个新的机器学习问题时我总是推荐你实现一个较为简单快速即便不是那么完美的算法我几乎从未见过人们这样做大家经常干的事情是花费大量的时间在构造算法上构造他们以为的简单的方法因此不要担心你的算法太简单或者太不完美而是尽可能快地实现你的算法当你有了初始的实现之后它会变成一个非常有力的工具来帮助你决定下一步的做法因为我们可以先看看算法造成的错误通过误差分析来看看他犯了什么错然后来决定优化的方式另一件事是假设你有了一个快速而不完美的算法实现又有一个数值的评估数据这会帮助你尝试新的想法快速地发现你尝试的这些想法是否能够提高算法的表现从而你会更快地做出决定在算法中放弃什么吸收什么

Handling Skewed Data

Error Metrics for Skewed Classes

在前面的课程中我提到了误差分析以及设定误差度量值的重要性那就是设定某个实数来评估你的学习算法并衡量它的表现有了算法的评估和误差度量值有一件重要的事情要注意就是使用一个合适的误差度量值这有时会对于你的学习算法造成非常微妙的影响这件重要的事情就是偏斜类（skewed classes）的问题让我告诉你这是什么意思想一想之前的癌症分类问题我们拥有内科病人的特征变量我们希望知道他们是否患有癌症因此这就像恶性与良性肿瘤的分类问题我们之前讲过这个我们假设 y=1 表示患者患有癌症假设 y=0 表示他们没有得癌症我们训练逻辑回归模型假设我们用测试集检验了这个分类模型并且发现它只有1%的错误因此我们99%会做出正确诊断看起来是非常不错的结果我们99%的情况都是正确的但是假如我们发现在测试集中只有0.5%的患者真正得了癌症因此在我们的筛选程序里只有0.5%的患者患了癌症因此在这个例子中 1%的错误率就不再显得那么好了举个具体的例子这里有一行代码不是机器学习代码它忽略了输入值X 它让y总是等于0 因此它总是预测没有人得癌症那么这个算法实际上只有 0.5%的错误率因此这甚至比我们之前得到的1%的错误率更好这是一个非机器学习算法因为它只是预测y总是等于0 这种情况发生在正例和负例的比率非常接近于一个极端在这个例子中正样本的数量与负样本的数量相比非常非常少因为y=1非常少我们把这种情况叫做偏斜类一个类中的样本数与另一个类的数据相比多很多通过总是预测y=0 或者总是预测y=1 算法可能表现非常好因此使用分类误差或者分类精确度来作为评估度量可能会产生如下问题假如说你有一个算法它的精确度是99.2% 因此它只有0.8%的误差假设你对你的算法做出了一点改动现在你得到了 99.5%的精确度只有0.5%的误差这到底是不是算法的一个提升呢用某个实数来作为评估度量值的一个好处就是它可以帮助我们迅速决定我们是否需要对算法做出一些改进将精确度从99.2%提高到99.5% 但是我们的改进到底是有用的还是说我们只是把代码替换成了例如总是预测y=0 这样的东西因此如果你有一个偏斜类用分类精确度并不能很好地衡量算法因为你可能会获得一个很高的精确度非常低的错误率但是我们并不知道我们是否真的提升了分类模型的质量因为总是预测y=0 并不是一个好的分类模型但是总是预测y=0 会将你的误差降低至比如降低至0.5% 当我们遇到这样一个偏斜类时我们希望有一个不同的误差度量值或者不同的评估度量值其中一种评估度量值叫做查准率（precision）和召回率（recall）让我来解释一下假设我们正在用测试集来评估一个分类模型对于测试集中的样本每个测试集中的样本都会等于 0或者1 假设这是一个二分问题我们的学习算法要做的是做出值的预测并且学习算法会为每一个测试集中的实例做出预测预测值也是等于0或1 让我画一个 2x2的表格基于所有这些值基于实际的类与预测的类如果有一个样本它实际所属的类是1 预测的类也是1 那么我们把这个样本叫做真阳性（true positive）意思是说我们的学习算法预测这个值为阳性实际上这个样本也确实是阳性如果我们的学习算法预测某个值是阴性等于0 实际的类也确实属于0 那么我们把这个叫做真阴性（true negative）我们预测为0的值实际上也等于0 还剩另外的两个单元格如果我们的学习算法预测某个值等于1 但是实际上它等于0 这个叫做假阳性（false positive）比如我们的算法预测某些病人患有癌症但是事实上他们并没有得癌症最后这个单元格是 1和0 这个叫做假阴性（false negative）因为我们的算法预测值为0 但是实际值是1 这样我们有了一个2x2的表格基于实际类与预测类这样我们有了一个另一种方式来评估算法的表现我们要计算两个数字第一个叫做查准率这个意思是对于所有我们预测他们患有癌症的病人有多大比率的病人是真正患有癌症的让我把这个写下来一个分类模型的查准率等于真阳性除以所有我们预测为阳性的数量对于那些病人我们告诉他们 "你们患有癌症" 对于这些病人而言有多大比率是真正患有癌症的这个就叫做查准率另一个写法是分子是真阳性分母是所有预测阳性的数量那么这个等于表格第一行的值的和也就是真阳性除以真阳性... 这里我把阳性简写为 POS 加上假阳性这里我还是把阳性简写为POS 这个就叫做查准率查准率越高就越好这是说对于那些病人我们告诉他们 "非常抱歉我们认为你得了癌症" 高查准率说明对于这类病人我们对预测他们得了癌症有很高的准确率另一个数字我们要计算的叫做召回率召回率是如果所有的病人假设测试集中的病人或者交叉验证集中的如果所有这些在数据集中的病人确实得了癌症有多大比率我们正确预测他们得了癌症如果所有的病人都患了癌症有多少人我们能够正确告诉他们你需要治疗把这个写下来召回率被定义为真阳性的数量意思是我们正确预测患有癌症的人的数量我们用这个来除以实际阳性这个值是所有患有癌症的人的数量有多大比率我们能正确发现癌症并给予治疗把这个以另一种形式写下来分母是实际阳性的数量表格第一列值的和将这个以不同的形式写下来那就是真阳性除以真阳性加上假阴性同样地召回率越高越好通过计算查准率和召回率我们能更好的知道分类模型到底好不好具体地说如果我们有一个算法总是预测y=0 它总是预测没有人患癌症那么这个分类模型召回率等于0 因为它不会有真阳性因此我们能会快发现这个分类模型总是预测y=0 它不是一个好的模型总的来说即使我们有一个非常偏斜的类算法也不能够 "欺骗"我们仅仅通过预测 y总是等于0 或者y总是等于1 它没有办法得到高的查准率和高的召回率因此我们能够更肯定拥有高查准率或者高召回率的模型是一个好的分类模型这给予了我们一个更好的评估值给予我们一种更直接的方法来评估模型的好与坏最后一件需要记住的事在查准率和召回率的定义中我们定义查准率和召回率我们总是习惯性地用y=1 如果这个类出现得非常少因此如果我们试图检测某种很稀少的情况比如癌症我希望它是个很稀少的情况查准率和召回率会被定义为 y=1 而不是y=0 作为某种我们希望检测的出现较少的类通过使用查准率和召回率我们发现即使我们拥有非常偏斜的类算法不能够通过总是预测y=1 来"欺骗"我们或者总是预测y=0 因为它不能够获得高查准率和召回率具体地说如果一个分类模型拥有高查准率和召回率那么我们可以确信地说这个算法表现很好即便我们拥有很偏斜的类因此对于偏斜类的问题查准率和召回率给予了我们更好的方法来检测学习算法表现如何这是一种更好地评估学习算法的标准当出现偏斜类时比仅仅只用分类误差或者分类精度好

Trading Off Precision and Recall

在之前的课程中我们谈到查准率和召回率作为遇到偏斜类问题的评估度量值在很多应用中我们希望能够保证查准率和召回率的相对平衡在这节课中我将告诉你应该怎么做同时也向你展示一些查准率和召回率作为算法评估度量值的更有效的方式回忆一下这是查准率和召回率的定义我们在上一节中讲到的让我们继续用癌症分类的例子如果病人患癌症则y=1 反之则y=0 假设我们用逻辑回归模型训练了数据输出概率在0-1之间的值因此我们预测y=1 如果h(x) 大于或等于0.5 预测值为0 如果方程输出值小于0.5 这个回归模型能够计算查准率和召回率但是现在假如我们希望在我们非常确信地情况下才预测一个病人得了癌症因为你知道如果你告诉一个病人告诉他们你得了癌症他们会非常震惊因为这是一个非常坏的消息而且他们会经历一段非常痛苦的治疗过程因此我们希望只有在我们非常确信的情况下才告诉这个人他得了癌症这样做的一种方法是修改算法我们不再将临界值设为0.5 也许我们只在 h(x)的值大于或等于0.7 的情况下才预测y=1 因此我们会告诉一个人他得了癌症在我们认为他有大于等于70%得癌症的概率情况下如果你这么做那么你只在非常确信地情况下才预测癌症那么你的回归模型会有较高的查准率因为所有你准备告诉他们患有癌症的病人所有这些人有比较高的可能性他们真的患有癌症你预测患有癌症的病人中有较大比率的人他们确实患有癌症因为这是我们在非常确信的情况下做出的预测与之相反这个回归模型会有较低的召回率因为当我们做预测的时候我们只给很小一部分的病人预测y=1 现在我们把这个情况夸大一下我们不再把临界值设在0.7 我们把它设为0.9 我们只在至少90%肯定这个病人患有癌症的情况下预测y=1 那么这些病人当中有非常大的比率真正患有癌症因此这是一个高查准率的模型但是召回率会变低因为我们希望能够正确检测患有癌症的病人现在考虑一个不同的例子假设我们希望避免遗漏掉患有癌症的人即我们希望避免假阴性具体地说如果一个病人实际患有癌症但是我们并没有告诉他患有癌症那这可能造成严重后果因为如果我们告诉病人他们没有患癌症那么他们就不会接受治疗但是如果他们患有癌症我们又没有告诉他们那么他们就根本不会接受治疗那么这么可能造成严重后果病人丧失生命因为我们没有告诉他患有癌症他没有接受治疗但事实上他又患有癌症这种i情况下我们希望预测y=1 我们希望预测病人患有癌症这样他们会做进一步的检测然后接受治疗以避免他们真的患有癌症在这个例子中我们不再设置高的临界值我们会设置另一个值将临界值设得较低比如0.3 这样做我们认为他们有大于30%的几率患有癌症我们以更加保守的方式告诉他们患有癌症因此他们能够接受治疗在这种情况下我们会有一个较高召回率的模型因为确实患有癌症的病人有很大一部分被我们正确标记出来了但是我们会得到较低的查准率因为我们预测患有癌症的病人比例越大那么就有较大比例的人其实没有患癌症顺带一提当我在给别的学生讲这个的时候令人惊讶的是有的学生问怎么可以从两面来看这个问题为什么我总是只想要高查准率或高召回率但是这看起来可以使两边都提高但是我希望算法是正确的更普遍的一个原则是这取决于你想要什么你想要高查准率低召回率还是高召回率低查准率你可以预测y=1 当h(x)大于某个临界值因此总的来说对于大多数的回归模型你得权衡查准率和召回率当你改变临界值的值时我在这儿画了一个临界值你可以画出曲线来权衡查准率和召回率这里的一个值反应出一个较高的临界值这个临界值可能等于0.99 我们假设只在有大于99%的确信度的情况下才预测y=1 至少有99%的可能性因此这个点反应高查准率低召回率然而这里的一个点反映一个较低的临界值比如说0.01 毫无疑问在这里预测y=1 如果你这么做你最后会得到很低的查准率但是较高的召回率当你改变临界值如果你愿意你可以画出回归模型的所有曲线来看看你能得到的查准率和召回率的范围顺带一提查准率-召回率曲线可以是各种不同的形状有时它看起来是这样有时是那样查准率-召回率曲线的形状有很多可能性这取决于回归模型的具体算法因此这又产生了另一个有趣的问题那就是有没有办法自动选取临界值或者更广泛地说如果我们有不同的算法或者不同的想法我们如何比较不同的查准率和召回率呢？具体来说假设我们有三个不同的学习算法或者这三个不同的学习曲线是同样的算法但是临界值不同我们怎样决定哪一个算法是最好的我们之前讲到的其中一件事就是评估度量值的重要性这个概念是通过一个具体的数字来反映你的回归模型到底如何但是查准率和召回率的问题我们却不能这样做因为在这里我们有两个可以判断的数字因此我们经常会不得不面对这样的情况如果我们正在试图比较算法1 和算法2 我们最后问自己到底是0.5的查准率与 0.4的召回率好还是说 0.7的查准率与 0.1的召回率好或者每一次你设计一个新算法你都要坐下来思考到底0.5 0.4好还是说 0.7 0.1好我不知道如果你最后这样坐下来思考这回降低你的决策速度思考到底哪些改变是有用的应该被融入到你的算法与此相反的是如果我们有一个评估度量值一个数字能够告诉我们到底是算法1好还是算法2好这能够帮助我们更快地决定哪一个算法更好同时也能够更快地帮助我们评估不同的改动哪些应该被融入进算法里面那么我们怎样才能得到这个评估度量值呢？你可能会去尝试的一件事情是计算一下查准率和召回率的平均值用 P 和 R 来表示查准率和召回率你可以做的是计算它们的平均值看一看哪个模型有最高的均值但是这可能并不是一个很好的解决办法因为像我们之前的例子一样如果我们的回归模型总是预测 y=1 这么做你可能得到非常高的召回率得到非常低的查准率相反地如果你的模型总是预测y=0 就是说如果很少预测y=1 对应的设置了一个高临界值最后你会得到非常高的查准率和非常低的召回率这两个极端情况一个有非常高的临界值一个有非常低的临界值它们中的任何一个都不是一个好的模型我们可以通过非常低的查准率或者非常低的召回率判断这不是一个好模型如果你只是使用(P+R)/2 算法3的这个值是最高的即使你可以通过使用总是预测y=1这样的方法来得到这样的值但这并不是一个好的模型对吧你总是预测y=1 这不是一个有用的模型因为它只输出y=1 那么算法1和算法2 比算法3更有用但是在这个例子中查准率和召回率的平均值算法3是最高的因此我们通常认为查准率和召回率的平均值不是评估算法的一个好的方法相反地有一种结合查准率和召回率的不同方式叫做F值公式是这样在这个例子中 F值是这样的我们可以通过 F值来判断算法1 有最高的F值算法2第二算法3是最低的因此通过F值我们会在这几个算法中选择算法1 F值也叫做F1值一般写作F1值但是人们一般只说F值它的定义会考虑一部分查准率和召回率的平均值但是它会给查准率和召回率中较低的值更高的权重因此你可以看到F值的分子是查准率和召回率的乘积因此如果查准率等于0 或者召回率等于0 F值也会等于0 因此它结合了查准率和召回率对于一个较大的F值查准率和召回率都必须较大我必须说有较多的公式可以结合查准率和召回率 F值公式只是其中一个但是出于历史原因和习惯问题人们在机器学习中使用F值这个术语F值没有什么特别的意义所以不要担心它到底为什么叫做F值或者F1值但是它给了你你需要的有效方法因为无论是查准率等于0 还是召回率等于0 它都会得到一个很低的F值因此如果要得到一个很高的F值你的算法的查准率和召回率都要接近于1 具体地说如果P=0或者 R=0 你的F值也会等于0 对于一个最完美的F值如果查准率等于1 同时召回率也等于1 那你得到的F值等于1乘以1 除以2再乘以2 那么F值就等于1 如果你能得到最完美的查准率和召回率在0和1中间的值这经常是回归模型最经常出现的分数在这次的视频中我们讲到了如何权衡查准率和召回率以及我们如何变动临界值来决定我们希望预测y=1 还是y=0 比如我们需要一个 70%还是90%置信度的临界值或者别的来预测y=1 通过变动临界值你可以控制权衡查准率和召回率之后我们讲到了F值它权衡查准率和召回率给了你一个评估度量值当然如果你的目标是自动选择临界值来决定你希望预测y=1 还是y=0 那么一个比较理想的办法是试一试不同的临界值试一下不同的临界值然后评估这些不同的临界值在交叉检验集上进行测试然后选择哪一个临界值能够在交叉检验集上得到最高的F值这是自动选择临界值的较好办法较好办法

Using Large Data Sets

Data For Machine Learning

在之前的视频中我们讨论了评价指标在本节课的视频中我要稍微转换一下讨论一下机器学习系统设计中另一个重要的方面这往往涉及到用来训练的数据有多少在之前的一些视频中我曾告诫大家不要盲目地开始而是花大量的时间来收集大量的数据因为数据有时是唯一能实际起到作用的但事实证明在一定条件下我会在这个视频里讲到这些条件是什么得到大量的数据并在某种类型的学习算法中进行训练可以是一种有效的方法来获得一个具有良好性能的学习算法而这种情况往往出现在这些条件对于你的问题都成立并且你能够得到大量数据的情况下这可以是一个很好的方式来获得非常高性能的学习算法因此在这段视频中让我们一起讨论一下这个问题我先讲一个故事很多很多年前我认识的两位研究人员 Michele Banko 和 Eric Brill 进行了一项有趣的研究他们感兴趣的是研究使用不同的学习算法的效果与将这些效果使用到不同训练数据集上两者的比较他们当时考虑这样一个问题如何在易混淆的词之间进行分类比如在这样的句子中：早餐我吃了__个鸡蛋 (to,two,too) 在这个例子中早餐我吃了2个鸡蛋这是一个易混淆的单词的例子而这是另外一组情况于是他们把诸如这样的机器学习问题当做一类监督学习问题并尝试将其分类什么样的词在一个英文句子特定的位置才是合适的他们用了几种不同的学习算法这些算法都是在他们2001年进行研究的时候都已经被公认是比较领先的因此他们使用了一个方差用于逻辑回归上的一个方差被称作"感知器" (perceptron) 他们也采取了一些过去常用但是现在比较少用的算法比如 Winnow 算法很类似于回归问题但在一些方面又有所不同过去用得比较多但现在用得不太多还有一种基于内存的学习算法现在也用得比较少了但是我稍后会讨论一点而且他们用了一个朴素算法这个我们将在这门课程中讨论到这些具体算法的细节不那么重要想象一下就是选了四种分类算法这些具体算法并不重要他们所做的就是改变了训练数据集的大小并尝试将这些学习算法用于不同大小的训练数据集中这就是他们得到的结果这些趋势非常明显首先大部分算法都具有相似的性能其次随着训练数据集的增大在横轴上代表以百万为单位的训练集大小从0.1个百万到1000百万也就是到了 10亿规模的训练集的样本这些算法的性能也都对应地增强了事实上如果你选择任意一个算法可能是选择了一个"劣等的"算法如果你给这个劣等算法更多的数据那么从这些列子中看起来的话它看上去很有可能会其他算法更好甚至会比"优等算法"更好由于这项原始的研究非常具有影响力因此已经有一系列许多不同的研究显示了类似的结果这些结果表明许多不同的学习算法有时倾向于表现出非常相似的表现这还取决于一些细节但是真正能提高性能的是你能够给一个算法大量的训练数据像这样的结果引起了一种在机器学习中的普遍共识： "取得成功的人不是拥有最好算法的人而是拥有最多数据的人" 那么这种说法在什么时候是真什么时候是假呢？因为如果我们有一个学习算法并且如果这种说法是真的那么得到大量的数据通常是保证我们具有一个高性能算法的最佳方式而不是去争辩应该用什么样的算法假如有这样一些假设在这些假设下有大量我们认为有用的训练集我们假设在我们的机器学习问题中特征值 x 包含了足够的信息这些信息可以帮助我们用来准确地预测 y 例如如果我们采用了我们前一张幻灯片里的所有容易混淆的词假如说它能够描述 x 捕捉到需要填写的空白处周围的词语那么特征捕捉到之后我们就希望有对于“早饭我吃了__鸡蛋” 那么这就有大量的信息来告诉我中间我需要填的词是“两个” (two) 而不是单词 to 或 too 因此特征捕捉哪怕是周围词语中的一个词就能够给我足够的信息来确定出标签 y 是什么换句话说从这三组易混淆的词中我应该选什么词来填空这就是一个例子特征值 x 有充足的信息来确定 y 举一个反例设想一个房子价格的问题房子只有大小信息没有其他特征那么如果我告诉你这个房子有 500平方英尺但是我没有告诉你其他的特征信息我也不告诉你这个房子位于这个城市房价比较昂贵的区域如果我也不告诉你这所房子的房间数量或者它里面陈设了多漂亮的家具或这个房子是新的还是旧的我不告诉你其他任何信息除了这个房子有500平方英尺以外然而除此之外还有许多其他因素会影响房子的价格不仅仅是房子的大小如果所有你所知道的只有房子的尺寸那么事实上是很难准确预测它的价格的这是对于这个假设的一个反例假设是特征能够提供足够的信息来在需要的水平上预测出价格我经常思考如果我想测试这样一个假设的方式是什么我经常这样问自己：给定一个输入特征向量 x 给定这些特征值也给定了相同的可用的信息和学习算法如果我们去请教这个领域的人类专家一个人类专家能够准确或自信地预测出 y 的值吗？第一个例子如果我们去找你认识的一个英语专家比如你找到了一个英语说得很好的人那么一个英语方面的专家大部分像你和我这样的人我们可能不难预测出在这种情况下该使用什么样的语言一个英语说得好的人应该可以预测得很好因此这就给了我信心 x能够让我们准确地预测y 但是与此相反如果我们去找一个价格上的专家比如可能是一个房地产经纪人或者职业售楼小姐如果我只是告诉他们一个房子的大小然后问他们房子的价格那么即使是擅长房价评估或者售房方面的专家也不能告诉我房子的价格是多少所以在房价的例子中只知道房子的大小并不能给我足够的信息来预测房子的价格如果这个假设是成立的那么让我们来看一看大量的数据是有帮助的情况假设特征值有足够的信息来预测 y 值假设我们使用一种需要大量参数的学习算法比如有很多特征的逻辑回归或线性回归或者我有时做的一件事我经常做的一件事就是用带有许多隐藏单元的神经网络那又是另外一种带有很多参数的学习算法了这些都是非常强大的学习算法它们有很多参数这些参数可以拟合非常复杂的函数因此我要调用这些我将把这些算法想象成低偏差算法因为我们能够拟合非常复杂的函数而且因为我们有非常强大的学习算法这些学习算法能够拟合非常复杂的函数很有可能如果我们用这些数据运行这些算法这种算法能很好地拟合训练集因此训练误差就会很低现在假设我们使用了非常非常大的训练集在这种情况下如果我们有一个庞大的训练集那么尽管我们希望有很多参数但是如果训练集比比参数的数量还大甚至是更多那么这些算法就不太可能会过度拟合因为我们有如此庞大的训练集并且不太可能过度拟合也就是说训练误差有希望接近测试误差最后把这两个放在一起训练集误差很小而测试集误差又接近训练误差这两个就意味着测试集的误差也会很小另一种考虑这个问题的角度是为了有一个高性能的学习算法我们希望它不要有高的偏差和方差因此偏差问题我么将通过确保有一个具有很多参数的学习算法来解决以便我们能够得到一个较低偏差的算法并且通过用非常大的训练集来保证我们在此没有方差问题我们的算法将没有方差并且通过将这两个值放在一起我们最终可以得到一个低误差和低方差的学习算法这使得我们能够很好地测试测试数据集从根本上来说这是一个关键的假设：特征值有足够的信息量且我们有一类很好的函数这是为什么能保证低误差的关键所在它有大量的训练数据集这能保证得到更多的方差值因此这给我们提出了一些可能的条件一些对于问题的认识如果你有大量的数据而且你训练了一种带有很多参数的学习算法那么这将会是一个很好的方式来提供一个高性能的学习算法我觉得关键的测试我常常问自己首先一个人类专家看到了特征值 x 能很有信心的预测出 y值吗？因为这可以证明 y 可以根据特征值 x 被准确地预测出来其次我们实际上能得到一组庞大的训练集并且在这个训练集中训练一个有很多参数的学习算法吗？如果你不能做到这两者那么更多时候你会得到一个性能很好的学习算法

Machine Learning - 第6周（Advice for Applying Machine Learning、Machine Learning System Design）

Advice for Applying Machine Learning

Evaluating a Learning Algorithm

Deciding What to Try Next

Evaluating a Hypothesis

Model Selection and Train/Validation/Test Sets

Bias vs. Variance

Diagnosing Bias vs. Variance

Regularization and Bias/Variance

Learning Curves

Deciding What to Do Next Revisited

Machine Learning System Design

Building a Spam Classifier

Prioritizing What to Work On

Error Analysis

Handling Skewed Data

Error Metrics for Skewed Classes

Trading Off Precision and Recall

Using Large Data Sets

Data For Machine Learning

Machine Learning - 第6周（Advice for Applying Machine Learning、Machine Learning System Design）的相关教程结束。

相关推荐

ICANN 2001-Learning to Learn Using Gradient Descent

Search Engine + Recommendation System

如何在php中使用system函数调用系统命令

C语言下system函数怎么使用

如何在linux中使用system函数

举例说明c语言system函数用法

C语言的system函数怎么使用

php中system函数有什么用