《计算机科学丛书:机器学习基础教程》介绍机器学习技术及应用的主要算法,重点讲述理解主流的机器学习算法所需的核心数学和统计知识。书中介绍的算法涵盖机器学习的主要问题:分类、聚类和投影。由于本书是机器学习基础课程的教材,所以尽量减少了数学难度,仅对一小部分重要算法给出详细的描述和推导,而对大部分算法仅给出简单介绍,目的在于使学生打好基础,增强信心和兴趣,鼓励他们进一步学习该领域的高级主题或从事相关研究工作。《计算机科学丛书:机器学习基础教程》是机器学习导论课程教材,适合作为计算机、自动化及相关专业高年级本科生或研究生的教材,也可供研究人员和工程技术人员参考。1.5泛化与过拟合1.4节提出了1阶与8阶多项式哪个更好的问题。假定原来建立这些模型的目的是做预测,那么不难理解最好的模型就是可以使预测最精确的那个,即可以泛化训练样本以外数据的模型(例如,到2008年的奥运会数据)。理想情况下,我们更喜欢选择在不可见数据上性能最好的模型(即最小化损失),但是由于问题本身的原因,数据无法得到。图1-10表明,可应用训练数据上的损失选择用于预测的模型。曲线显示训练数据上8阶多项式拟合男子100米数据的损失比1阶多项式更低。而8阶多项式对于未来奥运会的预测非常糟糕。基于8阶多项式的模型过于关注训练数据(过拟合),因此不能很好地泛化新数据。由于模型越来越复杂,所以也越来越逼近可观测数据。不幸的是,当超过某点,预测的质量就会迅速退化。为了克服过拟合,能够很好地泛化,确定最优模型的复杂度将会非常有挑战性。这个折中问题经常被认为是偏置一方差平衡,将在2.8节中简单地介绍。1.5.1验证数据克服过拟合问题的一般方法是使用第二个数据集,即验证集。用验证集来验证模型的预测性能。验证数据可以单独提供或者从原始训练集中拿出一部分。例如,在100米数据中,可以从训练集中拿出1980年以后的所有奥运会数据作为验证集。为了进行模型选择,可以在缩小的训练集上训练每一个模型,然后计算它们在验证集上的损失。图1-12a、b依次给出了训练和(10g)验证损失的曲线。训练损失随着多项式阶(模型复杂度)的增加单调递减。而验证损失随着多项式阶的增加而快速增长,这表明1阶多项式有最好的泛化能力,能够产生最可靠的预测。很容易测试这个假设。在图113中,可以看到数据集(已标记的训练集和验证集)与1阶、4阶和8阶多项式函数(MATLAB脚本:olympval.m)。1979年已经执行了这个任务,很明显1阶模型的确能够给出最好的预测。……出版者的话译者序前言第1章线性建模:最小二乘法1.1线性建模1.1.1定义模型1.1.2模型假设1.1.3定义什么是好的模型1.1.4最小二乘解:一个有效的例子1.1.5有效的例子1.1.6奥运会数据的最小二乘拟合1.1.7小结1.2预测1.2.1第二个奥运会数据集1.2.2小结1.3向量/矩阵符号1.3.1例子1.3.2数值的例子1.3.3预测1.3.4小结1.4线性模型的非线性响应1.5泛化与过拟合1.5.1验证数据1.5.2交叉验证1.5.3K折交叉验证的计算缩放1.6正则化最小二乘法1.7练习其他阅读材料第2章线性建模:最大似然方法2.1误差作
show more...Just click on START button on Telegram Bot