8.14 机器学习(1)

Source

机器学习基础

一、什么是机器学习

定义:让计算机利用大量数据在特定任务上持续改进性能的过程,可以让任务完成的更好。

机器学习的领域很多。

二、机器学习基本术语

数据集、样本、特征(属性)、属性空间、向量表示、训练集(训练模型的数据集合,含标记信息)、测试集(测试模型的数据集合)

三、主要学习任务(以好瓜坏瓜为例子)

  1. 监督学习:已知正确答案和参数,达到要求的学习过程。

    • 分类:输出的结果位有限,离散型(好瓜/坏瓜)。

    • 回归:输出某个范围内任何数值,连续型(房价预测)。

  2. 无监督学习:提供数据集合,不提供有信息的学习过程。

    • 聚类:把样本按相似度分组。

    • 关联分析:尿布 → 葡萄酒推荐。

  3. 集成学习

    ①结合多个弱学习器提升整体性能。

四、模型评估与选择

  1. 误差

    1. 训练误差(经验误差):在训练集上的误差。

    2. 泛化误差:在新样本上的期望误差。

    3. 错误率:错误的样本占样本总数的比例。

    4. 残差:实际预测输出与样本真实输出的差异。

  2. 拟合状态

    1. 欠拟合:模型太简单,训练误差高。

      → 解决:增加特征、提高模型复杂度、减小正则化。

    2. 过拟合:模型太复杂,训练误差低但泛化误差高。

      → 解决:增数据、降维、正则化、集成学习。

    3. 损失函数:衡量模型预测误差大小的函数。(损失函数越小越好)

  3. 评估方法

    1. 留出法:70 % 训练 / 30 % 测试,分层采样。

    2. k 折交叉验证:常用 10 折,取 k 次平均。

  4. 性能指标(二分类)

    1. TP, FP, TN, FN

    2. 查准率 P = TP / (TP+FP)

    3. 查全率 R = TP / (TP+FN)

五、选择模型的原则

奥卡姆剃刀:在可解释数据的前提下选最简单模型。

没有免费午餐(NFL):脱离具体任务谈算法优劣无意义。


机器学习=数据+算法+评估

用经验提升任务性能,警惕欠拟合与过拟合,通过交叉验证和性能指标选择最适合实际问题的简洁模型。