1.9 练一练

同学之间讨论刚才完成的机器学习代码,并且确保在自己的电脑是哪个运行成功

总结

在本案例中，具体完成内容有：
- 使用可视化加载和探索数据，以确定特征是否能将不同类别分开。
- 通过标准化数字特征并随机抽样到训练集和测试集来准备数据。
- 通过统计学，精确度度量进行构建和评估机器学习模型。
k近邻算法总结
- 优点：
  - 简单有效
  - 重新训练的代价低
  - 适合类域交叉样本
    - KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。
  - 适合大样本自动分类
    - 该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。
- 缺点：
  - 惰性学习
    - KNN算法是懒散学习方法（lazy learning,基本上不学习），一些积极学习的算法要快很多
  - 类别评分不是规格化
    - 不像一些通过概率评分的分类
  - 输出可解释性不强
    - 例如决策树的输出可解释性就较强
  - 对不均衡的样本不擅长
    - 当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻居权值大）来改进。
  - 计算量较大
    - 目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。

1.9 练一练

同学之间讨论刚才完成的机器学习代码,并且确保在自己的电脑是哪个运行成功

总结

在本案例中，具体完成内容有：

k近邻算法总结

优点：

缺点：