0%

毕设机器学习模型总结

KNN

近朱者赤近墨者黑,分类或者回归算法。

n_neighbors:找最近的n个邻居,然后根据n个邻居判断它为什么。在机器学习库中,默认为5.

weights:默认是uniform, 参数可以是uniform、distance, 也可以是用户自己定义的函数

  • uniform: 是均等的权重, 就说所有的邻近点的权重都是相等的
  • distance: 是不均等的权重, 距离近的点比距离远的点的影响大
  • 用户自定义的函数, 接收距离的数组, 返回一组维数相同的权重

leaf_size: 默认是30, 这个是构造的kd树和ball树的大小. 这个值的设置会影响树构建的速度和搜索速度, 同样也影响着存储树所需的内存大小. 需要根据问题的性质选择最优的大小

p : minkowski距离度量里的参数. p=2时是欧氏距离, p=1时是曼哈顿距离,对于任意p, 就是minkowski距离

注:欧式距离为两个点的实际距离;曼哈顿距离为出租车距离,即遵守正南正北、正东正西方向规则;马氏距离:概率论距离,即基于样本分布距离。

image-20230308120004396

随机森林

image-20230308120217890

image-20230308120314259

n_estimators:树的个数(学习器的个数),提高数值,提高模型准确率,但是训练时间变长

image-20230308120807856

max_depth:树的最大深度

image-20230308120934344

image-20230308120956257

决策树

超参数介绍参考随机森林

SVC

kernel:核函数

C:惩罚参数

  • 错误项的惩罚系数。
  • c越大,即对分错样本的惩罚程度越大,因此在训练样本中准确率越高,但是泛化能力降低,也就是对测试数据的分类准确率降低。
  • 相反,减小c的话,允许训练样本中有一些误分类错误样本,泛化能力强。
  • 对于训练样本带有噪声的情况,一般采用减小c的方法,把训练样本集中错误分类的样本作为噪声2.

AdaBoost

n_estimators:为弱学习器的数量‘

learning_rate:为弱学习器的权重缩减系数。