概念
K-fold Cross Validation(K-折交叉验证,记为K-CV)
1将原始数据分成K组(一般是均分),将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型,用这K个模型最终的验证集的分类准确率的平均数作为此K-CV下分类器的性能指标。K一般大于等于2,实际操作时一般从3开始取,只有在原始数据集合数据量小的时候才会尝试取2。K-CV可以有效的避免过学习以及欠学习状态的发生,最后得到的结果也比较具有说服性。 2事实上,交叉验证的方法不仅能够提高数据的利用率,更重要的是他也能够在一定程度上解决过拟合(Overfitting)问题,因为过拟合只能很好的拟合训练集中的数据而并不能拟合评估集中的数据。3
学习资源
- 云戒 -简书-0x12 模型评估,交叉验证(http://www.jianshu.com/p/9420ebfd05bd)
- datartisan-用交叉验证改善模型的预测表现(适用于 Python 和 R )
- 实例-CSDN-拾毅者-机器学习-CrossValidation交叉验证Python实现
- 实例-拾毅者-机器学习-CrossValidation交叉验证Python实现
- sklearn官方Cross-validation: evaluating estimator performance
- sklearn官方-sklearn.model_selection.train_test_split
参考
版权声明:本文为u012593290原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。