我花了很多时间试图找出这些“subsample”、“colsample_by_tree”和“colsample_bylevel”在 XGBClassifier() 中实际做了什么,但我无法确切地找出它们的作用。有人可以简要解释一下他们在做什么吗?
谢谢!
原文由 Pyrowomat 发布,翻译遵循 CC BY-SA 4.0 许可协议
我花了很多时间试图找出这些“subsample”、“colsample_by_tree”和“colsample_bylevel”在 XGBClassifier() 中实际做了什么,但我无法确切地找出它们的作用。有人可以简要解释一下他们在做什么吗?
谢谢!
原文由 Pyrowomat 发布,翻译遵循 CC BY-SA 4.0 许可协议
“subsample”、“colsample_by_tree”和“colsample_bylevel”的概念来自随机森林。在其中,您构建了许多树的集合,然后在进行预测时将它们组合在一起。
“随机”部分通过对每棵树的训练样本进行随机抽样(自举),并仅考虑属性的随机子集来构建每棵树(实际上是每棵树的节点)。
换句话说,对于随机森林中的每棵树,您:
与随机森林类似,XGB 是弱模型的集合,当它们放在一起时会给出稳健和准确的结果。弱模型可以是决策树,可以像随机森林一样随机化。在这种情况下: