我有一个数据框形式的相当大的数据集,我想知道如何将数据框分成两个随机样本(80% 和 20%)用于训练和测试。
谢谢!
原文由 tooty44 发布,翻译遵循 CC BY-SA 4.0 许可协议
我有一个数据框形式的相当大的数据集,我想知道如何将数据框分成两个随机样本(80% 和 20%)用于训练和测试。
谢谢!
原文由 tooty44 发布,翻译遵循 CC BY-SA 4.0 许可协议
Scikit Learn 的 train_test_split
是一个很好的工具。它将拆分 numpy 数组和数据帧。
from sklearn.model_selection import train_test_split
train, test = train_test_split(df, test_size=0.2)
原文由 o-90 发布,翻译遵循 CC BY-SA 4.0 许可协议
2 回答5.1k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.2k 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决
我只会使用 numpy 的
randn
:只是为了看看这是否有效: