新手上路，请多包涵

将 NumPy 数组随机拆分为训练和测试/验证数据集的好方法是什么？类似于 cvpartition 或 crossvalind Matlab 中的函数。

原文由 erik 发布，翻译遵循 CC BY-SA 4.0 许可协议

python arrays optimization numpy

阅读 458

2 个回答

得票最新

社区维基

发布于
2022-12-29

✓ 已被采纳

如果你想将数据集分成两部分，你可以使用 numpy.random.shuffle ，或者 numpy.random.permutation 如果你需要跟踪索引（记得修复随机种子使一切都可重现）：

 import numpy
# x is your dataset
x = numpy.random.rand(100, 5)
numpy.random.shuffle(x)
training, test = x[:80,:], x[80:,:]

要么

import numpy
# x is your dataset
x = numpy.random.rand(100, 5)
indices = numpy.random.permutation(x.shape[0])
training_idx, test_idx = indices[:80], indices[80:]
training, test = x[training_idx,:], x[test_idx,:]

有许多其他方法可以重复划分同一数据集以进行交叉验证。其中许多在 sklearn 库中可用（k-fold，leave-n-out，…）。 sklearn 还包括更高级的 “分层抽样” 方法，这些方法创建一个关于某些特征平衡的数据分区，例如确保正例和负例的比例相同训练和测试集。

原文由 pberkes 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2022-12-29

还有另一种选择，只需要使用 scikit-learn。正如 scikit 的 wiki 所描述的，您可以使用以下说明：

 from sklearn.model_selection import train_test_split

data, labels = np.arange(10).reshape((5, 2)), range(5)

data_train, data_test, labels_train, labels_test = train_test_split(data, labels, test_size=0.20, random_state=42)

通过这种方式，您可以使您尝试拆分为训练和测试的数据的标签保持同步。

原文由 Paulo Malvar 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

如何将数据集拆分/划分为训练和测试数据集以进行交叉验证？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

如何将数据集拆分/划分为训练和测试数据集以进行交叉验证？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？