java - Spark DataFrame - 选择 n 随机行

我有一个包含数千条记录的数据框，我想随机选择 1000 行到另一个数据框中进行演示。我如何在 Java 中执行此操作？

谢谢！

原文由 lte__ 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 1.2k

你可以试试 sample() 方法。不幸的是，你必须给那里的不是数字，而是分数。你可以这样写函数：

 def getRandom (dataset : Dataset[_], n : Int) = {
    val count = dataset.count();
    val howManyTake = if (count > n) n else count;
    dataset.sample(0, 1.0*howManyTake/count).limit (n)
}

说明：我们必须取一小部分数据。如果我们有 2000 行，而你想得到 100 行，我们必须有总行数的 0.5。如果你想获得比 DataFrame 中更多的行，你必须获得 1.0。调用 limit () 函数以确保舍入是正确的，并且您没有获得比指定更多的行。

编辑：我在其他答案中看到了 takeSample 方法。但要记住：

这是 RDD 的一种方法，而不是数据集，因此您必须这样做： dataset.rdd.takeSample(0, 1000, System.currentTimeMilis()).toDF() takeSample 将收集所有值。
请记住，如果您想要获取非常多的行，那么您将遇到 OutOfMemoryError 问题，因为 takeSample 正在驱动程序中收集结果。小心使用

原文由 T. Gawęda 发布，翻译遵循 CC BY-SA 3.0 许可协议

Spark DataFrame - 选择 n 随机行

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

一个类实现接口并且继承父类使用Spring aop 失效?

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?

Stack Overflow 翻译