PySpark：java.lang.OutofMemoryError：Java 堆空间

我最近在具有 24 个 CPU 和 32GB RAM 的服务器上使用 PySpark 和 Ipython。它只在一台机器上运行。在我的过程中，我想收集大量数据，如下面的代码所示：

 train_dataRDD = (train.map(lambda x:getTagsAndText(x))
.filter(lambda x:x[-1]!=[])
.flatMap(lambda (x,text,tags): [(tag,(x,text)) for tag in tags])
.groupByKey()
.mapValues(list))

当我做

training_data =  train_dataRDD.collectAsMap()

它给我 outOfMemory 错误。 Java heap Space 。此外，此错误后我无法对 Spark 执行任何操作，因为它失去了与 Java 的连接。它给出 Py4JNetworkError: Cannot connect to the java server 。

看起来堆空间很小。我怎样才能将它设置为更大的限制？

编辑：

我在运行前尝试过的事情： sc._conf.set('spark.executor.memory','32g').set('spark.driver.memory','32g').set('spark.driver.maxResultsSize','0')

我根据此处的文档更改了 spark 选项（如果您执行 ctrl-f 并搜索 spark.executor.extraJavaOptions）： http ://spark.apache.org/docs/1.2.1/configuration.html

它说我可以通过设置 spark.executor.memory 选项来避免 OOM。我做了同样的事情，但似乎没有用。

原文由 pg2455 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 1.4k

sudo vim $SPARK_HOME/conf/spark-defaults.conf #uncomment the spark.driver.memory and change it according to your use. I changed it to below spark.driver.memory 15g # press : and then wq! to exit vim editor

PySpark：java.lang.OutofMemoryError：Java 堆空间

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

一个类实现接口并且继承父类使用Spring aop 失效?

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?

Stack Overflow 翻译

PySpark：java.lang.OutofMemoryError：Java 堆空间

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

一个类实现接口并且继承父类 使用Spring aop 失效?

idea 中 有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性 有什么好的办法吗?

Stack Overflow 翻译

一个类实现接口并且继承父类使用Spring aop 失效?

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?