如何使用 pyspark 在 Spark 2.0 中构建 sparkSession？

Question

新手上路，请多包涵

我刚刚获得了 spark 2.0 的访问权限；到目前为止，我一直在使用 spark 1.6.1。有人可以帮我使用pyspark（python）设置sparkSession吗？我知道网上提供的 scala 示例是相似的（在这里），但我希望能直接使用 python 语言进行演练。

我的具体情况：我在 zeppelin spark notebook 中从 S3 加载 avro 文件。然后构建 df 并从中运行各种 pyspark 和 sql 查询。我所有的旧查询都使用 sqlContext。我知道这是不好的做法，但我开始我的笔记本

sqlContext = SparkSession.builder.enableHiveSupport().getOrCreate() 。

我可以在 avros 中阅读

mydata = sqlContext.read.format("com.databricks.spark.avro").load("s3:...

并构建没有问题的数据框。但是，一旦我开始查询数据帧/临时表，我就会不断收到“java.lang.NullPointerException”错误。我认为这表明存在翻译错误（例如，旧查询在 1.6.1 中有效，但需要针对 2.0 进行调整）。无论查询类型如何，都会发生错误。所以我假设

1.) sqlContext 别名是个坏主意

和

2.) 我需要正确设置 sparkSession。

因此，如果有人能告诉我这是如何完成的，或者解释他们所知道的不同版本的 spark 之间的差异，我将不胜感激。如果我需要详细说明这个问题，请告诉我。如果令人费解，我深表歉意。

原文由 haileyeve 发布，翻译遵循 CC BY-SA 4.0 许可协议

python sql apache-spark pyspark

阅读 683

1 个回答

得票最新

社区维基

1

发布于
2022-10-21

spark  = SparkSession.builder\
                  .master("local")\
                  .enableHiveSupport()\
                  .getOrCreate()

spark.conf.set("spark.executor.memory", '8g')
spark.conf.set('spark.executor.cores', '3')
spark.conf.set('spark.cores.max', '3')
spark.conf.set("spark.driver.memory",'8g')
sc = spark.sparkContext

原文由 Aaka sh 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

如何使用 pyspark 在 Spark 2.0 中构建 sparkSession？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何使用 python 代码实现迅雷磁力链接资源的下载？

如何实现一个深拷贝函数？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

(10元)为什么UTF8的TXT文件存入SQLite后大小增加近三倍？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

Stack Overflow 翻译