新手上路，请多包涵

因此，当从 pyspark 运行时，我会输入（不指定任何上下文）：

 df_openings_latest = sqlContext.sql('select * from experian_int_openings_latest_orc')

.. 它工作正常。

但是，当我从 spark-submit 运行我的脚本时，就像

spark-submit script.py 我把下面的

from pyspark.sql import SQLContext
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName('inc_dd_openings')
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)

df_openings_latest = sqlContext.sql('select * from experian_int_openings_latest_orc')

但这给了我一个错误

pyspark.sql.utils.AnalysisException: u’Table not found: experian_int_openings_latest_orc;’

所以它看不到我的桌子。

我究竟做错了什么？请帮忙

PS Spark 版本为 1.6，在 Amazon EMR 上运行

原文由 Denys 发布，翻译遵循 CC BY-SA 4.0 许可协议

python hadoop apache-spark pyspark

阅读 678

2 个回答

得票最新

社区维基

发布于
2023-01-09

✓ 已被采纳

火花 2.x

如果在没有启用 Hive 支持的情况下创建了 SparkSession ，Spark 2.x 中可能会出现相同的问题。

火花 1.x

这很简单。当您使用 PySpark shell 并且 Spark 已构建为支持 Hive 时，默认 SQLContext 实现（可用作 sqlContext ）是 HiveContext

在您的独立应用程序中，您使用不提供 Hive 功能的普通 SQLContext 。

假设其余配置正确，只需替换：

 from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)

和

from pyspark.sql import HiveContext

sqlContext = HiveContext(sc)

原文由 zero323 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2023-01-09

在 Spark 2.x (Amazon EMR 5+) 中，如果您不启用 Hive 支持，您将遇到这个问题 spark-submit ：

 from pyspark.sql import SparkSession
spark = SparkSession.builder.master("yarn").appName("my app").enableHiveSupport().getOrCreate()

原文由 Mike Placentra 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

Spark 可以从 pyspark 访问 Hive 表，但不能从 spark-submit

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译