$SPARK_HOME/conf下配置core-site.xml连接远程hive仓库的HDFS不起作用

新手上路,请多包涵

问题描述

执行spark-submit [pyspark脚本].py,执行到SQL语句时报连接失败错误,在配置使用远程HDFS的情况下依然尝试连接本地的9000端口,根据此错误信息的官网介绍第五段,9000端口是HDFS端口。
(仅摘录重要信息):

Traceback (most recent call last):
  File "/root/try.py", line 15, in <module>

    coap = spark.sql("select * from [表名] limit 5").collect()

py4j.protocol.Py4JJavaError: 
An error occurred while calling o42.collectToPython.
: java.net.ConnectException:
Call From master/127.0.1.1 to master:9000 failed on connection

问题出现的环境背景及自己尝试过哪些方法

按照spark官网Hive Tables文档第二段内容,将core-site.xml文件放在了$SPARK_HOME/conf目录下。其中有配置信息:

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.0.24:9000/</value>
    </property>

发现不管用之后,又根据官网文档Inheriting Hadoop Cluster Configuration的指南,把同文件夹下的spark-env.sh文件中HADOOP_CONF_DIR环境变量的值指向了$SPARK_HOME/conf的绝对路径(文件里写的并不是$SPARK_HOME),然而依然不管用。

spark-defaults.conf内也没有可能覆盖此项的配置,pyspark脚本里更没有。

阅读 3.9k
1 个回答
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进