Pyspark 错误:Java 网关进程在发送其端口号之前退出

新手上路,请多包涵

我正在使用 Pyspark 在 Jupyter Notebook 中运行一些命令,但它抛出错误。我尝试了此链接中提供的解决方案( Pyspark: Exception: Java gateway process exited before sending the driver its port number ),我尝试执行此处提供的解决方案(例如将路径更改为 C:Java、卸载 Java SDK 10 并重新安装 Java 8,它仍然向我抛出同样的错误。

我尝试卸载并重新安装 pyspark,我也尝试从 anaconda 提示符运行,但我仍然遇到同样的错误。我使用的是 Python 3.7,pyspark 版本是 2.4.0。

如果我使用此代码,则会出现此错误。“异常:Java 网关进程在发送其端口号之前退出”。

 from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext()
sqlContext = SQLContext(sc)
from pyspark.mllib.linalg import Vector, Vectors
from nltk.stem.wordnet import WordNetLemmatizer
from pyspark.ml.feature import RegexTokenizer, StopWordsRemover, Word2Vec

但是,如果我从此代码中删除 sparkcontext 运行良好,但我的解决方案需要 spark 上下文。下面没有 spark 上下文的代码不会抛出任何错误。

 from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.mllib.linalg import Vector, Vectors
from nltk.stem.wordnet import WordNetLemmatizer
from pyspark.ml.feature import RegexTokenizer, StopWordsRemover, Word2Vec

如果我能得到任何帮助来解决这个问题,我将不胜感激。我正在使用 Windows 10 64 位操作系统。

这是完整的错误代码图片。

在此处输入图像描述

原文由 Avi 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 2k
1 个回答

在你的 bash 终端中输入这个,它会被修复:

 export PYSPARK_SUBMIT_ARGS="--master local[2] pyspark-shell"

所有这一切都是将 pyspark-shell 导出到 shell 环境变量 PYSPARK_SUBMIT_ARGS

原文由 xilpex 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题