spark.read.option() 中的可用选项

Question

新手上路，请多包涵

当我阅读其他人的 python 代码时，例如 spark.read.option("mergeSchema", "true") ，似乎编码器已经知道要使用的参数。但是对于初学者来说，有没有地方可以查找这些可用参数？我查找了 apche 文档，它显示参数未记录。

谢谢。

原文由 Tim.X 发布，翻译遵循 CC BY-SA 4.0 许可协议

python python-3.x apache-spark

阅读 845

1 个回答

得票最新

社区维基

1

发布于
2022-11-15

令人讨厌的是， option json 的文档中。该方法的文档说选项如下（键 - 值 - 描述）：

primitivesAsString – true/false (default false) – 将所有原始值推断为字符串类型
prefersDecimal – true/false (default false) – 将所有浮点值推断为十进制类型。如果这些值不适合十进制，那么它会将它们推断为双精度值。
allowComments – true/false (default false) – 忽略 JSON 记录中的 Java/C++ 样式注释
allowUnquotedFieldNames – true/false (default false) – 允许不带引号的 JSON 字段名称
allowSingleQuotes – true/false (default true) – 除了双引号外还允许单引号
allowNumericLeadingZeros – true/false (default false) – 允许数字中的前导零（例如 00012）
allowBackslashEscapingAnyCharacter – true/false (default false) – 允许使用反斜杠引用机制接受所有字符的引用
allowUnquotedControlChars – true/false（默认为 false）– 允许 JSON 字符串包含或不包含不带引号的控制字符（值小于 32 的 ASCII 字符，包括制表符和换行符）。
mode – PERMISSIVE/DROPMALFORMED/FAILFAST（默认 PERMISSIVE）– 允许在解析期间处理损坏记录的模式。
- PERMISSIVE ：当它遇到损坏的记录时，将格式错误的字符串放入由 columnNameOfCorruptRecord 配置的字段中，并将其他字段设置为 null。为了保留损坏的记录，用户可以在用户定义的模式中设置一个名为 columnNameOfCorruptRecord 的字符串类型字段。如果模式没有该字段，它会在解析期间丢弃损坏的记录。在推断架构时，它会在输出架构中隐式添加一个 columnNameOfCorruptRecord 字段。
- DROPMALFORMED ：忽略整个损坏的记录。
- FAILFAST ：遇到损坏的记录时抛出异常。

原文由 csjacobs24 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

spark.read.option() 中的可用选项

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译