spark运行python代码

阅读 1 分钟

0

spark运行python代码一般使用命令
spark-submit test.py这样的形式来运行
如果代码中设置了参数的话，还需要在命令行中传入参数

其中spark默认使用的hdfs中的文档运行
如果要运行本地文件的话，可以加上file://

例如：

 spark-submit wordcount.py file:///home/tst

这样的形式

再简单记录一下spark的textfile函数，该函数返回的是一个RDD
使用spark处理数据的时候首先都要有一个RDD，然后使用这个自带的一些方法
来处理，方法如下：

转换：
    map
    filter
    flatmap
    sample
    groupByKey
    reduceByKey
    union
    join
    cogroup
    crossProduct
    mapValues
    sort
    partitionBy
操作：
    count
    collect
    reduce
    lookup
    save
在转换方法中的函数执行完后生成的还是一个RDD结构
而操作函数返回的就不是RDD了

阅读 7.4k更新于 2016-01-04

dmlllll

47 声望6 粉丝

« 上一篇

spark自带的python例子的分析

下一篇 »

spark自带的kmeans例子分析

引用和评论

推荐阅读

didi云 gpu服务器使用记录

dmlllll阅读 1.2k

【活动回顾】StarRocks Singapore Meetup #2 @Shopee

StarRocks阅读 534

PySpark一：Windows10环境搭建

愚公爬山阅读 530

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

阿里云大数据AI阅读 486

【赵渝强老师】Spark的容错机制：检查点

赵渝强老师阅读 480

最佳实践 | 在 EMR Serverless Spark 中实现 StarRocks 读写操作

阿里云大数据AI阅读 415

最佳实践 | 在 EMR Serverless Spark 中实现 Doris 读写操作

阿里云大数据AI阅读 413

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。