(4)SparkSQL中如何定义UDF和使用UDF
Spark SQL中用户自定义函数,用法和Spark SQL中的内置函数类似;是saprk SQL中内置函数无法满足要求,用户根据业务需求自定义的函数。
首先定义一个UDF函数:
package com.udf;
import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.api.java.UDF2;
import org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema;
import scala.collection.mutable.WrappedArray;
/**
* Created by lj on 2022-07-25.
*/
public class TestUDF implements UDF1<String, String> {
@Override
public String call(String s) throws Exception {
return s+"_udf";
}
}
使用UDF函数:
package com.examples;
import com.pojo.WaterSensor;
import com.udf.TestUDF;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction2;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.Time;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
/**
* Created by lj on 2022-07-25.
*/
public class SparkSql_Socket_UDF {
private static String appName = "spark.streaming.demo";
private static String master = "local[*]";
private static String host = "localhost";
private static int port = 9999;
public static void main(String[] args) {
//初始化sparkConf
SparkConf sparkConf = new SparkConf().setMaster(master).setAppName(appName);
//获得JavaStreamingContext
JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, Durations.minutes(3));
/**
* 设置日志的级别: 避免日志重复
*/
ssc.sparkContext().setLogLevel("ERROR");
//从socket源获取数据
JavaReceiverInputDStream<String> lines = ssc.socketTextStream(host, port);
JavaDStream<WaterSensor> mapDStream = lines.map(new Function<String, WaterSensor>() {
private static final long serialVersionUID = 1L;
public WaterSensor call(String s) throws Exception {
String[] cols = s.split(",");
WaterSensor waterSensor = new WaterSensor(cols[0], Long.parseLong(cols[1]), Integer.parseInt(cols[2]));
return waterSensor;
}
}).window(Durations.minutes(6), Durations.minutes(9)); //指定窗口大小 和 滑动频率 必须是批处理时间的整数倍
mapDStream.foreachRDD(new VoidFunction2<JavaRDD<WaterSensor>, Time>() {
@Override
public void call(JavaRDD<WaterSensor> waterSensorJavaRDD, Time time) throws Exception {
SparkSession spark = JavaSparkSessionSingleton.getInstance(waterSensorJavaRDD.context().getConf());
spark.udf().register("TestUDF", new TestUDF(), DataTypes.StringType);
Dataset<Row> dataFrame = spark.createDataFrame(waterSensorJavaRDD, WaterSensor.class);
// 创建临时表
dataFrame.createOrReplaceTempView("log");
Dataset<Row> result = spark.sql("select *,TestUDF(id) as udftest from log");
System.out.println("========= " + time + "=========");
//输出前20条数据
result.show();
}
});
//开始作业
ssc.start();
try {
ssc.awaitTermination();
} catch (Exception e) {
e.printStackTrace();
} finally {
ssc.close();
}
}
}
代码说明:
应用效果展示:
推荐阅读
在Windows上的安装 Spark
要在windows上安装Apache Spark,你需要Java 8或最新的版本,因此从 Oracle 下载Java版本并安装在你的系统上。如果你想要OpenJDK,你可以从这里 下载.它。
编程大V阅读 725
正式毕业!Apache Kyuubi 成为 Apache 基金会顶级项目!
项目最初由网易数帆开发并于2018年开源,2021年6月捐赠 Apache基金会,经过1年多的孵化于2022年11月通过投票,在12月顺利毕业,成为 Apache 基金会顶级开源项目!
网易数帆阅读 590
多点DMALL × Apache Kyuubi:构建统一SQL Proxy探索实践
伴随着国家产业升级的推进和云原生技术成熟,多点 DMALL 大数据技术也经历了从存算一体到存算分离的架构调整变迁。本文将从引入 Kyuubi 实现统一 SQL Proxy 的角度讲述这一探索实践的历程。
网易数帆阅读 525
线上 hive on spark 作业执行超时问题排查案例分享
某业务系统中,HIVE SQL 以 hive on spark 模式运行在 yarn上指定的资源队列下,在业务高峰期发现部分 SQL 会报错,但重试有时又能够成功。作业具体报错信息,和示例截图如下:
Michael_Li阅读 380
大数据开发!Pandas转spark无痛指南!⛵
Pandas灵活强大,是数据分析必备工具库!但处理大型数据集时,需过渡到PySpark才可以发挥并行计算的优势。本文总结了Pandas与PySpark的核心功能代码段,掌握即可丝滑切换。
ShowMeAI阅读 321
hive on spark
hive on spark就是使用hive记录元数据,以及解析sql。使用spark的rdd真正执行计算任务。hdfs负责存储spark负责执行hive负责数据管理
馒头阅读 293
Spark 在 KaiwuDB 中的应用与实践
当数据库面对大量数据复杂 OLAP 查询时,性能出现局限性,无法满足用户 AP 方面的高性能要求。为此,KaiwuDB 推出了此项解决方案:借助 Spark 平台,融合了 KaiwuDB 分布式集群及列存存储的性能优势,定制了 Spar...
KaiwuDB阅读 278
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。