序列化后的数据,怎么从Spark读出并转成DataSet或者DataFrame?

想用spark分析zipkin输出的数据,结果第一步就出现困难... =。=

在kafka中有Span类型的数据,格式是Bytes[],需要通过SpanBytesDecoder这么一个类转换成Span类型,我这么在Spark Structured Streaming处理,成DataSet<Span>或者DataFrame

val df = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", "node1:9092, node2:9092, node3:9092")
      .option("subscribe", "zipkin")
      .option("group.id", "my-group-id")
      .load()
阅读 2k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进