使用 Spark Streaming(使用 Scala)进行的 Twitter 实时流传输

主要观点:本文旨在展示如何将 Spark streaming 与 Twitter 结合使用,仅为演示性文章,未涉及 Spark streaming 技术相关内容。
关键信息

  • 需先创建 Twitter 应用以获取 4 个关键值(Consumer Key、Consumer Secret、Access Token、Access Token Secret),还可添加可选的 Filter Key 过滤特定主题。
  • 在 Eclipse SDK 的 Scala IDE 构建中,要在 pom.xml 文件添加依赖org.apache.spark:spark-streaming-twitter_2.10:1.0.0,并添加twitter4j-core-3.0.6.jar文件。
  • 给出了 Scala 代码示例,包括创建 Spark 配置、StreamingContext,设置 Twitter 认证信息,创建 Twitter 流并将其保存为文本文件。
  • 说明了如何通过命令行参数运行代码。
    重要细节
  • 在 Scala 代码中,通过args获取命令行参数,包括 4 个必需的 Twitter 认证参数和可选的过滤参数。
  • 在创建 Twitter 流时,使用TwitterUtils.createStream方法,并传入 StreamingContext、认证信息和过滤参数。
  • 最后通过savesAsTextFiles方法将 Twitter 流保存为文本文件。
阅读 6
0 条评论