Spark Streaming遇到问题分析

2017-07-17
阅读 12 分钟
12.3k
先看看Spark Streaming 的 JobSet, Job,与 Spark Core 的 Job, Stage, TaskSet, Task 这几个概念。

Spark Streaming学习笔记之HDFS

2017-07-06
阅读 7 分钟
8.2k
Hadoop分布式文件系统(hadoopdistributed filesystem,HDFS)。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS可以实现流的形式访问(streaming access)文件系统中的数据。 它是基于流数据模式的访问和处理超大文件。(分布式最大的好处就是其...

Spark SQL学习笔记

2017-07-04
阅读 24 分钟
14k
Spark SQL是Spark中处理结构化数据的模块。与基础的Spark RDD API不同,Spark SQL的接口提供了更多关于数据的结构信息和计算任务的运行时信息。Spark SQL如今有了三种不同的API:SQL语句、DataFrame API和最新的Dataset API。Spark SQL的一种用法是直接执行SQL查询语句,你可使用最基本的SQL语法,也可以选择HiveQL语法...

Spark Streaming学习笔记

2017-06-30
阅读 17 分钟
10.9k
Spark Streaming支持从多种数据源提取数据,如:Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCP套接字,并且可以提供一些高级API来表达复杂的处理算法,如:map、reduce、join和window等。

Spark学习笔记之相关记录

2017-06-29
阅读 1 分钟
2.1k
编程指南:[链接] ApiDoc: [链接] 0、例子 [链接] 1、集群模式与如何部署? 集群模式:[链接] 提交部署应用:[链接] 1.1、如何监控?[链接] 2、RDD算子: Actions:[链接] Transformers:[链接] 3、如何配置,有哪些配置选项? 配置大全:[链接]提示:默认master端口7077,spark-ui端口:4040 4、调优 [链接]

Spark入门阶段一之扫盲笔记

2017-06-28
阅读 28 分钟
12.1k
spark是分布式并行数据处理框架 与mapreduce的区别: mapreduce通常将中间结果放在hdfs上,spark是基于内存并行大数据框架,中间结果放在内存,对于迭代数据spark效率更高,mapreduce总是消耗大量时间排序,而有些场景不需要排序,spark可以避免不必要的排序所带来的开销,spark是一张有向无环图,spark支持scala,pytho...