Hbase知识点(一)初识与扩展

2019-09-11
阅读 3 分钟
1.7k
Google 发表的三驾马车(既谷歌文件系统 GFS、MapReduce 和 BigTable)论文,被誉为计算机科学进入大数据时代的标志。因早期 Hadoop 开发者,只实现了 Hadoop 文件系统和 Hadoop MapReduce,并未实现 BigTable,故而 BigTable 在Hadoop 大数据生态里面,相当一段时间里,一直是缺席的。直到 PowerSet 公司推出 Hbase 项...

Spark系列文章(六):Spark的共享变量

2019-09-11
阅读 2 分钟
4.9k
Spark 中所有 transformation 算子是通过分发到多个节点上的并行任务实现运行并行化的。当将一个自定义函数传递给 Spark 算子时(比如map或reduce),该函数所包含的变量会通过副本方式传播到远程节点上。但所有针对这些变量的写操作只会更新到本地,不会传递回驱动程序以及分布式更新,通常跨任务的读写变量是低效的。故...

Spark系列文章(四):Spark之RDD

2019-09-11
阅读 7 分钟
2.1k
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。

Spark系列文章(三):搭建Spark开发环境IDEA

2019-09-11
阅读 2 分钟
2.4k
Spark系列文章(三):搭建Spark开发环境IDEA 作者:studytime原文:[链接] 一、创建maven工程 二、设置groupId和artifactId 三、设置工程目录 四、构建完成 五、上传项目至github {代码...} 出现以下问题: 主要原因是github中的README.md文件不在本地代码目录中 通过以下方法解决: {代码...} 六、GitHub项目

Spark系列文章(二):Spark伪分布式安装

2019-09-11
阅读 3 分钟
2.3k
Spark系列文章(二):Spark伪分布式安装 作者:studytime原文:[链接] 下载 Spark 安装包 官网下载 http://spark.apache.org/downloads.html 安装前准备 Java8 已安装 hadoop2.7.5 已安装 修改 Hadoop 配置文件 修改 Hadoop yarn-site.xml配置 {代码...} 重启yarn服务 {代码...} 启动 MapReduce History Server {代码......

Spark系列文章(一):Spark初识

2019-09-11
阅读 3 分钟
3.1k
spark 是高性能 DAG 计算引擎,一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP 实验室开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的 MapReduce 计算模型。高效的支撑更多计算模式,包括交互式查询和流处理。spark 的一个主要特点是能够在内存中进行计算,...