白程序员的自习室 - SegmentFault 思否

Hbase知识点（一）初识与扩展

2019-09-11

阅读 3 分钟

1.7k

Google 发表的三驾马车（既谷歌文件系统 GFS、MapReduce 和 BigTable）论文，被誉为计算机科学进入大数据时代的标志。因早期 Hadoop 开发者，只实现了 Hadoop 文件系统和 Hadoop MapReduce，并未实现 BigTable，故而 BigTable 在Hadoop 大数据生态里面，相当一段时间里，一直是缺席的。直到 PowerSet 公司推出 Hbase 项...

Spark系列文章（六）:Spark的共享变量

super白

2019-09-11

阅读 2 分钟

4.9k

Spark 中所有 transformation 算子是通过分发到多个节点上的并行任务实现运行并行化的。当将一个自定义函数传递给 Spark 算子时（比如map或reduce）,该函数所包含的变量会通过副本方式传播到远程节点上。但所有针对这些变量的写操作只会更新到本地，不会传递回驱动程序以及分布式更新，通常跨任务的读写变量是低效的。故...

Spark系列文章（四）:Spark之RDD

super白

2019-09-11

阅读 7 分钟

2.1k

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。

Spark系列文章（三）:搭建Spark开发环境IDEA

super白

2019-09-11

阅读 2 分钟

2.4k

Spark系列文章（三）:搭建Spark开发环境IDEA 作者：studytime原文：[链接] 一、创建maven工程二、设置groupId和artifactId 三、设置工程目录四、构建完成五、上传项目至github {代码...} 出现以下问题: 主要原因是github中的README.md文件不在本地代码目录中通过以下方法解决: {代码...} 六、GitHub项目

Spark系列文章（二）:Spark伪分布式安装

super白

2019-09-11

阅读 3 分钟

2.3k

Spark系列文章（二）:Spark伪分布式安装作者：studytime原文：[链接] 下载 Spark 安装包官网下载 http://spark.apache.org/downloads.html 安装前准备 Java8 已安装 hadoop2.7.5 已安装修改 Hadoop 配置文件修改 Hadoop yarn-site.xml配置 {代码...} 重启yarn服务 {代码...} 启动 MapReduce History Server {代码......

Spark系列文章（一）:Spark初识

super白

2019-09-11

阅读 3 分钟

3.1k

spark 是高性能 DAG 计算引擎，一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP 实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的 MapReduce 计算模型。高效的支撑更多计算模式，包括交互式查询和流处理。spark 的一个主要特点是能够在内存中进行计算，...