大数据之路 - SegmentFault 思否

一、基本概念 2.3添加了集中式缓存管理，由Datanode堆外内存组成，Namenode统一管理阻止频繁使用的数据从内存中删除由于是Namenode统一管理，因此在读可以根据情况调度，提高读性能客户端可以通过零拷贝技术直接读取缓存数据提高集群内存利用率，读某个文件的时候会将这个文件对应的副本N都加载到操作系统的buffer中...

JVM—>类加载篇

墨小雨的猫

2020-05-01

阅读 3 分钟

1.8k

why 为什么要进行类加载？编译后的Class文件并不能直接被JVM使用 Class文件是对类描述的一段二进制字节流 JVM是一个进程，只能对内存中的数据进行操作要将Class文件加载到JVM中，然后根据描述在不同的内存空间给它分配内存类加载步骤加载连接验证准备解析初始化使用卸载一、加载作用将二进制字节流存储在方...

flume

墨小雨的猫

2020-05-01

阅读 9 分钟

一、What 数据采集是完整大数据系统不可或缺的步骤日志文件：flume/logstash 业务数据：sqoop 外部数据：爬虫抓取基本介绍 flume是一个分布式、高可靠的海量数据（1T/天）采集系统运行机制每个flume实例都有一个agent，agent相当于一个消息传递员agent内部又分为： source：跟数据源对接 channel：传输通道，连接sour...

zookeeper

墨小雨的猫

2020-05-01

阅读 6 分钟

一、What 一个主从架构的分布式框架给分布式框架提供协调服务（service）作用提供简版文件系统来存储数据维护和监控存储的数据状态变化，通过监控数据状态变化达到基于数据的集群管理主要用来解决分布式集群中应用系统的一致性问题应用场景 {代码...} 二、基本概念 ZooKeeper=简版文件系统(Znode)+原语+通知机制(W...

HBase—>基本概念篇

墨小雨的猫

2020-05-01

阅读 3 分钟

1.5k

Client—①—>Zookeeper—②—>HRegionServer1 —③—>HRegionServer2—④—>MemStore—⑤—>BlockCache—⑥—>StoreFile—⑦—>key-value

二叉树基本操作

墨小雨的猫

2020-05-01

阅读 6 分钟

1.7k

二叉树，顾名思义，每个节点最多仅有两个子节点，被广泛应用于搜索的场景时间复杂度一般为 O（depth）也就是树的高度空间复杂度一般为 O（node.number）也就是树的节点数

KMP算法

墨小雨的猫

2020-05-01

阅读 3 分钟

1.9k

之所以写这篇博客，是因为字符串处理比较常见，字符串处理里面的字符串匹配问题也非常常见KMP算法的性能在字符串匹配上是最优的因此在字符串匹配的问题上，可尽量将问题转化为判断一个字符串是否是另一个字符串的子串，再采用KMP算法进行求解

功能集群资源统一管理和调度 NodeManager(管理)：接受资源汇报信息 ApplicationMaster(管理)：分配资源客户端(响应)：处理请求通信（三个角色通信）1. 与NodeManager通信（ResourceTracker ）注册、心跳(汇报节点健康状况)、Container运行状态领取执行指令（启动/清理/删除Container） 2. 与ApplicationMaster通信...

Kafka—>生产者篇

墨小雨的猫

2020-05-01

阅读 3 分钟

流程讲解在我们通过代码send消息之后，这条消息就会发往拦截器Interceptor Interceptor会对数据做处理加解密/脱敏过滤不满足条件的数据(ip白名单、错误编码、脏数据或者残缺数据) 统计消息投递成功率或结合第三方工具计算消息在Kafka存储的时间在消息的header里放一个唯一标识，方便下游做去重针对旧版本，新版本Ka...