Git

2020-05-01
阅读 3 分钟
1.6k
在命令行里设置git的配置信息(用户名和邮箱),之后的提交都会用这两个信息可通过git config --list 来查看git 环境参数配置

Spark—>调优篇

2020-05-01
阅读 4 分钟
5.4k
写这篇博客是因为,在写spark任务中,离不开调优的工作,因此将常用的操作记录下来,方便以后的调优工作;同时如果之后发现了其他的调优手段,也会将其记录进来ps:(1) 将八斗的spark调优手段也补充进来(2) 抽时间将这些调优操作都亲自执行一遍,并记录感想

HDFS—>运维篇

2020-05-01
阅读 6 分钟
3k
操作系统配置:① 主机名、网络、防火墙、ssh配置ssh-keygen -t rsa同时可以把集群中任意一台节点的ssh的auth*-keys文件分发到最新的这个节点

HDFS—>Namenode缓存篇

2020-05-01
阅读 3 分钟
3.4k
一、基本概念 2.3添加了集中式缓存管理,由Datanode堆外内存组成,Namenode统一管理 阻止频繁使用的数据从内存中删除 由于是Namenode统一管理,因此在读可以根据情况调度,提高读性能 客户端可以通过零拷贝技术直接读取缓存数据 提高集群内存利用率,读某个文件的时候会将这个文件对应的副本N都加载到操作系统的buffer中...

JVM—>类加载篇

2020-05-01
阅读 3 分钟
1.8k
why 为什么要进行类加载? 编译后的Class文件并不能直接被JVM使用 Class文件是对类描述的一段二进制字节流 JVM是一个进程,只能对内存中的数据进行操作 要将Class文件加载到JVM中,然后根据描述在不同的内存空间给它分配内存 类加载步骤 加载 连接 验证 准备 解析 初始化 使用 卸载 一、加载 作用将二进制字节流存储在方...

flume

2020-05-01
阅读 9 分钟
4k
一、What 数据采集是完整大数据系统不可或缺的步骤 日志文件:flume/logstash 业务数据:sqoop 外部数据:爬虫抓取 基本介绍 flume是一个分布式、高可靠的海量数据(1T/天)采集系统 运行机制每个flume实例都有一个agent,agent相当于一个消息传递员agent内部又分为: source:跟数据源对接 channel:传输通道,连接sour...

zookeeper

2020-05-01
阅读 6 分钟
2k
一、What 一个主从架构的分布式框架 给分布式框架提供协调服务(service) 作用 提供简版文件系统来存储数据 维护和监控存储的数据状态变化,通过监控数据状态变化达到基于数据的集群管理 主要用来解决分布式集群中应用系统的一致性问题 应用场景 {代码...} 二、基本概念 ZooKeeper=简版文件系统(Znode)+原语+通知机制(W...

HBase—>基本概念篇

2020-05-01
阅读 3 分钟
1.5k
Client—①—>Zookeeper—②—>HRegionServer1 —③—>HRegionServer2—④—>MemStore—⑤—>BlockCache—⑥—>StoreFile—⑦—>key-value

二叉树基本操作

2020-05-01
阅读 6 分钟
1.7k
二叉树,顾名思义,每个节点最多仅有两个子节点,被广泛应用于搜索的场景 时间复杂度一般为 O(depth) 也就是树的高度 空间复杂度一般为 O(node.number)也就是树的节点数

KMP算法

2020-05-01
阅读 3 分钟
1.9k
之所以写这篇博客,是因为字符串处理比较常见,字符串处理里面的字符串匹配问题也非常常见KMP算法的性能在字符串匹配上是最优的因此在字符串匹配的问题上,可尽量将问题转化为判断一个字符串是否是另一个字符串的子串,再采用KMP算法进行求解

YARN—>ResourceManager篇

2020-05-01
阅读 4 分钟
3.7k
功能 集群资源统一管理和调度 NodeManager(管理):接受资源汇报信息 ApplicationMaster(管理):分配资源 客户端(响应):处理请求 通信 (三个角色通信)1. 与NodeManager通信(ResourceTracker ) 注册、心跳(汇报节点健康状况)、Container运行状态 领取执行指令(启动/清理/删除Container) 2. 与ApplicationMaster通信...

Kafka—>生产者篇

2020-05-01
阅读 3 分钟
3k
流程讲解 在我们通过代码send消息之后,这条消息就会发往拦截器Interceptor Interceptor会对数据做处理 加解密/脱敏 过滤不满足条件的数据(ip白名单、错误编码、脏数据或者残缺数据) 统计消息投递成功率或结合第三方工具计算消息在Kafka存储的时间 在消息的header里放一个唯一标识,方便下游做去重 针对旧版本,新版本Ka...