TangShangWen - SegmentFault 思否

[Hadoop] Hadoop集群一般需要关注的几个重要指标

2017-02-09

阅读 3 分钟

12.8k

原文来自hackershell,转载请注明出处通用监控指标对于每个RPC服务应该监控 RpcProcessingTimeAvgTime(PRC处理的平均时间) 通常hdfs在异常任务突发大量访问时，这个参数会突然变得很大，导致其他用户访问hdfs时，会感觉到卡顿，从而影响任务的执行时间 CallQueueLength(RPC Call队列的长度) 如果callqueue队列数值一直...

[HADOOP] Standby NN无法启动

HackerShell

2016-01-28

阅读 2 分钟

4.3k

博客原文:hackershell 前段时间，standby的NN挂掉了，并且怎么起也起不来，如下日志: {代码...} 刚开始怀疑是不是editlog的下载有问题，后来发现editlog是可以解析出来的，但是不排除editlog的顺序存在bug 我们采取的方案是：因为每次启动都需要加载editlog，所以为了跳过此操作，我们将Active进入安全模式，并进行save...

[HADOOP] 简单了解NameNode的ZKFC机制

HackerShell

2015-12-19

阅读 6 分钟

12.2k

之前在准备中级课程PPT，整理了下HA的基本内容，并且感谢松哥为我们提供了HA不会切的问题，以至于之后刚好出现的NameNode宕机，能够快速解决。

博客原文： hackershell 这篇文章算是给自己重新缕清MR下内存参数的含义 Container是什么？ Container就是一个yarn的java进程，在Mapreduce中的AM，MapTask，ReduceTask都作为Container在Yarn的框架上执行，你可以在RM的网页上看到Container的状态基础 Yarn的ResourceManger（简称RM）通过逻辑上的队列分配内存，CPU等...

[Linux] 使用noatime属性优化文件系统读取性能

HackerShell

2015-08-31

阅读 3 分钟

6.3k

当文件被创建，修改和访问时，Linux系统会记录这些时间信息，当访问足够频繁将会是很大的开销，因为每次访问都会记录时间，所以我们今天使用bonnie++来简单测试我们修改noatime给我们带来的性能提升有多少，我们先下载最新版本的bonnie++

NodeManager OOM挂掉问题解决

HackerShell

2015-08-25

阅读 2 分钟

5.1k

在google搜索关键字hadoop UNIXProcess drainInputStream，找到关于JDK7的一些bug，在NM负载高的情况下，出现OOM问题。详情请看HADOOP-10146

[YARN] MRAppMaster心跳原理

HackerShell

2015-08-02

阅读 5 分钟

6.1k

最近集群遇到一个问题,就是集群在跑任务的时候，AM会超时10min而被KILL，但任务重跑则成功，问题是随机的出现的，所以初步怀疑是因为AM心跳汇报出现问题或则RM因为繁忙hang住，AM因为某些机制导致等待10min不汇报心跳，所以我们还是先了解，AM是如何向RM汇报心跳的。

[Linux] ubuntu安装zsh

HackerShell

2015-07-26

阅读 1 分钟

3.9k

博客原文：hackershell 据说zsh还不错，还在体验中在ubuntu下需要安装： {代码...} 然后进行下载： {代码...} 稍等片刻你就可以替换你的默认bash为zsh： {代码...} 重启就可以看到终端截面：提示还不错，正在摸索中...

[HADOOP问题] 常见问题解决

HackerShell

2015-07-18

阅读 1 分钟

3.9k

问题1：在程序的日志中看到，在reduce阶段出现了异常：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out ，程序里需要打开文件，系统默认为1024，也可以通过ulimit -a查看

YARN的AsyncDispatcher原理

HackerShell

2015-07-06

阅读 3 分钟

4.6k

YARN采用了基于事件驱动的并发模型,该模型能极大的提高应用程序并发性,在RM中,几乎所有的事件都通过AsyncDispatcher进行事件的派发.

Python简单HttpServer

HackerShell

2015-06-01

阅读 1 分钟

2.9k

在工作中经常会遇到需要下载服务器的一些小文件，虽然scrt的sz可以满足的基本的功能，但在某些情况下，你可以选择在网页上下载和浏览文件系统上的一些文件，这时你就可以快捷使用：

[原]如何利用hadoop RPC框架实现和NameNode的交互

HackerShell

2015-03-15

阅读 4 分钟

6.4k

博客原文：hackershell 这篇文章主要介绍如何在已有的Hadoop RPC框架上，自定义新的方法实现和NameNode的交互。在此之前，我们需要准备： hadoop的源码 protobuf 2.5版本 JDK hadoop 2.x版本中采用了Protocol Buffer (简称protobuf)作为序列化和反序列化的工具，所以我们在修改源码时需要按照相应规则编写message来实现...