大数据系列（5）——hdfs的学习

1. hdfs(分布式文件系统)

1.1 分布式文件系统

数据集的大小超过一台独立的计算机的存储能力时,就要通过网络中的多个机器来存储数据集,把管理网络中多台计算机组成的文件系统,称为分布式文件系统

1.2 hdfs的特点

分布式
- 数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统 ,

高可用
- 副本机制

通透性
- 实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般

1.3 hdfs的体系架构

namenode
- 名称节点
- 文件系统的管理节点
- 维护着整个文件系统的文件目录树
- 接收用户的请求
datanode
- 数据节点
- 存储block(一个block在hadoop1.x的版本中64mb,在hadoop2.x的版本中是128mb)

1.4 hdfs的设计

流式数据的访问
- 一次写入多次读取
商用硬件
- hadoop不需要运行在昂贵的商业机器上(ibm的小型机等),只需要普通的机器即可
低时间延时的数据访问
- 要求几十毫秒获取响应结果的应用数据不能使用hdfs来存储
- 虽然hdfs不能解决低延迟的访问,但是基于hdfs的hbase能解决延迟问题
大量的小文件
- 每个文件在namenode中,存储文件目录信息,block信息,约占150byte
- hdfs不适合存储小文件
多用户写入,任意修改文件
- 存储在hdfs中的文件只能有一个写入者(writer)
- 只能在文件末尾追加数据,不能在任意位置修改文件

1.4 block的大小规划

block: 数据块
- 大数据集存储的基本单位
- block在hadoop1.x的版本中64mb,在hadoop2.x的版本中是128mb
- 为什么会有以上的设计
  - 硬盘有个寻址时间(10ms)
  - 寻址时间占传输时间的1%
  - 硬盘的读取速率一般为100mb/s

1.5 secondary namenode

合并edits与fsimage
合并的时机
- 3600s
- 64mb

2. hdfs的操作

2.1 图形化操作

2.2 shell操作

2.3 API操作

3. hdfs的操作(图形界面)

3.1 hdfs的启动流程

进入安全模式
加载fsimage
加载edits
保存检查点(融合fsimage和edits文件,生成新的fsimage)
退出安全模式

3.2 通过浏览器访问

http://namenode:50070

4. hdfs的操作(shell操作)

hdfs dfs
hadoop fs

5. hdfs的操作(API操作)

5.1 依赖POM

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>2.6.4</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>2.6.4</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-hdfs</artifactId>
    <version>2.6.4</version>
</dependency>

5.2 hdfs读写文件

import org.apache.commons.compress.utils.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.Test;
public class HdfsTest {
    /**
     * 写文件操作
     */
    @Test
    public void testWriteFile() throws Exception {
        //创建配置对象
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://uplooking01:8020");
        //创建文件系统对象
        FileSystem fs = FileSystem.get(conf);
        Path path = new Path("/test002.txt");
        FSDataOutputStream fsDataOutputStream = fs.create(path, true);
        fsDataOutputStream.write("hello".getBytes());
        fsDataOutputStream.flush();
        fsDataOutputStream.close();
    }

    /**
     * 读文件操作
     */
    @Test
    public void testReadFile() throws Exception {
        //创建配置对象
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://uplooking01:8020");
        //创建文件系统对象
        FileSystem fs = FileSystem.get(conf);
        Path path = new Path("/test002.txt");
        FSDataInputStream fsDataInputStream = fs.open(path);
        IOUtils.copy(fsDataInputStream, System.out);
    }


    /**
     * 上传文件操作
     */
    @Test
    public void testuploadFile() throws Exception {
        //创建配置对象
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://uplooking01:8020");
        //创建文件系统对象
        FileSystem fs = FileSystem.get(conf);
        Path fromPath = new Path("file:///f:/test01.txt");
        Path toPath = new Path("/test01.txt");
        fs.copyFromLocalFile(false, fromPath, toPath);
    }

    /**
     * 下载文件操作
     */
    @Test
    public void testdownloadFile() throws Exception {
        //创建配置对象
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://uplooking01:8020");
        //创建文件系统对象
        FileSystem fs = FileSystem.get(conf);
        Path fromPath = new Path("/test01.txt");
        Path toPath = new Path("file:///f:/test01.txt");
        fs.copyToLocalFile(false, fromPath, toPath);
    }


    /**
     * 下载文件操作
     */
    @Test
    public void testOtherFile() throws Exception {
        //创建配置对象
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://uplooking01:8020");
        //创建文件系统对象
        FileSystem fs = FileSystem.get(conf);
//        BlockLocation[] blockLocations = fs.getFileBlockLocations(new Path("/test01.txt"), 0, 134217730);
//        System.out.println(blockLocations);
        FileStatus[] listStatus = fs.listStatus(new Path("/test01.txt"));
        System.out.println(listStatus);
    }
}

3. hdfs的高级操作

回滚edits: hdfs dfsadmin -rollEdits

进入安全模式: hdfs dfsadmin -safemode | enter | leave| get| wait

融合edits和fsimage: hdfs dfsadmin -saveNamespace:

查看fsimage: hdfs oiv -i -o -p

查看edits: hdfs oev -i -o -p

4. hdfs中的配额管理

目录配额
- 设置目录配额
  - hdfs dfsadmin -setQuota n dir
  - n:指的是目录配额的个数,如果个数为1,则不能存放任何文件,如果为2则只能放一个文件,以此类推.
- 清除目录配额
  - hdfs dfsadmin -clrQuota dir

空间配额
- 设置空间配额
  - hdfs dfsadmin -setSpaceQuota n dir
    - n:指空间的大小
- 清除空间配额
  - hdfs dfsadmin -clrSpaceQuota dir

5. 获取配置

hdfs getconf -confKey keyname

6. hadoop中的RPC

RPC(Remote Procedure Call)——远程过程调用协议
它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议
设计目的:
- 调用远程的方法和调用本地方法一样方便

6.1 编写RPC服务端

定义协议

/**
 * 定义协议
 */
public interface IHelloService extends VersionedProtocol {
    public long versionID = 123456798L;//定义协议的版本
    public String sayHello(String name);//协议的具体条目
}

定义RPC的服务器实例类

/**
 * 实例类,实现了协议的类
 */
public class HelloServiceImpl implements IHelloService {
    @Override
    public String sayHello(String name) {
        System.out.println("==================" + name + "==================");
        return "hello" + name;
    }

    @Override
    public long getProtocolVersion(String protocol, long clientVersion) throws IOException {
        return versionID;
    }

    @Override
    public ProtocolSignature getProtocolSignature(String protocol, long clientVersion, int clientMethodsHash) throws IOException {
        return new ProtocolSignature();
    }
}

定义RPC程序的启动程序

public class MyRpcServer {
    public static void main(String[] args) throws IOException {
        Configuration conf = new Configuration();
        RPC.Server server = new RPC.Builder(conf)
            .setBindAddress("172.16.4.3")//配置主机
            .setPort(8899)//配置端口
            .setProtocol(IHelloService.class)//配置协议
            .setInstance(new HelloServiceImpl())//配置实例,可以配置多个
            .build();
        server.start();
        System.out.println("RPC服务器启动成功....");
    }
}

6.2 编写RPC客户端

定义协议

/**
 * 定义协议
 */
public interface IHelloService extends VersionedProtocol {
    public long versionID = 123456798L;//定义协议的版本
    public String sayHello(String name);//协议的具体条目
}

定义客户端启动程序

Configuration conf = new Configuration();
ProtocolProxy<IHelloService> proxy = RPC.getProtocolProxy(IHelloService.class, IHelloService.versionID, new InetSocketAddress("172.16.4.3", 8899), conf);
IHelloService helloService = proxy.getProxy();
String ret = helloService.sayHello("xiaoming");
System.out.println(ret);

7. 独立启动namenode datanode

hadoop-daemon.sh start namenode

hadoop-daemon.sh start datanode

hadoop-daemon.sh start secondarynamenode

yarn-daemon.sh start resourcemanager

yarn-daemon.sh start nodemanager

8. 节点的服役和退役

动态的添加节点,不需要停止整个集群
hdfs中维护着一个白名单和一个黑名单

8.1 节点服役

==在namenode中操作==

hdfs-site.xm

<!-- 白名单-->
<property>
    <name>dfs.hosts</name>
    <value>/opt/hadoop/etc/hadoop/dfs.include</value>
</property>

创建白名单文件

/opt/hadoop/etc/hadoop/dfs.include

uplooking03

uplooking04

uplooking05

uplooking06

刷新节点:

hdfs dfsadmin -refreshNodes

8.1 节点退役

从白名单移除
添加到黑名单
刷新节点
从黑名单移除
停止datanode进程

大数据系列（5）——hdfs的学习

1. hdfs(分布式文件系统)

1.1 分布式文件系统

1.2 hdfs的特点

1.3 hdfs的体系架构

1.4 hdfs的设计

1.4 block的大小规划

1.5 secondary namenode

2. hdfs的操作

2.1 图形化操作

2.2 shell操作

2.3 API操作

3. hdfs的操作(图形界面)

3.1 hdfs的启动流程

3.2 通过浏览器访问

4. hdfs的操作(shell操作)

5. hdfs的操作(API操作)

5.1 依赖POM

5.2 hdfs读写文件

3. hdfs的高级操作

4. hdfs中的配额管理

5. 获取配置

6. hadoop中的RPC

6.1 编写RPC服务端

6.2 编写RPC客户端

7. 独立启动namenode datanode

8. 节点的服役和退役

8.1 节点服役

8.1 节点退役

EVAO_大个子

引用和评论

Java核心技术卷1 基础知识学习笔记——第四章对象与类

rocky linux 使用记录

快捷键打开某个窗口(如网页chatGPT)

但是，I/O多路复用中是如何判断文件“可读”/“可写”的？

麒麟系统中theia终端崩溃问题排查小记

【笔记】CentOS 7 中配置 YUM

为什么你学不会 Emacs？

大数据系列（5）——hdfs的学习

1. hdfs(分布式文件系统)

1.1 分布式文件系统

1.2 hdfs的特点

1.3 hdfs的体系架构

1.4 hdfs的设计

1.4 block的大小规划

1.5 secondary namenode

2. hdfs的操作

2.1 图形化操作

2.2 shell操作

2.3 API操作

3. hdfs的操作(图形界面)

3.1 hdfs的启动流程

3.2 通过浏览器访问

4. hdfs的操作(shell操作)

5. hdfs的操作(API操作)

5.1 依赖POM

5.2 hdfs读写文件

3. hdfs的高级操作

4. hdfs中的配额管理

5. 获取配置

6. hadoop中的RPC

6.1 编写RPC服务端

6.2 编写RPC客户端

7. 独立启动namenode datanode

8. 节点的服役和退役

8.1 节点服役

8.1 节点退役

EVAO_大个子

引用和评论

Java核心技术 卷1 基础知识 学习笔记——第四章 对象与类

rocky linux 使用记录

快捷键打开某个窗口(如网页chatGPT)

但是，I/O多路复用中是如何判断文件“可读”/“可写”的？

麒麟系统中theia终端崩溃问题排查小记

【笔记】CentOS 7 中配置 YUM

为什么你学不会 Emacs？

Java核心技术卷1 基础知识学习笔记——第四章对象与类