Hadoop之HDFS(三)HDFS API操作示例和读写流程

1.HDFS API示例

1.1 Client API

1）准备工作
本人习惯使用Ubuntu，ide工具则是idea，如果是windows系统或者eclipse自行百度吧，我没有试过。

老套路，创建Maven工程，导入依赖

    <dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-slf4j-impl</artifactId>
            <version>2.12.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client-api</artifactId>
            <version>3.1.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client-runtime</artifactId>
            <version>3.1.3</version>
        </dependency>

在resources下添加日志配置文件“log4j2.xml”

<?xml version="1.0" encoding="UTF-8"?>
<Configuration status="error" strict="true" name="XMLConfig">
    <Appenders>
        <Appender type="Console" name="STDOUT">

            <Layout type="PatternLayout"
                    pattern="[%p] [%d{yyyy-MM-dd HH:mm:ss}][%c{10}]%m%n" />
        </Appender>

    </Appenders>

    <Loggers>
        <Logger name="test" level="info" additivity="false">
            <AppenderRef ref="STDOUT" />
        </Logger>

        <Root level="info">
            <AppenderRef ref="STDOUT" />
        </Root>
    </Loggers>
</Configuration>

2）在src/main/java下创建包cn.leaf。可以随意，之后创建类HdfsClient，客户端的使用大致如下

    public void hdClient() throws IOException, InterruptedException {
        // 获得一个客户端对象
        URI uri = URI.create("hdfs://hadoop10:9820");
        Configuration conf = new Configuration();
        String user = "v2admin";
        FileSystem fs = FileSystem.get(uri,conf,user);
        // TODO 执行操作
        
        // 关闭资源
        fs.close();
    }

1.2 上传文件示例代码

    public static void main(String[] args) throws IOException, InterruptedException {
        // 获得一个客户端对象
        URI uri = URI.create("hdfs://hadoop10:9820");
        Configuration conf = new Configuration();
        String user = "v2admin";
        FileSystem fs = FileSystem.get(uri,conf,user);
        // TODO 执行操作
        Path upsrc = new Path("/home/zhaow/桌面/Shell/passwd.txt");
        Path updst = new Path("/home");
        upFile(fs,upsrc,updst);
        
        // 关闭资源
        fs.close();
    }

    /**
     * 上传文件
     * @param fs Client对象
     * @param src 待上传文件
     * @param dst hdfs 路径
     */
    public static void upFile(FileSystem fs, Path src, Path dst){
        try {
            fs.copyFromLocalFile(src, dst);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

1.3 下载文件示例代码

    /**
     * 下载文件
     * @param fs 客户端对象
     * @param src 待下载的文件路径，也就是HDFS上的文件路径
     * @param dst 目标路径
     */

    public static void downFile(FileSystem fs, Path src, Path dst){
        try {
            fs.copyToLocalFile(false,src,dst);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

2 读写流程

2.1写文件流程

通过代码完成了文件上传，那么这中间HDFS是怎样完成文件的写入的呢？
流程如下图所示:

途中包含以下角色
Client、Distributed FileSystem、FSData InputStream、NameNode、DataNode，除了Distributed FileSystem、FSData InputStream两个角色外，其他已经在之前说过。

Distributed FileSystem，翻译过来就是分布式文件系统。
FSDataOutputStream就是一个输出流对象。

1）Client向HDFS写数据的时，文件是分块存储在HDFS的各个DataNode节点上，而存储位置的是NameNode规定的，所以Client 在上传文件时需要先和NameNode进行交互。

Client首先调用Distributed FileSystem的create方法，然后远程调用NameNodeNode的create()。
NameNode的检查是否已存在文件、检查权限。若通过检查，直接先将操作写入Edits文件Client，返回FSDataOutputStream。

2）Client 开始切分文件，请求上传，然后从NameNode获取上传到的DataNode节点信息，假定是d1，d2,d3三个节点。

3）client通过FSDataOutputStream对象调用write()写数据，具体流程如下：
请求dn1上传数据，d1收到请求会继续调用d2，然后d2调用d3，完成传输通道的建立。

4）client向d1上传第一个block（从磁盘读取数据先放到一个本地内存缓存），以Packet为单位，d1收到一个Packet就会传给d2，d2传给d3；d1每传一个packet会放入一个应答队列等待应答。
5）当完成整个文件的写入后，执行FSDataOutputStream的close()方法，同时告知NameNode我完成了文件写入操作。

2.2 读文件流程

同样client通过Distributed FileSystem向NameNode请求下载文件，NameNode查询元数据得到下载文件所在的DataNode节点信息。
存储该文件的节点有很多，会优先选择一个最近的节点，发起请求。
DataNode开始传输数据给客户端。
Client以Packet为单位接收，先在本地缓存，然后写入目标文件。

Hadoop之HDFS(三)HDFS API操作示例和读写流程

1.HDFS API示例

1.1 Client API

1.2 上传文件示例代码

1.3 下载文件示例代码

2 读写流程

2.1写文件流程

2.2 读文件流程

leafgood

引用和评论

Linux系统编程-(四)信号

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

Hadoop之HDFS(三)HDFS API操作示例和读写流程

1.HDFS API示例

1.1 Client API

1.2 上传文件示例代码

1.3 下载文件示例代码

2 读写流程

2.1写文件流程

2.2 读文件流程

leafgood

引用和评论

Linux系统编程-(四)信号

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商 基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈