SF
赵渝强老师技术分享圈
赵渝强老师技术分享圈
注册登录
关注博客
注册登录
主页
关于
RSS
【赵渝强老师】HBase的物理存储结构
赵渝强老师
5 月 30 日
阅读 5 分钟
344
HBase的存储结构分为逻辑存储结构与物理存储结构,并且HBase通过逻辑存储结构来管理物理存储结构。而最终物理存储对应的文件又是存储在HDFS之上。而HBase的物理存储结构主要包括StoreFile、HFile和HLog日志。视频讲解如下:[链接]
【赵渝强老师】HBase的逻辑存储结构
赵渝强老师
5 月 29 日
阅读 2 分钟
418
HBase的命名空间相当于Oracle和MySQL中的数据库,它是对表的逻辑划分。不同的HBase命名空间类似于关系型数据库中的不同的数据库。利用命名空间的逻辑管理功能,可以实现在多租户场景下做到更好的资源和数据隔离。在系统表hbase:namespace中保存了的所有的命名空间信息。视频讲解如下:[链接]
【赵渝强老师】HBase的体系架构
赵渝强老师
5 月 27 日
阅读 2 分钟
396
HBase是大表(BigTable)思想的一个具体实现。它是一个列式存储的NoSQL数据库,适合执行数据的分析和处理。简单来说,就是适合执行查询操作。从体系架构的角度看,HBase是一种主从架构,包含:HBase HMaster、Region Server和ZooKeeper,下图展示了这一架构。
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
赵渝强老师
3 月 2 日
阅读 3 分钟
832
在Hadoop HDFS的体系架构中,包含了三个组成部分。它们分别是:NameNode、DataNode和SecondaryNameNode。下图摘至Hadoop官方的网站,它说明了HDFS的体系架构。
【赵渝强老师】Hive的分区表
赵渝强老师
2024-10-28
阅读 3 分钟
703
Hive的分区表跟Oracle、MySQL中分区表的概念是一样的。当表上建立了分区,就会根据分区的条件从物理存储上将表中的数据进行分隔存储。而当执行查询语句时候,也会根据分区的条件扫描特定分区中的数据,从而避免全表扫描以提高查询的效率。Hive分区表中的每个分区将会在HDFS上创建一个目录,分区中的数据则是该目录下的文...
【赵渝强老师】Hive的内部表与外部表
赵渝强老师
2024-10-25
阅读 2 分钟
717
Hive是基于HDFS之上的数据仓库,它把所有的数据存储在HDFS中,Hive并没有专门的数据存储格式。当在Hive中创建了表,可以使用load语句将本地或者HDFS上的数据加载到表中,从而使用SQL语句进行分析和处理。
【赵渝强老师】基于ZooKeeper实现Hadoop HA
赵渝强老师
2024-09-18
阅读 7 分钟
627
由于在HA架构中包含的节点比较多,在进行实际部署的时候需要做好集群的规划。图14.9一共使用了4个节点来部署HDFS HA,它们分别是:bigdata112、bigdata113、bigdata114和bigdata115。由于Hadoop默认包含了HDFS和Yarn,因此在部署HDFS HA的时候,也可以同时部署Yarn的HA。每个节点上部署的服务如下表所示:
【赵渝强老师】大数据主从架构的单点故障
赵渝强老师
2024-09-05
阅读 1 分钟
743
大数据体系架构中的核心组件都是主从架构,即:存在一个主节点和多个从节点,从而组成一个分布式环境。下图为展示了大数据体系中主从架构的相关组件。 视频讲解如下:[链接]
【赵渝强老师】大数据生态圈中的组件
赵渝强老师
2024-09-04
阅读 3 分钟
623
大数据体系架构中的组件非常多,每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始,逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习大数据之前有必要了解一下每一个生态圈体系中具体包含哪些组件,以及它们的作用又是什么。 视频讲解如下:[链接]
【赵渝强老师】大数据技术的理论基础
赵渝强老师
2024-09-03
阅读 3 分钟
461
大数据平台所要解决的问题是数据的存储和数据的计算,其核心思想采用的是分布式集群的思想。另一方面,分布式集群的思想在Google的技术系统中得到了很好的应用。因此Google将其核心技术的思想以论文的形式公开发表出来,这就是"Google的三驾马车",即:Google的文件系统、MapReduce分布式计算模型和BigTable...
【赵渝强老师】基于RBF的HDFS联邦架构
赵渝强老师
2024-08-18
阅读 2 分钟
770
在最新的Hadoop版本中又实现了基于Router的联盟架构,并且在这个架构之上还实现了许多增强集群管理能力的特性。Router将挂载表从客户端中抽离了出来,解决了ViewFS存在的问题。 视频讲解如下:[链接]
【赵渝强老师】Hive的体系架构
赵渝强老师
2024-08-02
阅读 2 分钟
510
在Hadoop体系中提供数据分析引擎Hive。它允许使用SQL语句来分析处理数据,而不需要编程复杂的Java程序。同时Hive提供了丰富的数据模型来创建各种表结构,帮助数据分析人员建立数据模型。视频讲解如下:[链接]
【赵渝强老师】HBase的表结构
赵渝强老师
2024-08-02
阅读 2 分钟
474
在学习HBase的表结构之前,首先需要了解一下什么是Google的BigTable思想。BigTable大表的思想是Google的“第三驾马车”。正因为有了这样的思想就有了Hadoop生态圈体系中的NoSQL数据库HBase。
【赵渝强老师】HDFS数据上传和下载的过程
赵渝强老师
2024-08-02
阅读 1 分钟
606
在Hadoop的HDFS中客户端的操作请求,无论是上传数据或者下载数据都是由NameNode负责接收和处理。最终将数据按照数据块的形式保存到数据节点DataNode上。下图说明了HDFS数据上传的过程。
【赵渝强老师】部署Hadoop本地模式
赵渝强老师
2024-08-02
阅读 2 分钟
432
下面展示了Hadoop的目录结构。 为了方便操作Hadoop,需要设置HADOOP_HOME的环境变量,并把bin和sbin目录加入系统的PATH路径中。下面列举了具体的步骤。(1)编辑文件~/.bash_profile文件。
【赵渝强老师】Hadoop生态圈组件
赵渝强老师
2024-08-02
阅读 2 分钟
577
它的全称是Hadoop Distributed File System,它是Hadoop分布式文件系统,用于解决大数据的存储问题。HDFS源自于Google的GFS论文,可用于运行在低成本的通用硬件上,是一个具有容错的文件系统。
【赵渝强老师】Yarn的资源调度策略
赵渝强老师
2024-08-02
阅读 2 分钟
582
Yarn作为一个资源和任务调度的平台,在实际应用中往往不止一个应用程序运行在Yarn之上,例如:在Yarn上同时运着MapReduce任务、Spark任务和Flink任务等等。这时候Yarn就需要有一种机制进行调度去分配资源给这些应用程序。 视频讲解如下:[链接]
【赵渝强老师】基于大数据组件的平台架构
赵渝强老师
2024-08-01
阅读 2 分钟
622
在了解了大数据各个生态圈所包含的组件及其功能特性后,就可以利用这些组件来搭建一个大数据平台从而实现数据的存储和数据的计算。下图展示了大数据平台的整体架构。 视频讲解如下: