一篇文章彻底理解 HDFS 的安全模式

2022-11-19
阅读 7 分钟
1.5k
Hdfs 的安全模式,即 HDFS safe mode, 是 HDFS 文件系统的一种特殊状态,在该状态下,hdfs 文件系统只接受读数据请求,而不接受删除、修改等变更请求,当然也不能对底层的 block 进行副本复制等操作。

如何杜绝 spark history server ui 的未授权访问?

2022-11-16
阅读 10 分钟
992
默认状况下,Spark history Sever ui 是没有任何访问控制机制的,任何用户只要知道 shs 对应的 url,就可以访问链接查看 spark 作业的运行状况。

一篇文章彻底理解数据库的各种超时参数

2022-11-11
阅读 14 分钟
939
在日常数据库的使用过程中,我们经常会遇到各种超时,特别是在网络不稳定和业务高并发的情况下。理解这些超时的背后原理和工作机制,以及不同数据库下的超时参数和设置方式,无疑会对异常状况下的问题排查大有裨益;通过合理配置这些超时参数,也可以减少各种异常情况下应用宕机恢复的时间,从而提高 RTO 和 RPO,满足 S...

线上 hive on spark 作业执行超时问题排查案例分享

2022-11-08
阅读 4 分钟
1.7k
某业务系统中,HIVE SQL 以 hive on spark 模式运行在 yarn上指定的资源队列下,在业务高峰期发现部分 SQL 会报错,但重试有时又能够成功。作业具体报错信息,和示例截图如下:

如何更改 datax 以支持hive 的 DECIMAL 数据类型?

2022-11-01
阅读 7 分钟
1.8k
如何更改 datax 以支持hive 的 DECIMAL 数据类型?1. JAVA 数据类型 - float/double 与 BigDecimal大家知道,JAVA中可以用来存储小数的数字类型,主要包括:基本数据类型 float/double;基本数据类型的对应包装类 java.lang.Float/java.lang.Double;java.math 包下的类 java.math.BigDecimal一般来讲,在不需要完全精确的...

线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题

2022-10-31
阅读 4 分钟
1.1k
hive 的元数据服务 hms 和表底层的 orc 文件中都存储了表的元数据信息,两者天然是割裂的,当两者信息不一致时,容易出现各种奇怪的数据问题;

CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui

2022-09-29
阅读 5 分钟
1.9k
在CDH/CDP等大数据平台中,当开启kerberos安全后,如何访问HDFS/YARN/HIVESERVER2 等服务的webui呢?一起看下相关知识。

大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?

2022-09-22
阅读 9 分钟
919
大家知道,在生产环境的大数据集群中,在向资源管理器YARN提交作业时,我们一般会将作业提交到管理员指定的队列去执行,以利用 YARN 队列的资源隔离性确保作业能够获得足够的资源进行执行,从而确保SLA。

数据平台发展史-从数据仓库数据湖到数据湖仓

2022-09-20
阅读 12 分钟
1.3k
做数据的同学经常听到一些数据相关的术语,常见的包括数据仓库,逻辑数据仓库,数据湖,数据湖仓/湖仓一体,数据网格 data mesh,数据编织 data fabric等.

开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致 spark/hive 作业失败

2022-09-16
阅读 4 分钟
1.5k
大数据问题排查系列 - 开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致 spark/hive 作业失败

大数据生态安全框架的实现原理与最佳实践(下篇)

2022-09-14
阅读 15 分钟
1.1k
前言数字化转型大背景下,数据作为企业重要的战略资产,其安全的重要性不言而喻。我们会通过系列文章,来看下大数据生态中安全框架的实现原理与最佳实践,系列文章一共两篇,包含以下章节:大数据生态安全框架概述HDFS 认证详解HDFS 授权详解HIVE 认证详解HIVE 授权详解金融行业大数据安全最佳实践本片文章是下篇,包含...