YARN中Service组合模式

10 月 30 日
阅读 4 分钟
43
两个方向来说,就是说组件是一个普通的服务组件,还是组合服务组件。如果是普通的服务组件,比如说AsyncDispatcher就是一个普通的服务组件,它继承了AbstractService,那其实就是直接重新自己的serviceInit和serviceStart方法即可,然后调用它的init和start方法就可以完成初始化和启动当时针对ResourceManager这种组件,...

YARN & MapReduce

10 月 29 日
阅读 36 分钟
93
原 MapReduce 框架也称MRv1,它是一个主从式架构。主节点JobTracker负责集群的资源管理和处理Client请求,从节点TaskTracker负责管理资源和执行任务。不仅仅存在JobTracker的SPOF问题,而且JobTracker的负载非常高,集群的资源管理也非常粗暴不合理1、单点故障,可靠性低 : JobTracker采用了Master/Slave架构,是集群事...

Dolphinscheduler 之 MR任务

10 月 22 日
阅读 11 分钟
133
args呢?如果要使用args,以上这种 fs、jt、D、libjars、files、archives、tokenCacheFile 是需要自己解析的

Apache Commons CLI (命令行解析参数)

10 月 19 日
阅读 3 分钟
142
Apache Commons CLI 是一个用于解析命令行参数的库,可以轻松处理应用程序中的命令行选项。它支持短选项(如 -h)和长选项(如 --help),并提供丰富的功能,如必填参数、参数类型、帮助信息等

DataX源码分析

10 月 18 日
阅读 1 分钟
77
切分多个Task之后,DataX Job会调用Schedule模块,根据配置的并发数据量,将上一步拆分成的Task重新组合,组装成TaskGroup(任务组),每一个TaskGroup负责以一定并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5;

DataEase入门

10 月 16 日
阅读 9 分钟
119
1、源码编译前提 安装 JDK 21、apache-maven-3.9.6(我用3.9.3也是可以的) {代码...} 1.1、编译步骤 {代码...} 1.2、问题解决 {代码...} 解决 settings.xml 进行如下配置: {代码...} 1.3、创建database {代码...} 1.4、创建运行目录 {代码...} 注意 : dataease2.0 这个目录是必须的,源码中写死的1.5、启动访问 {代码...}...

Flink在全局并行度为1,keyBy之后不同的key,Watermark的推进

10 月 2 日
阅读 4 分钟
234
事件时间针对迟到数据1、设置乱序程度 forBoundedOutOfOrderness2、设置迟到,窗口关闭时间 allowedLateness3、设置侧输出流 sideOutputLateData

说说Java 的 -javaagent

9 月 9 日
阅读 6 分钟
74
-javaagent 是 Java 虚拟机(JVM)的启动参数,用于在 Java 应用程序启动时加载一个 Java 代理(Agent)。Java 代理允许你在不修改应用程序代码的情况下动态地拦截和修改字节码,常用于性能监控、调试、日志记录、性能分析以及应用程序的动态修改等场景

CentOS 8 上安装并启动 PostgreSQL 10.15

9 月 7 日
阅读 2 分钟
285
在 CentOS 8 中,可以通过官方的 PostgreSQL 模块进行安装。默认情况下,CentOS 8 中 PostgreSQL 存储库已经被包含。你可以使用 dnf 包管理器来安装

Dolphinscheduler Master线程模型是不是有点懵,一张图说清楚

9 月 3 日
阅读 1 分钟
137
如感兴趣,点赞加关注,谢谢!!!

dolpinscheduler 嵌入 arthas 监控接口调用

8 月 27 日
阅读 6 分钟
175
1、手动安装 {代码...} 2、报错解决2.1、报错1 {代码...} 解决 : {代码...} 2.2、报错2 {代码...} 解决 {代码...} 3、watchwatch 用于监控方法的具体执行细节,如参数、返回值等 {代码...} {代码...} 4、tracetrace 用于监控方法调用的深度,包括调用了哪些方法以及每个方法的执行时间 {代码...} 5、dumpheapdump arthas...

说说 HDFS fsck

8 月 3 日
阅读 3 分钟
340
hdfs fsck 是 Hadoop 分布式文件系统 (HDFS) 的一个命令行工具,用于检查文件系统的一致性。它可以帮助管理员检查文件系统的健康状况,并提供有关丢失块、损坏文件等信息

Zookeeper 原生API VS Apache Curator 监听

8 月 3 日
阅读 7 分钟
234
在 ZooKeeper 中,Watcher 是一次性的,不会自动重新注册。因此,如果你希望在特定事件(如节点数据变化)发生后继续监听其他事件(如节点删除),你需要在每次事件触发时重新注册 Watcher

NameNode haadmin -failover 和 haadmin -transitionToActive 的区别

8 月 2 日
阅读 2 分钟
207
hdfs haadmin -failover 和 hdfs haadmin -transitionToActive 是 HDFS 高可用性(HA)管理中的两个重要命令,它们用于管理 NameNode 的角色切换和状态转换

说说HDFS NameNode HA

8 月 2 日
阅读 5 分钟
195
1、NameNode竞争在ZooKeeper上进行注册,即创建一个临时节点目录ActiveStandbyElectorLock,写入NN的host、port、nameserviceId、namenodeI等信息,那个写入成功,那个就是Active状态2、注册成功后,同时会创建一个ActiveBreadCrumb永久节点(用来进行切换的时候,如果不是该当前Active NameNode,需要进行fence隔离)通过...

Dolphinscheduler DAG核心源码剖析

7 月 30 日
阅读 6 分钟
364
注意 : 在 Dolphinscheduler 中,离线任务是有完整的声明周期的,比如说停止、暂停、暂停恢复、重跑等等,都是以DAG(有向无环图的形式进行任务组织)T+1离线任务的

批量修改pom.xml中的groupId

7 月 29 日
阅读 1 分钟
172
使用 shell 脚本批量修改 pom.xml 文件中的 groupId 可以通过 sed 命令来实现。下面是一个示例 shell 脚本,它会递归地查找当前目录及其子目录中的所有 pom.xml 文件,并将 groupId 从 org.apache.dolphinscheduler 修改为 com.datashark

Dolphinscheduler集成chunjun

7 月 22 日
阅读 4 分钟
250
/dolphinscheduler/dolphinscheduler-api/src/main/resources/task-type-config.yaml

Dolphinscheduler之容错

7 月 21 日
阅读 3 分钟
313
那问题来了1、Master掉了怎么办?它是负责流程实例的管理的。这样Worker就没有办法给它汇报任务状态,当然它也不能做状态处理了?2、Worker掉了又怎么办?要知道Worker是真正任务执行的载体,它如果掉了。Master要怎么处理?

SeaTunnel 部署(Zeat)单机 vs DataX性能

7 月 18 日
阅读 14 分钟
532
1、SeaTunnel部署1.1、下载包 {代码...} 1.2、下载插件注意 : 修改 bin/install-plugin.sh,让它从阿里云仓库下载,快一点。前提自己的mvn是能走阿里云的 {代码...} sh bin/install-plugin.sh 2.3.5开始下载插件,会放入到connectors下例如 : {代码...} 1.3、放入mysql驱动/home/seatunnel/lib 下放入 {代码...} /home/s...

DataX源码编译及示例

7 月 17 日
阅读 11 分钟
382
1、系统要求 {代码...} 2、源码编译 {代码...} 结果如下 : {代码...} 打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下: {代码...} 3、示例(MySQL → MySQL)3.1、准备(MySQL目标表) {代码...} 3.2、json准备DataX 完整 JSON 配置文件示例 : {代码...} mysql2mysql.json 如下 : {代码.....

Dolphinscheduler YARN Task 状态跟踪

7 月 13 日
阅读 14 分钟
323
Dolphinscheduler针对YARN任务,比如说MR、Spark、Flink,甚至是Shell任务,最初都是会判断如果有YARN任务,解析到applicationId。就会不单单判断客户端进程为单一判断依据,还要根据YARN状态进行最终的Dolphinscheduler任务状态判断。后期社区也是疯狂的重构(确实是好的向往,都是现在就成了半成品)。所以现在的问题就...

Dolphinscheduler JavaTask解决资源文件找不到和变量替换BUG修复

7 月 13 日
阅读 13 分钟
315
dolphinscheduler-task-plugin/dolphinscheduler-task-java/src/main/java/org/apache/dolphinscheduler/plugin/task/java/JavaTask.java

Dolphinscheduler 启动 -> 补数 -> 手动输入不能输入空格BUG修复

7 月 11 日
阅读 1 分钟
137
dolphinscheduler-ui/src/views/projects/workflow/definition/components/start-modal.tsx

Dolphinscheduler JavaTask 支持OUT参数下游传输

7 月 11 日
阅读 8 分钟
243
0、修改一行源码org.apache.dolphinscheduler.plugin.task.java.JavaTask1、针对JAVA类1.1、流程定义图1.1、javaTaskForClass设置1.2、taskA设置1.3、taskA输出 {代码...} 2、针对JAR2.1、jar包封装示例2.1.1、pom.xml {代码...} 2.1.2、demo.Demo类具体内容 {代码...} 2.1.3、上传jar到资源中心mvn clean package,将编...

Dolphinscheduler JavaTask类名称支持非数字、下划线开头BUG修复

7 月 11 日
阅读 3 分钟
158
1、复现1.1、配置1.2、流程实例状态1.3、看执行日志 {代码...} 其实就是解析类名称是DemoTest,真正的类名称是DemoTest1232、解决修改正则表达式 :org.apache.dolphinscheduler.plugin.task.java.JavaConstants {代码...} 如感兴趣,点赞加关注,谢谢!!!

Dolphinscheduler 最新系统架构图

7 月 10 日
阅读 1 分钟
224
如感兴趣,点赞加关注,谢谢!!!

Java 8 总结

7 月 9 日
阅读 7 分钟
323
Lambda 表达式是 Java 8 引入的一种新特性,允许你以更加简洁的方式编写匿名函数,从而使代码更简洁和易读。Lambda 表达式的语法格式如下:

Dolphinscheduler 输出变量解说

7 月 5 日
阅读 9 分钟
427
在 Shell 脚本中,单引号 (')、双引号 (") 和反引号 (`) 各自有不同的作用和用法。理解它们的区别和用法对于编写和调试 Shell 脚本非常重要

HDFS NameNode HA固定一个NN为Active

7 月 3 日
阅读 2 分钟
214
有时候为了简单,尝尝在连接dolphinscheduler的时候,我们会使用单NameNode来进行资源中心地址的配置。当然dolphinscheduler是支持HA的