发现在特定天的数据存在两种问题:
1、表中部分记录重复
2、表中部分记录缺失,同逻辑重跑后表的数据恢复
以下为mr写的etl,正常情况下只有一个stage,最近一年也只发现这一次shuffle errors
...
23/10/27 01:34:48 INFO mapreduce.Job: map 100% reduce 79%
23/10/27 01:34:57 INFO mapreduce.Job: map 99% reduce 64%
23/10/27 01:34:58 INFO mapreduce.Job: map 73% reduce 64%
...
23/10/27 01:39:12 INFO mapreduce.Job: map 94% reduce 77%
23/10/27 01:39:29 INFO mapreduce.Job: map 85% reduce 58%
23/10/27 01:39:30 INFO mapreduce.Job: map 34% reduce 58%
23/10/27 01:40:04 INFO mapreduce.Job: map 35% reduce 58%
23/10/27 01:40:05 INFO mapreduce.Job: map 36% reduce 58%
23/10/27 01:40:09 INFO mapreduce.Job: map 37% reduce 58%
...
23/10/27 02:29:50 INFO mapreduce.Job: Counters: 52
File System Counters
...
Map-Reduce Framework
...
Failed Shuffles=96
...
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=96
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
...
mr程序没有任务异常退出信号,推测shuffle异常退出后,新的shuffle随机结果不一致导致数据不一样,同学们是否有类似情况,后续想针对shuffle errors进行监控