kafka数据分区不足删除操作

有时候由于特定的业务需要,我们的kafka分区的磁盘可能不够,这个时候我们需要自身删除磁盘数据或者使用脚本定时检测删除消费完的磁盘数据。但是有一个重要的点是:我们需要使用同一个topic主题,所以在删除数据之后我们需要重置这些主题的offset。
image.png
我们以kafka容器集群部署方式为例。

查看分区使用主题大小

1.进入kafka集群docker机器

docker exec -it kafka bash;

2.进入数据目录下:
有时候我们的磁盘是挂载到本地磁盘的,所以我们也可以在本地磁盘查看

cd /kafka/kafka-logs-kafka1

3.查看topic对应文件大小:

du -sh *;

出现:

532G    test-1
532G    test-6

所以我们的test主题的数据量比较大。

4.然后停止服务,让对应的topic数据消费完毕
我们在我们的kafka-manager上进行操作:删除主题,在重新创建主题,设置分区。

5.重置消费group的偏移量lag

bin/kafka-consumer-groups.sh --bootstrap-server 192.168.100.11:9092 --group process-group-news --topic test --to-earliest --reset-offsets --execute

6.查看某个kafka消费组的分区offset情况

./kafka-consumer-groups.sh --bootstrap-server 192.168.100.11:9092 --describe --group process-group-news

7.查看数据总量

./bin/kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list 192.168.100.11:9092 --topic test --time -1

8.删除主题

./bin/kafka-topics.sh --delete --topic test --bootstrap-server 192.168.100.11:9092

9.删除消费组

./bin/kafka-consumer-groups.sh --bootstrap-server  192.168.100.11:9092 --describe --group process-group-news

10.获取1条数据

./bin/kafka-console-consumer.sh --bootstrap-server 192.168.100.11:9092 --from-beginning --topic test --max-messages 1;

常见kafka操作

1、进入kafka的终端输入数据
追加文件写入

bin/kafka-console-producer.sh --broker-list 172.21.81.214:9092 --topic Quick_Access_data_out_auto < /kafkatest.json

其中kafkatest.json是需要写入的数据文件。

单纯打开kafka的终端

bin/kafka-console-producer.sh --broker-list 172.21.81.214:9092 --topic Quick_Access_data_out_auto

或者

bin/kafka-console-producer.sh --bootstrap-server 172.21.81.214:9092 --topic Quick_Access_data_out_auto

注意:在某些高版本的kafka下 服务器列表指令是:--bootstrap-server

2、消费数据

bin/kafka-console-consumer.sh --broker-list 172.21.81.214:9092 --topic Quick_Access_data_out_auto

或者

bin/kafka-console-consumer.sh --bootstrap-server 172.21.81.214:9092 --topic Quick_Access_data_out_auto

3、后台启动kafka

bin/kafka-server-start.sh -daemon ./config/server.properties

4、创建topic

bin/kafka-topics.sh --zookeeper localhost:2181 --create --topic Quick_Access_data_out_auto --partitions 1 --replication-factor 1

5、查看kafka topic列表
使用--list参数

bin/kafka-topics.sh --zookeeper 127.0.0.1:2181 --list

我在规定的时间内,做到了我计划的事情;我自己也变得自信了,对于外界的人跟困难也更加从容了,我已经很强...

79 声望
21 粉丝
0 条评论
推荐阅读
阿里云https免费证书申请
项目牵涉到做一个语音在线实时收集,然后进行asr识别的B/S应用。所以需要浏览器调用“麦克风”来获取用户语音。此时需要在localhost或者https下才能实现这样的功能。类似于google的语音翻译,如下所示:

startshineye阅读 239

国产 ETL工具 ETL产品 数据交换系统 ETL工具选型 需要考虑哪些因素
多数软件又为什么逐渐国产化? 长期以来,国内数据技术都由海外厂商主导。然而随着国际竞争环境日益激烈,争端所引发的技术卡脖子事件频发,面对特殊的大环境,全球化带来的科技创新共同体背后,国家IT产业实现自...

weigeonlyyou阅读 894

封面图
Kafka 分区 & 消费模式
下图以订单、运输、通知等信息,描述与kafka交互的过程,业务中的事件(如下单,支付,配送,评价,售后)会产生各类信息,最终以topic归类汇集到kafka中

老污的猫阅读 839

【Kafka】编译 Kafka2.7 源码并搭建源码环境(Ver 2.7.2)
Kafka 是通过 Scala 和 Java共同编写的语言,之所以选择2.7.2的版本是因为这个版本的Kafka是最后一版本保留ZK的版本。

Xander2阅读 317

问题盘点|使用 Prometheus 监控 Kafka,我们该关注哪些指标
Kafka 作为当前广泛使用的中间件产品,承担了重要/核心业务数据流转,其稳定运行关乎整个业务系统可用性。本文旨在分享阿里云 Prometheus 在阿里云 Kafka 和自建 Kafka 的监控实践。

阿里巴巴中间件阅读 623

不愧是阿里内部供应的Kafka笔记,深入浅出,全是干货
分布式,是程序员必备技能之一,在面试过程中属于必备类的,在工作中更是会经常用到。而Kafka是一个分布式的基于发布订阅的消息队列,目前它的魅力是无穷的,对于Kafka的奥秘,还需要我们细细去探寻。

Java架构师阅读 575

我在规定的时间内,做到了我计划的事情;我自己也变得自信了,对于外界的人跟困难也更加从容了,我已经很强...

79 声望
21 粉丝
宣传栏