3台Kafka + 3台Zookeeper的集群,使用了近两年,很稳定。

突然有一天服务器上的进程全死掉了。

重启服务后,过一段时间又死掉了。

分析了kafka的server log以后发现硬盘已经占满了。

又分析了硬盘使用情况后得知Kafka保留的数据时间过长,并且近期接收的数据量的猛增导致了硬盘已经不够用了。

如果你的数据量比较大,而且硬盘有限的话,最好改一下kafka的这个配置项:

log.retention.hours = 168

默认是168小时(7天),适当的调小一些。