一次kafka进程全部挂掉的经历

3台Kafka + 3台Zookeeper的集群，使用了近两年，很稳定。

突然有一天服务器上的进程全死掉了。

重启服务后，过一段时间又死掉了。

分析了kafka的server log以后发现硬盘已经占满了。

又分析了硬盘使用情况后得知Kafka保留的数据时间过长，并且近期接收的数据量的猛增导致了硬盘已经不够用了。

如果你的数据量比较大，而且硬盘有限的话，最好改一下kafka的这个配置项：

log.retention.hours = 168

默认是168小时(7天)，适当的调小一些。