如何确定Kafka集群适当的topics/partitions数量

在一个Kafka集群中如何选择topics/partitions的数量

翻译自How to choose the number of topics/partitions in a Kafka cluster? ，同时结合了Benchmarking Apache Kafka: 2 Million Writes Per Second (On Three Cheap Machines) 的内容

通过阅读您可以了解过：

kafka的基本运行原理
kafka的性能如何
kafka为何效能好
kafka有哪些瓶颈

目前在Kafka 2.0版本中已经支持单集群200K的Partition数量，这真是可喜可贺啊～～～

性能测试

下面是从Benchmark of Kafka 中抽取的压测结果，仅供参考：

三台机器部署一个Kafka Cluster, 硬件配置如下：

Intel Xeon 2.5 GHz processor with 6 cores
6块 7200 RPM SATA drives 没有作RAID (JBOD方式)
32GB of RAM
1Gb Ethernet

压测结果：
其中 同步复制 指的是msg复制到所有复本后才给Producer回ack, 异步复制指msg写Leader成功即给Producer回ack。
1. 生产吞吐量：

Broker数量	Producer 数量	Msg大小(Byte)	Partition数量	复本数量	复本同步策略	吞吐量（record/s）	吞吐量 (MB/s)
3	1	100	6	1		821,557	78.3
3	1	100	6	3	异步复制	786,980	75.1
3	1	100	6	3	同步复制	421,823	40.2
3	3	100	6	3	异步复制	2,024,032	193.0

2. 消费吞吐量：

Broker数量	Consumer 数量	Msg大小(Byte)	Partition数量	复本数量	是否同时生产	是否从page cache读	吞吐量（record/s）	吞吐量 (MB/s)
3	1	100	6	3	否	否	940,521	89.7
3	3	100	6	3	否	否	2,615,968	249.5
3	1	100	6	3	1个异步复制	是（边写边读）	795,064	75.8

  ##### 消息大小对性能的影响

处理大量的小消息(小于 100字节) 对于一个消息系统来说是比较困难的，无法更有效地利用网络带宽，服务端也会为处理每一个小消息来消耗大量资源。Kafka实际上也和其他的消息系统一样提供了批量写入的功能。针对消息大小对性能的影响，我们用两张图来说明一下。

随着消息体的增大，每秒钟能写入的record条数逐渐递减。

选区_036.png

随着消息体的增大，每秒钟能写入的数据量逐渐递增。

选区_037.png

PageCache对于性能的影响

我们知道Kafka在接受到msg后，并不是实时强制落盘，理论上它只定入PageCache, 这也是它可能loss data的原因之一。

对于消费者来说，如果它的消费没有lag, 那基本上它消费的数据全来自PageCache，将不会有任何的磁盘IO。但是如果有消费Group尝试消费旧数据，将引发从磁盘读取，这些旧数据进入PageCache，又进而引发了与新写入数据竞争PageCache。解决这个问题，可以通过对新写入数据自行增加一层缓存，以内存来换取性能。