Re: 答复: 求助：broker的message store在AllocateMappedFile之后写入TPS急剧下降

dongeforever Sat, 28 Jul 2018 20:59:54 -0700

Hi：
你使用了
transientStorePoolEnable，这个模式的效果是先写内存(Buffer)，再写到PageCache，如果触发了Buffer没有及时归还，会导致写性能急剧下降。
建议改下配置压下：
transientStorePoolEnable=false
useReentrantLockWhenPutMessage=true
sendMessageThreadPoolNums=32(核数乘以2)


压测时观察下broker.log里面的dispatch behind日志。

Best Regards
dongeforever

在 2018年7月26日 下午5:45，shen hui <shenhui0...@outlook.com>写道：

> 我理解既然最开始的写入TPS能够到达4000左右，并且能够持续一段时间，那么集群的容量就是4000TPS。但是每次new 一个mapped
> file的时候，TPS就下来了，十分疑惑。
> ps：os是 Debian 3.16.56-1+deb8u1， kernel版本是 3.16.0-6-amd64，
> 文件系统是ext4。
> ------------------------------
> *发件人:* 骆志杰 <aluomaidi...@163.com>
> *发送时间:* 2018年7月26日 17:27
> *收件人:* users@rocketmq.apache.org
> *主题:* Re: 求助：broker的message store在AllocateMappedFile之后写入TPS急剧下降
>
> 1.其实属于一种服务端保护机制，压测的场景下很容易出现，解决方案有两种，一个是增强写入能力，另一个是放宽安全限制。
> 2.增强写入能力：可以增加master分摊流量或者调整可以增加broker写入的参数
> 3.放宽限制：设大osPageCacheBusyTimeOutMills，waitTimeMillsInSendQueue，
> sendThreadPoolQueueCapacity等参数
> 4.我自己测试过调整3中的参数以后没有再出现这个异常
>
> 在 2018年7月26日，17:00，张凯 <zhangkai....@gmail.com> 写道：
>
> 网络有问题么
>
> shen hui <shenhui0...@outlook.com> 于2018年7月26日周四 下午3:15写道：
>
> 更新一下，AllocateMappedFile应该不是诱因，上面的store.log是巧合。
>
> 而且这次的put的延时有很多 <= 0ms。看了下磁盘io和内存的cached的使用，远没有到瓶颈。可能的原因是什么呢？
> ------------------------------
> *发件人:* shen hui <shenhui0...@outlook.com>
> *发送时间:* 2018年7月26日 12:12
> *收件人:* users@rocketmq.apache.org
> *主题:* 求助：broker的message store在AllocateMappedFile之后写入TPS急剧下降
>
> HI，
> 在测试RocketMQ-4.2.0的时候，使用benchmark下的producer.sh进行写入性能测试，同时也开启了consumer进行消费。
>
> broker的机器配置为（从kafka集群借过来的）
>
> CPU ： E5-2650 v4 @ 2.20GHz
> Mem：256G
> disk ： 7200 rpm HDD 12T
>
> 集群为3 master - 6 slave，异步刷盘、同步复制。9个实例分布在3台物理机上，每个物理机上一个master实例。
> master 的参数如下:
> brokerClusterName=test_cluster
> brokerName=broker1
> brokerId=0
> deleteWhen=04
> fileReservedTime=48
> brokerRole=SYNC_MASTER
> flushDiskType=ASYNC_FLUSH
> namesrvAddr=10.21.62.12:9876;10.21.62.13:9876
> transientStorePoolEnable=true
> listenPort=10911
> storePathRootDir=/data01/rocketmq_data
> storePathCommitLog=/data01/rocketmq_data/commitlog
> autoCreateTopicEnable=false
> autoCreateSubscriptionGroup=false
> slaveReadEnable=true
>
> 刚刚开始的时候，producer的TPS在 3500 ～ 4500，但是一段时间过后，TPS急剧下降两位数水平。客户端日志开始大量出现
> [TIMEOUT_CLEAN_QUEUE]broker busy, start flow control for a while, period
> in queue: 202ms
> 的错误。通过mqadmin增大broker的waitTimeMillisInSendQueue到500ms也未见好转
>
> 同时观察master broker的store.log，发现是在allocate mapped file之后开始下降的。
> slave的日志没有发现warn或者error
>
> 而且，重启broker之后，写入TPS恢复，但是一段时间后又出现了这种问题。
> 请问下各位，是我参数配置错误还是说一台机器上多个实例造成的影响？我看了半天源码也没想明白原因。望指教
>
> <image.png><image.png><image.png><image.png>
>
>
>

Re: 答复: 求助：broker的message store在AllocateMappedFile之后写入TPS急剧下降

Reply via email to