王总:
谢谢你的回复。
现状是 kafka 有20个分区。忙时 10万条每秒。一条约2.5k。
我们把 max_consumer_num_per_group 设成20
push_write_mbytes_per_sec 为 25
调整参数,再试
发件人:"王磊" <[email protected]>
发送时间:2022-07-07 18:57:55 (星期四)
收件人: "陈爱国(magpie)" <[email protected]>
抄送: "[email protected]" <[email protected]>
主题: 回复:如何 增加 doris ROUTINE LOAD 处理 频率
你好,
你的5分钟应该是period_of_auto_resume_min这个参数影响的,可以按需进行调整。
period_of_auto_resume_min FE 配置项,默认是5分钟。Doris重新调度,只会在5分钟这个周期内,最多尝试3次.
如果3次都失败则锁定当前任务,后续不在进行调度。但可通过人为干预,进行手动恢复。
----------------------------------------------------------------------------------------------------------------------------------------------------
另外还有一些系统配置参数会影响例行导入的使用。
max_routine_load_task_concurrent_num
FE 配置项,默认为 5,可以运行时修改。该参数限制了一个例行导入作业最大的子任务并发数。建议维持默认值。设置过大,可能导致同时并发的任务数过多,占用集群资源。
max_routine_load_task_num_per_be
FE 配置项,默认为5,可以运行时修改。该参数限制了每个 BE
节点最多并发执行的子任务个数。建议维持默认值。如果设置过大,可能导致并发任务数过多,占用集群资源。
max_routine_load_job_num
FE 配置项,默认为100,可以运行时修改。该参数限制的例行导入作业的总数,包括 NEED_SCHEDULED, RUNNING, PAUSE
这些状态。超过后,不能在提交新的作业。
max_consumer_num_per_group
BE 配置项,默认为 3。该参数表示一个子任务中最多生成几个 consumer 进行数据消费。对于 Kafka 数据源,一个 consumer
可能消费一个或多个 kafka partition。假设一个任务需要消费 6 个 kafka partition,则会生成 3 个 consumer,每个
consumer 消费 2 个 partition。如果只有 2 个 partition,则只会生成 2 个 consumer,每个 consumer 消费
1 个 partition。
push_write_mbytes_per_sec
BE 配置项。默认为 10,即 10MB/s。该参数为导入通用参数,不限于例行导入作业。该参数限制了导入数据写入磁盘的速度。对于 SSD
等高性能存储设备,可以适当增加这个限速。
max_tolerable_backend_down_num FE
配置项,默认值是0。在满足某些条件下,Doris可PAUSED的任务重新调度,即变成RUNNING。该参数为0代表只有所有BE节点是alive状态才允许重新调度。
| |
王磊
|
|
[email protected]
|
---- 回复的原邮件 ----
| 发件人 | 陈爱国(magpie)<[email protected]> |
| 发送日期 | 2022年07月6日 19:14 |
| 收件人 | <[email protected]> |
| 主题 | 如何 增加 doris ROUTINE LOAD 处理 频率 |
你好:
我新安装了doris,做应用尝试。目前接人kafka数据碰到了问题,请求帮助。目前 FE 1个,BE 4个。
ROUTINE LOAD 配置如下:
CREATE ROUTINE LOAD cloud.kafka_ods_wm_job ON ods_wm
********* PROPERTIES ( "desired_concurrent_number"="20", "max_batch_interval" =
"5", "strict_mode" = "false", "format" = "json" ) FROM KAFKA (
"kafka_broker_list" = "X.X.X.X:XX", "kafka_topic" = "realtime_doris",
"property.group.id" = "cloud_ods_wm", "property.kafka_default_offsets" =
"OFFSET_END" );
表现是lag数量呈周期上升。约5分钟,到120万条。然后急速下降。5分钟后再次上升到120万。呈周期性。
doris 目前能调整的参数不多。
试问,我该如何加快FE调度JobScheduler,加快调度Task ,快速消费kafka。