目前从概率上来看,默认cluster.evenly-spread-out-slots 设为
false的情况下,都是单TM用完才下一个TM,只有少数时候不清楚啥情况就出现这种问题了。
这种情况下,我是想彻底隔离任务,一旦某个TM的slot没用完,会导致提交其他任务可能也用到该TM,这样任务隔离性不够。
然后有时候机器出问题,或者任务出问题重启导致TM失败等会导致更多的任务重启。
Caizhi Weng 于2021年10月13日周三 上午10:20写道:
> Hi!
>
> “默认的优先单个 TM 的机制”我记得没有这样的参数。你的意思是把
Hi!
“默认的优先单个 TM 的机制”我记得没有这样的参数。你的意思是把 cluster.evenly-spread-out-slots 设为 false
吗?如果是这样,那么会在所有 slot 中任意选择,而不是优先单个 TM。
想知道优先单个 TM 是出于什么样的需求呢?因为这样做可能会造成集群内部分机器很忙,但部分机器空闲的情况,忙机器上的并发会被拖慢。
yidan zhao 于2021年10月12日周二 下午4:25写道:
> 我以前采用分配到多个TM的机制,最近尝试了下默认的优先单个TM的机制。
>