如题,这个问题长期存在,我想了解几个点:
(1)connection time out
是连接时才会报的错误嘛?作业正常运行期间可能有嘛?我理解是连接时的报错,但是我看部分报错是作业运行不少时间才报错的(比如40分钟,1小时多),这种时刻为什么会有
connect 操作呢?netty的connection不是在作业启动时,就发 partition request 的时候创建好的嘛。
(2)之前调整过 netty 的 server 的 backlog,目前设置2048,不应该是这个导致。
(3)之前我TM都是1个slot,netty的server thread默认就是1,后来设置成2,我考虑是不是因为netty server
thread太少导致来不及处理连接?所以出现 connection timeout?但是我加大了server thread
到10还是没啥效果。而且也不至于,理论上netty server thread应该仅负责创建连接,都不负责具体的io,不应该是这个原因。

大佬们,有人知道这个问题出现的场景嘛?就是啥情况会出现,是不是只有创建连接时存在 connection
timeout的概念呢?其次flink作业运行期间,除了作业启动后的一小段时间外,什么情况还需要建立 netty 连接呢?
不考虑再提交作业,因为我的TM只有1个slot,而且这个集群只运行1个作业。

回复