如题,这个问题长期存在,我想了解几个点: (1)connection time out 是连接时才会报的错误嘛?作业正常运行期间可能有嘛?我理解是连接时的报错,但是我看部分报错是作业运行不少时间才报错的(比如40分钟,1小时多),这种时刻为什么会有 connect 操作呢?netty的connection不是在作业启动时,就发 partition request 的时候创建好的嘛。 (2)之前调整过 netty 的 server 的 backlog,目前设置2048,不应该是这个导致。 (3)之前我TM都是1个slot,netty的server thread默认就是1,后来设置成2,我考虑是不是因为netty server thread太少导致来不及处理连接?所以出现 connection timeout?但是我加大了server thread 到10还是没啥效果。而且也不至于,理论上netty server thread应该仅负责创建连接,都不负责具体的io,不应该是这个原因。
大佬们,有人知道这个问题出现的场景嘛?就是啥情况会出现,是不是只有创建连接时存在 connection timeout的概念呢?其次flink作业运行期间,除了作业启动后的一小段时间外,什么情况还需要建立 netty 连接呢? 不考虑再提交作业,因为我的TM只有1个slot,而且这个集群只运行1个作业。