目前感觉和 https://issues.apache.org/jira/browse/FLINK-19249 和 https://issues.apache.org/jira/browse/FLINK-16030 有点类似。网络环境不稳定。相同配置在物理机没问题。
yidan zhao <hinobl...@gmail.com> 于2022年12月7日周三 16:11写道: > > 谢谢,不过这几个参数和netty关系不大吧。 > heartbeat和akka的可能会和rpc超时有关,不过我这个是netty的报错,不是rpc部分。 > web和rest应该是和client提交任务有关。 > > Stan1005 <532338...@qq.com.invalid> 于2022年12月7日周三 15:51写道: > > > > 我也遇到过,tm的slot数一直是2,并行度高了就很容易出这个报错。tm内存保持为20480mb,相同的job讲并行度降低到256就没有报过这个。 > > 另外可以考虑适当增加这几个参数(具体需要改动哪些建议先搜下这些参数的作用) > > set rest.connection-timeout=1800000; > > set rest.idleness-timeout=1800000; > > set heartbeat.timeout=1800000; > > set akka.ask.timeout=1800000; > > set web.timeout=1800000; > > > > > > > > ------------------ 原始邮件 ------------------ > > 发件人: > > "user-zh" > > > > <hinobl...@gmail.com>; > > 发送时间: 2022年12月6日(星期二) 晚上7:18 > > 收件人: "user-zh"<user-zh@flink.apache.org>; > > > > 主题: 1.15.2作业频繁(每 几十分钟 ~ 1小时)报 LocalTransportException: readAddress(..) > > failed: Connection timed out . > > > > > > > > 如题,这个问题长期存在,我想了解几个点: > > (1)connection time out > > 是连接时才会报的错误嘛?作业正常运行期间可能有嘛?我理解是连接时的报错,但是我看部分报错是作业运行不少时间才报错的(比如40分钟,1小时多),这种时刻为什么会有 > > connect 操作呢?netty的connection不是在作业启动时,就发 partition request 的时候创建好的嘛。 > > (2)之前调整过 netty 的 server 的 backlog,目前设置2048,不应该是这个导致。 > > (3)之前我TM都是1个slot,netty的server thread默认就是1,后来设置成2,我考虑是不是因为netty server > > thread太少导致来不及处理连接?所以出现 connection timeout?但是我加大了server thread > > 到10还是没啥效果。而且也不至于,理论上netty server thread应该仅负责创建连接,都不负责具体的io,不应该是这个原因。 > > > > 大佬们,有人知道这个问题出现的场景嘛?就是啥情况会出现,是不是只有创建连接时存在 connection > > timeout的概念呢?其次flink作业运行期间,除了作业启动后的一小段时间外,什么情况还需要建立 netty 连接呢? > > 不考虑再提交作业,因为我的TM只有1个slot,而且这个集群只运行1个作业。