Re: Re: PartitionNotFoundException循环重启

2023-07-13 文章 Shammon FY
va.util.concurrent.ForkJoinPool.runWorker(ForkJoinPool.java:1692) > [?:1.8.0_77] > at > java.util.concurrent.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:157) > [?:1.8.0_77] > 2023-07-12 11:09:11,739 INFO > org.apache.flink.runtime.jobmaster.JobMaster [] - 51 tasks

Re: Re: PartitionNotFoundException循环重启

2023-07-05 文章 Shammon FY
com-sw.com> wrote: > 从前面日志看是重启后从hdfs加载checkpoint数据处理(100M左右)这过程好像有点久,还有连kafka消费 > 下游的超时重试 可以设置次数或者时长吗? > > 发件人: Shammon FY > 发送时间: 2023-07-04 10:12 > 收件人: user-zh > 主题: Re: PartitionNotFoundException循环重启 > Hi, > > PartitionNotFoundException异常原因通常是下游task向上游task发送par

Re: PartitionNotFoundException循环重启

2023-07-03 文章 Shammon FY
Hi, PartitionNotFoundException异常原因通常是下游task向上游task发送partition request请求,但是上游task还没有部署成功。一般情况下,下游task会重试,超时后会报出异常。你可以查看下有没有其他的异常日志,查一下上游task为什么没有部署成功。 Best, Shammon FY On Tue, Jul 4, 2023 at 9:30 AM zhan...@eastcom-sw.com < zhan...@eastcom-sw.com> wrote: > > 异常日志内容 > > 2023-07-03 20:30:15,164 IN

Re: Re: PartitionNotFoundException

2023-04-09 文章 Weihua Hu
wrote: > taskmanager.network.tcp-connection.enable-reuse-across-jobs: false > taskmanager.network.max-num-tcp-connections: 4 > > 这两参数已经调整了的,connections 之前只是由1改为2 但运行一周后又出现了 PartitionNotFoundException > > > > From: Shammon FY > Date: 2023-04-10 09:46 > To: user-zh > Subject: Re:

Re: Re: PartitionNotFoundException

2023-04-09 文章 Shammon FY
network.max-num-tcp-connections 只是调整为2,可能是太小了 今天我改为4 再看看 > 或者 将flink版本升级到 1.17 是否可修复该问题? > > From: yidan zhao > Date: 2023-04-03 10:45 > To: user-zh > Subject: Re: PartitionNotFoundException > 设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为 > false,设置 taskman

Re: PartitionNotFoundException

2023-04-02 文章 yidan zhao
设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为 false,设置 taskmanager.network.max-num-tcp-connections 大点。 之前有个bug导致这个问题我记得,不知道1.16修复没有。 zhan...@eastcom-sw.com 于2023年4月3日周一 10:08写道: > > > hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 > [org.apache.flink.runtime.io.network.partition.Partit

Re: PartitionNotFoundException

2023-04-02 文章 Shammon FY
Hi 出现PartitionNotFoundException通常是指定task的上游有subtask失败了,你可以查看一下上游subtask有没有错误日志,根据错误日志查看具体原因 Best, Shammon FY On Mon, Apr 3, 2023 at 10:08 AM zhan...@eastcom-sw.com < zhan...@eastcom-sw.com> wrote: > > hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 > [org.apache.flink.runtime.io.network.partition.Partit

Re: PartitionNotFoundException

2022-09-29 文章 Shammon FY
一般如果是发生failover或者重启时短时间出现这个信息是没关系的,Flink会自己恢复;如果一直出现并且无法恢复,可以结合WebUI查看一下具体是哪些task没有部署成功 On Thu, Sep 29, 2022 at 10:23 AM yidan zhao wrote: > 嗯,谢谢建议,等再出现问题我试试,现在重启后还好,目前感觉是长时间运行后的集群才会出现。 > > Lijie Wang 于2022年9月29日周四 10:17写道: > > > > Hi, > > > > 可以尝试增大一下 taskmanager.network.request-backoff.max 的值

Re: PartitionNotFoundException

2022-09-28 文章 yidan zhao
嗯,谢谢建议,等再出现问题我试试,现在重启后还好,目前感觉是长时间运行后的集群才会出现。 Lijie Wang 于2022年9月29日周四 10:17写道: > > Hi, > > 可以尝试增大一下 taskmanager.network.request-backoff.max 的值。默认值是 1,也就是 10 s。 > 上下游可能是并发部署的,所以是有可能下游请求 partition 时,上游还没部署完成,增大 > taskmanager.network.request-backoff.max 可以增加下游的等待时间和重试次数,减小出现 > PartitionNotFoun

Re: PartitionNotFoundException

2022-09-28 文章 Lijie Wang
Hi, 可以尝试增大一下 taskmanager.network.request-backoff.max 的值。默认值是 1,也就是 10 s。 上下游可能是并发部署的,所以是有可能下游请求 partition 时,上游还没部署完成,增大 taskmanager.network.request-backoff.max 可以增加下游的等待时间和重试次数,减小出现 PartitionNotFoundException 的概率。 Best, Lijie yidan zhao 于2022年9月28日周三 17:35写道: > 按照flink的设计,存在上游还没部署成功,下游就开始请

Re: PartitionNotFoundException

2022-09-28 文章 yidan zhao
按照flink的设计,存在上游还没部署成功,下游就开始请求 partition 的情况吗? 此外,上游没有部署成功一般会有相关日志不? 我目前重启了集群后OK了,在等段时间,看看还会不会出现。 Shammon FY 于2022年9月28日周三 15:45写道: > > Hi > > 计算任务输出PartitionNotFoundException,原因是它向上游TaskManager发送partition > request请求,上游TaskManager的netty server接收到partition request后发现它请求的上游计算任务没有部署成功。 > 所以从这个异常错误

Re: PartitionNotFoundException

2022-09-28 文章 Shammon FY
Hi 计算任务输出PartitionNotFoundException,原因是它向上游TaskManager发送partition request请求,上游TaskManager的netty server接收到partition request后发现它请求的上游计算任务没有部署成功。 所以从这个异常错误来看netty连接是通的,你可能需要根据输出PartitionNotFoundException信息的计算任务,查一下它的上游计算任务为什么没有部署成功 On Tue, Sep 27, 2022 at 10:20 PM yidan zhao wrote: > 补充:flink1.15.

Re: PartitionNotFoundException

2022-09-27 文章 yidan zhao
补充:flink1.15.2版本,standalone集群,基于zk的ha。 环境是公司自研容器环境。3个容器启JM+HistoryServer。剩下几百个容器都是TM。每个TM提供1个slot。 yidan zhao 于2022年9月27日周二 22:07写道: > > 此外,今天还做了个尝试,貌似和长时间没重启TM有关?重启后频率低很多会。 > 我预留的TM很多,比如500个TM,每个TM就提供1个slot,任务可能只用100个TM。 > 会不会剩下400的TM的连接,时间厂了就会出现某种问题? > > yidan zhao 于2022年9月27日周二 16:21写道: > > >

Re: PartitionNotFoundException

2022-09-27 文章 yidan zhao
此外,今天还做了个尝试,貌似和长时间没重启TM有关?重启后频率低很多会。 我预留的TM很多,比如500个TM,每个TM就提供1个slot,任务可能只用100个TM。 会不会剩下400的TM的连接,时间厂了就会出现某种问题? yidan zhao 于2022年9月27日周二 16:21写道: > > 打开了TM的debug日志后发现很多这种日志: > Responding with error: class > org.apache.flink.runtime.io.network.partition.PartitionNotFoundException > > 目前问题的直观表现是:提交