Re: Flink 1.11版本LeaseRenewer线程不释放
并没有定位到具体原因,只能靠重启作业缓解。。。 zhisheng 于2021年5月13日周四 下午4:20写道: > 你好,这个问题后来定位到问题了吗? > > 我们生产也有一个作业有这样的问题,Flink 版本是 1.10.0,这个作业是 JM 的线程数很多(快 6k),作业是 flink 读取 > Kafka,会关联 HBase ,开启了 Checkpoint,就这个作业有问题,很奇怪 > > https://tva1.sinaimg.cn/large/008i3skNgy1gqgvhdu674j31je0u0795.jpg > > zilong xiao 于2020年12月8日周二 下午6:21写道: > > > 作业数据流是 kafka -> flink -> > > http/prometheus,目前这类型的作业很多,但是就只有那几个有问题,而且是必现,每次都只能重启,然后看着线程数上涨。。 > 我再debug看看~ > > > > Paul Lam 于2020年12月8日周二 下午6:00写道: > > > > > Hi, > > > > > > 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话,的确是非常奇怪。 > > > > > > Best, > > > Paul Lam > > > > > > > 2020年12月8日 11:03,zilong xiao 写道: > > > > > > > > Hi Paul, > > > >线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink > > > > > > > > > > 1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了DEBUG日志也没能找到root > > > > cause。。 > > > > > > > >另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解,作业只能提交到一个具体的集群吧? > > > > > > > > Paul Lam 于2020年12月8日周二 上午10:45写道: > > > > > > > >> 我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用到的 HDFS 集群数目相同。 > > > >> > > > >> 你看看它们具体的线程名是不是完全相同(比如都是 user1@cluserA)?还有 HDFS client 的版本是什么? > > > >> > > > >> Best, > > > >> Paul Lam > > > >> > > > >>> 2020年12月7日 18:11,zilong xiao 写道: > > > >>> > > > >>> 在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread > > > Dump发现有很多名为LeaseRenewer > > > >>> 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原因,不知道社区是否有类似经历的小伙伴呢? > > > >>> > > > >>> Flink version: 1.11 > > > >>> State backend:filesystem > > > >>> checkpoint interval: 60s > > > >> > > > >> > > > > > > > > >
Re: Flink 1.11版本LeaseRenewer线程不释放
你好,这个问题后来定位到问题了吗? 我们生产也有一个作业有这样的问题,Flink 版本是 1.10.0,这个作业是 JM 的线程数很多(快 6k),作业是 flink 读取 Kafka,会关联 HBase ,开启了 Checkpoint,就这个作业有问题,很奇怪 https://tva1.sinaimg.cn/large/008i3skNgy1gqgvhdu674j31je0u0795.jpg zilong xiao 于2020年12月8日周二 下午6:21写道: > 作业数据流是 kafka -> flink -> > http/prometheus,目前这类型的作业很多,但是就只有那几个有问题,而且是必现,每次都只能重启,然后看着线程数上涨。。 我再debug看看~ > > Paul Lam 于2020年12月8日周二 下午6:00写道: > > > Hi, > > > > 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话,的确是非常奇怪。 > > > > Best, > > Paul Lam > > > > > 2020年12月8日 11:03,zilong xiao 写道: > > > > > > Hi Paul, > > >线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink > > > > > > 1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了DEBUG日志也没能找到root > > > cause。。 > > > > > >另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解,作业只能提交到一个具体的集群吧? > > > > > > Paul Lam 于2020年12月8日周二 上午10:45写道: > > > > > >> 我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用到的 HDFS 集群数目相同。 > > >> > > >> 你看看它们具体的线程名是不是完全相同(比如都是 user1@cluserA)?还有 HDFS client 的版本是什么? > > >> > > >> Best, > > >> Paul Lam > > >> > > >>> 2020年12月7日 18:11,zilong xiao 写道: > > >>> > > >>> 在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread > > Dump发现有很多名为LeaseRenewer > > >>> 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原因,不知道社区是否有类似经历的小伙伴呢? > > >>> > > >>> Flink version: 1.11 > > >>> State backend:filesystem > > >>> checkpoint interval: 60s > > >> > > >> > > > > >
Re: Flink 1.11版本LeaseRenewer线程不释放
作业数据流是 kafka -> flink -> http/prometheus,目前这类型的作业很多,但是就只有那几个有问题,而且是必现,每次都只能重启,然后看着线程数上涨。。 我再debug看看~ Paul Lam 于2020年12月8日周二 下午6:00写道: > Hi, > > 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话,的确是非常奇怪。 > > Best, > Paul Lam > > > 2020年12月8日 11:03,zilong xiao 写道: > > > > Hi Paul, > >线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink > > > 1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了DEBUG日志也没能找到root > > cause。。 > > > >另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解,作业只能提交到一个具体的集群吧? > > > > Paul Lam 于2020年12月8日周二 上午10:45写道: > > > >> 我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用到的 HDFS 集群数目相同。 > >> > >> 你看看它们具体的线程名是不是完全相同(比如都是 user1@cluserA)?还有 HDFS client 的版本是什么? > >> > >> Best, > >> Paul Lam > >> > >>> 2020年12月7日 18:11,zilong xiao 写道: > >>> > >>> 在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread > Dump发现有很多名为LeaseRenewer > >>> 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原因,不知道社区是否有类似经历的小伙伴呢? > >>> > >>> Flink version: 1.11 > >>> State backend:filesystem > >>> checkpoint interval: 60s > >> > >> > >
Re: Flink 1.11版本LeaseRenewer线程不释放
Hi, 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话,的确是非常奇怪。 Best, Paul Lam > 2020年12月8日 11:03,zilong xiao 写道: > > Hi Paul, >线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink > 1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了DEBUG日志也没能找到root > cause。。 > >另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解,作业只能提交到一个具体的集群吧? > > Paul Lam 于2020年12月8日周二 上午10:45写道: > >> 我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用到的 HDFS 集群数目相同。 >> >> 你看看它们具体的线程名是不是完全相同(比如都是 user1@cluserA)?还有 HDFS client 的版本是什么? >> >> Best, >> Paul Lam >> >>> 2020年12月7日 18:11,zilong xiao 写道: >>> >>> 在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread Dump发现有很多名为LeaseRenewer >>> 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原因,不知道社区是否有类似经历的小伙伴呢? >>> >>> Flink version: 1.11 >>> State backend:filesystem >>> checkpoint interval: 60s >> >>
Re: Flink 1.11版本LeaseRenewer线程不释放
附一张有问题container的线程监控图 [image: image.png] zilong xiao 于2020年12月8日周二 上午11:03写道: > Hi Paul, > 线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink > 1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了DEBUG日志也没能找到root > cause。。 > > 另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解,作业只能提交到一个具体的集群吧? > > Paul Lam 于2020年12月8日周二 上午10:45写道: > >> 我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用到的 HDFS 集群数目相同。 >> >> 你看看它们具体的线程名是不是完全相同(比如都是 user1@cluserA)?还有 HDFS client 的版本是什么? >> >> Best, >> Paul Lam >> >> > 2020年12月7日 18:11,zilong xiao 写道: >> > >> > 在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread >> Dump发现有很多名为LeaseRenewer >> > 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原因,不知道社区是否有类似经历的小伙伴呢? >> > >> > Flink version: 1.11 >> > State backend:filesystem >> > checkpoint interval: 60s >> >>
Re: Flink 1.11版本LeaseRenewer线程不释放
Hi Paul, 线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink 1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了DEBUG日志也没能找到root cause。。 另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解,作业只能提交到一个具体的集群吧? Paul Lam 于2020年12月8日周二 上午10:45写道: > 我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用到的 HDFS 集群数目相同。 > > 你看看它们具体的线程名是不是完全相同(比如都是 user1@cluserA)?还有 HDFS client 的版本是什么? > > Best, > Paul Lam > > > 2020年12月7日 18:11,zilong xiao 写道: > > > > 在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread Dump发现有很多名为LeaseRenewer > > 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原因,不知道社区是否有类似经历的小伙伴呢? > > > > Flink version: 1.11 > > State backend:filesystem > > checkpoint interval: 60s > >
Re: Flink 1.11版本LeaseRenewer线程不释放
我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用到的 HDFS 集群数目相同。 你看看它们具体的线程名是不是完全相同(比如都是 user1@cluserA)?还有 HDFS client 的版本是什么? Best, Paul Lam > 2020年12月7日 18:11,zilong xiao 写道: > > 在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread Dump发现有很多名为LeaseRenewer > 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原因,不知道社区是否有类似经历的小伙伴呢? > > Flink version: 1.11 > State backend:filesystem > checkpoint interval: 60s
Flink 1.11版本LeaseRenewer线程不释放
在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread Dump发现有很多名为LeaseRenewer 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原因,不知道社区是否有类似经历的小伙伴呢? Flink version: 1.11 State backend:filesystem checkpoint interval: 60s