subject:"Flink 1.11版本LeaseRenewer线程不释放"

Re: Flink 1.11版本LeaseRenewer线程不释放

2021-05-13 文章 zilong xiao

并没有定位到具体原因，只能靠重启作业缓解。。。

zhisheng  于2021年5月13日周四 下午4:20写道：

> 你好，这个问题后来定位到问题了吗？
>
> 我们生产也有一个作业有这样的问题，Flink 版本是 1.10.0，这个作业是 JM 的线程数很多（快 6k），作业是 flink 读取
> Kafka，会关联 HBase ，开启了 Checkpoint，就这个作业有问题，很奇怪
>
> https://tva1.sinaimg.cn/large/008i3skNgy1gqgvhdu674j31je0u0795.jpg
>
> zilong xiao  于2020年12月8日周二 下午6:21写道：
>
> > 作业数据流是 kafka -> flink ->
> > http/prometheus，目前这类型的作业很多，但是就只有那几个有问题，而且是必现，每次都只能重启，然后看着线程数上涨。。
> 我再debug看看~
> >
> > Paul Lam  于2020年12月8日周二 下午6:00写道：
> >
> > > Hi,
> > >
> > > 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话，的确是非常奇怪。
> > >
> > > Best,
> > > Paul Lam
> > >
> > > > 2020年12月8日 11:03，zilong xiao  写道：
> > > >
> > > > Hi Paul,
> > > >线程名称是一模一样的，都是user1@cluserA，HDFS client版本对于用户来说是透明的，作业使用的是Flink
> > > >
> > >
> >
> 1.11版本，该Flink版本使用HDFS版本好像是2.8.1，在Flink中和集群有持续交互的就只能想到checkpoint，开了DEBUG日志也没能找到root
> > > > cause。。
> > > >
> > > >另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解，作业只能提交到一个具体的集群吧？
> > > >
> > > > Paul Lam  于2020年12月8日周二 上午10:45写道：
> > > >
> > > >> 我记得 LeaseRenewer 是 JVM 级别的，线程个数应该和用到的 HDFS 集群数目相同。
> > > >>
> > > >> 你看看它们具体的线程名是不是完全相同（比如都是 user1@cluserA）？还有 HDFS client 的版本是什么？
> > > >>
> > > >> Best,
> > > >> Paul Lam
> > > >>
> > > >>> 2020年12月7日 18:11，zilong xiao  写道：
> > > >>>
> > > >>> 在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread
> > > Dump发现有很多名为LeaseRenewer
> > > >>> 的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经历的小伙伴呢？
> > > >>>
> > > >>> Flink version: 1.11
> > > >>> State backend：filesystem
> > > >>> checkpoint interval: 60s
> > > >>
> > > >>
> > >
> > >
> >
>

Re: Flink 1.11版本LeaseRenewer线程不释放

2021-05-13 文章 zhisheng

你好，这个问题后来定位到问题了吗？

我们生产也有一个作业有这样的问题，Flink 版本是 1.10.0，这个作业是 JM 的线程数很多（快 6k），作业是 flink 读取
Kafka，会关联 HBase ，开启了 Checkpoint，就这个作业有问题，很奇怪

https://tva1.sinaimg.cn/large/008i3skNgy1gqgvhdu674j31je0u0795.jpg

zilong xiao  于2020年12月8日周二 下午6:21写道：

> 作业数据流是 kafka -> flink ->
> http/prometheus，目前这类型的作业很多，但是就只有那几个有问题，而且是必现，每次都只能重启，然后看着线程数上涨。。 我再debug看看~
>
> Paul Lam  于2020年12月8日周二 下午6:00写道：
>
> > Hi,
> >
> > 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话，的确是非常奇怪。
> >
> > Best,
> > Paul Lam
> >
> > > 2020年12月8日 11:03，zilong xiao  写道：
> > >
> > > Hi Paul,
> > >线程名称是一模一样的，都是user1@cluserA，HDFS client版本对于用户来说是透明的，作业使用的是Flink
> > >
> >
> 1.11版本，该Flink版本使用HDFS版本好像是2.8.1，在Flink中和集群有持续交互的就只能想到checkpoint，开了DEBUG日志也没能找到root
> > > cause。。
> > >
> > >另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解，作业只能提交到一个具体的集群吧？
> > >
> > > Paul Lam  于2020年12月8日周二 上午10:45写道：
> > >
> > >> 我记得 LeaseRenewer 是 JVM 级别的，线程个数应该和用到的 HDFS 集群数目相同。
> > >>
> > >> 你看看它们具体的线程名是不是完全相同（比如都是 user1@cluserA）？还有 HDFS client 的版本是什么？
> > >>
> > >> Best,
> > >> Paul Lam
> > >>
> > >>> 2020年12月7日 18:11，zilong xiao  写道：
> > >>>
> > >>> 在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread
> > Dump发现有很多名为LeaseRenewer
> > >>> 的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经历的小伙伴呢？
> > >>>
> > >>> Flink version: 1.11
> > >>> State backend：filesystem
> > >>> checkpoint interval: 60s
> > >>
> > >>
> >
> >
>

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-08 文章 zilong xiao

作业数据流是 kafka -> flink ->
http/prometheus，目前这类型的作业很多，但是就只有那几个有问题，而且是必现，每次都只能重启，然后看着线程数上涨。。 我再debug看看~

Paul Lam  于2020年12月8日周二 下午6:00写道：

> Hi,
>
> 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话，的确是非常奇怪。
>
> Best,
> Paul Lam
>
> > 2020年12月8日 11:03，zilong xiao  写道：
> >
> > Hi Paul,
> >线程名称是一模一样的，都是user1@cluserA，HDFS client版本对于用户来说是透明的，作业使用的是Flink
> >
> 1.11版本，该Flink版本使用HDFS版本好像是2.8.1，在Flink中和集群有持续交互的就只能想到checkpoint，开了DEBUG日志也没能找到root
> > cause。。
> >
> >另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解，作业只能提交到一个具体的集群吧？
> >
> > Paul Lam  于2020年12月8日周二 上午10:45写道：
> >
> >> 我记得 LeaseRenewer 是 JVM 级别的，线程个数应该和用到的 HDFS 集群数目相同。
> >>
> >> 你看看它们具体的线程名是不是完全相同（比如都是 user1@cluserA）？还有 HDFS client 的版本是什么？
> >>
> >> Best,
> >> Paul Lam
> >>
> >>> 2020年12月7日 18:11，zilong xiao  写道：
> >>>
> >>> 在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread
> Dump发现有很多名为LeaseRenewer
> >>> 的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经历的小伙伴呢？
> >>>
> >>> Flink version: 1.11
> >>> State backend：filesystem
> >>> checkpoint interval: 60s
> >>
> >>
>
>

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-08 文章 Paul Lam

Hi,

我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话，的确是非常奇怪。

Best,
Paul Lam

> 2020年12月8日 11:03，zilong xiao  写道：
> 
> Hi Paul,
>线程名称是一模一样的，都是user1@cluserA，HDFS client版本对于用户来说是透明的，作业使用的是Flink
> 1.11版本，该Flink版本使用HDFS版本好像是2.8.1，在Flink中和集群有持续交互的就只能想到checkpoint，开了DEBUG日志也没能找到root
> cause。。
> 
>另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解，作业只能提交到一个具体的集群吧？
> 
> Paul Lam  于2020年12月8日周二 上午10:45写道：
> 
>> 我记得 LeaseRenewer 是 JVM 级别的，线程个数应该和用到的 HDFS 集群数目相同。
>> 
>> 你看看它们具体的线程名是不是完全相同（比如都是 user1@cluserA）？还有 HDFS client 的版本是什么？
>> 
>> Best,
>> Paul Lam
>> 
>>> 2020年12月7日 18:11，zilong xiao  写道：
>>> 
>>> 在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread Dump发现有很多名为LeaseRenewer
>>> 的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经历的小伙伴呢？
>>> 
>>> Flink version: 1.11
>>> State backend：filesystem
>>> checkpoint interval: 60s
>> 
>>

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-07 文章 zilong xiao

附一张有问题container的线程监控图
[image: image.png]

zilong xiao  于2020年12月8日周二 上午11:03写道：

> Hi Paul,
> 线程名称是一模一样的，都是user1@cluserA，HDFS client版本对于用户来说是透明的，作业使用的是Flink
> 1.11版本，该Flink版本使用HDFS版本好像是2.8.1，在Flink中和集群有持续交互的就只能想到checkpoint，开了DEBUG日志也没能找到root
> cause。。
>
> 另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解，作业只能提交到一个具体的集群吧？
>
> Paul Lam  于2020年12月8日周二 上午10:45写道：
>
>> 我记得 LeaseRenewer 是 JVM 级别的，线程个数应该和用到的 HDFS 集群数目相同。
>>
>> 你看看它们具体的线程名是不是完全相同（比如都是 user1@cluserA）？还有 HDFS client 的版本是什么？
>>
>> Best,
>> Paul Lam
>>
>> > 2020年12月7日 18:11，zilong xiao  写道：
>> >
>> > 在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread
>> Dump发现有很多名为LeaseRenewer
>> > 的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经历的小伙伴呢？
>> >
>> > Flink version: 1.11
>> > State backend：filesystem
>> > checkpoint interval: 60s
>>
>>

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-07 文章 zilong xiao

Hi Paul,
线程名称是一模一样的，都是user1@cluserA，HDFS client版本对于用户来说是透明的，作业使用的是Flink
1.11版本，该Flink版本使用HDFS版本好像是2.8.1，在Flink中和集群有持续交互的就只能想到checkpoint，开了DEBUG日志也没能找到root
cause。。

另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解，作业只能提交到一个具体的集群吧？

Paul Lam  于2020年12月8日周二 上午10:45写道：

> 我记得 LeaseRenewer 是 JVM 级别的，线程个数应该和用到的 HDFS 集群数目相同。
>
> 你看看它们具体的线程名是不是完全相同（比如都是 user1@cluserA）？还有 HDFS client 的版本是什么？
>
> Best,
> Paul Lam
>
> > 2020年12月7日 18:11，zilong xiao  写道：
> >
> > 在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread Dump发现有很多名为LeaseRenewer
> > 的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经历的小伙伴呢？
> >
> > Flink version: 1.11
> > State backend：filesystem
> > checkpoint interval: 60s
>
>

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-07 文章 Paul Lam

我记得 LeaseRenewer 是 JVM 级别的，线程个数应该和用到的 HDFS 集群数目相同。

你看看它们具体的线程名是不是完全相同（比如都是 user1@cluserA）？还有 HDFS client 的版本是什么？

Best,
Paul Lam

> 2020年12月7日 18:11，zilong xiao  写道：
> 
> 在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread Dump发现有很多名为LeaseRenewer
> 的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经历的小伙伴呢？
> 
> Flink version: 1.11
> State backend：filesystem
> checkpoint interval: 60s

Flink 1.11版本LeaseRenewer线程不释放

2020-12-07 文章 zilong xiao

在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread Dump发现有很多名为LeaseRenewer
的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经历的小伙伴呢？

Flink version: 1.11
State backend：filesystem
checkpoint interval: 60s

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Re: Flink 1.11版本LeaseRenewer线程不释放

Flink 1.11版本LeaseRenewer线程不释放

8 matches

Site Navigation

Mail list logo

Footer information