Li-GL commented on issue #4301:
URL: https://github.com/apache/streampark/issues/4301#issuecomment-3758286889

   也遇到了同样的问题,我们最近下线yarn节点导致好多任务的jobmanager url不可用了(切换了),然后很多任务请求job manger url 
5秒超时,线程池队列里就堆了好多,现在是watcher是每5秒轮询所有任务状态,如果5秒内处理不完,譬如我们有200个问题,当大量任务5秒超时时,5秒内处理不完的,然后就导致线程池队列堆积。这个时候如果有异常任务需要重启,watcher不会一下子感知并处理到,会先放到队列里,并且放多次,然后多个线程同时处理队列的同样的需要重启的任务,就会导致任务重复提交到yarn。
   解决方案:
   1. 考虑把watcher 轮询间隔调大,现在是写死的5秒,可以调大到10秒,15秒,最好是可配置的。
   2. 线程数调大,目前是cpu*10,可以考虑部署到更多cpu的机器或者k8s部署的话cpu资源给多点,或者线程数这块做成可配置的
   3. 尽量不要老是请求不可用的job manager url导致线程池队列堆积,如果不可用了不如直接用yarn proxy 
url,并在之后一直用proxy url
   
![Image](https://github.com/user-attachments/assets/2433022b-7f97-49ad-8576-58ce24f408c3)


-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

To unsubscribe, e-mail: [email protected]

For queries about this service, please contact Infrastructure at:
[email protected]

Reply via email to