回复:flink1.10.0-RestClusterClient cancel job, 报错

2021-12-08 文章 nicygan
时间设长没有用,不限时都会报错。



 回复的原邮件 
| 发件人 | 何凯飞<18703416...@163.com> |
| 日期 | 2021年12月09日 15:07 |
| 收件人 | user-zh@flink.apache.org |
| 抄送至 | |
| 主题 | Re: flink1.10.0-RestClusterClient cancel job, 报错 |
有尝试过将 timeout 时间设置长一点嘛? 比如3 min




Re: flink1.10.0-RestClusterClient cancel job, 报错

2021-12-08 文章 何凯飞
有尝试过将 timeout 时间设置长一点嘛? 比如3 min 





flink1.10.0-RestClusterClient cancel job, 报错

2021-12-08 文章 nicygan
dear all:
  如题,我在调用RestClusterClient#cancel(JobID jobId)方法取消作业时,get不到结果,但作业能正常停止。

用future.get()会报错如下:
Number of retries has been exhausted.

用future.get(10, TimeUnit.SECONDS)会报错timeout.

调用#cancelWithSavepoint(...)和#stopWithSavepoint(...)就没问题,可以正常获取到结果,不报错。


作业运行于cdh yarn集群,版本2.6.0
作业部署,per-job

代码如下:
try (ClusterClient clusterClient = new RestClusterClient<>(configuration, 
clusterId)) {
 clusterClient
  .cancel(jobId)
  .get(20, TimeUnit.SECONDS)
} catch (Exception e) {
 //
}

有谁知道如何解决此问题吗?
非常感谢!




 回复的原邮件 
| 发件人 | Yun Tang |
| 日期 | 2021年12月09日 10:57 |
| 收件人 | user-zh |
| 抄送至 | |
| 主题 | Re: flink sql支持细粒度的状态配置 |
Hi 你好,

我认为这是一个很好的需求,对于data stream以及python API来说,state 
TTL都是通过API逐个配置的,你的需求就可以直接满足。但是对于SQL来说,由于相同的SQL语句,不同优化器其生成的执行plan可能会差异很大,很难对某个operator内的state进行TTL进行配置,可能一种方式是增加一些SQL的优化hint,对于你示例中的join语句和groupBy
 的count语句配以不同的TTL,但是目前Flink SQL尚未支持该功能。


祝好
唐云


From: gygz...@163.com 
Sent: Tuesday, December 7, 2021 18:38
To: user-zh 
Subject: flink sql支持细粒度的状态配置

Hi all

在我们生产中发现,如果在sql中配置状态的TTL会导致这个 ttl时间全局生效

如果我存在一个如下sql

select count(1),region from (select * from A join B on a.uid = b.uid)  group by 
region

如果我配置一个全局的TTL会导致count这个GroupAggFunction的状态被淘汰掉,比如说一天以后累计就被清零

如果不配置,又会导致Regular join的状态增大

这是其中一个场景,这里只是举一个例子

主要是想询问针对 Sql中需要配置局部State的ttl时间,或者同一个任务每个sql配置不同的TTL时间,这种场景应该如何去做 ?



gygz...@163.com


Re: flink sql支持细粒度的状态配置

2021-12-08 文章 Yun Tang
Hi 你好,

我认为这是一个很好的需求,对于data stream以及python API来说,state 
TTL都是通过API逐个配置的,你的需求就可以直接满足。但是对于SQL来说,由于相同的SQL语句,不同优化器其生成的执行plan可能会差异很大,很难对某个operator内的state进行TTL进行配置,可能一种方式是增加一些SQL的优化hint,对于你示例中的join语句和groupBy
 的count语句配以不同的TTL,但是目前Flink SQL尚未支持该功能。


祝好
唐云


From: gygz...@163.com 
Sent: Tuesday, December 7, 2021 18:38
To: user-zh 
Subject: flink sql支持细粒度的状态配置

Hi all

在我们生产中发现,如果在sql中配置状态的TTL会导致这个 ttl时间全局生效

如果我存在一个如下sql

select count(1),region from (select * from A join B on a.uid = b.uid)  group by 
region

如果我配置一个全局的TTL会导致count这个GroupAggFunction的状态被淘汰掉,比如说一天以后累计就被清零

如果不配置,又会导致Regular join的状态增大

这是其中一个场景,这里只是举一个例子

主要是想询问针对 Sql中需要配置局部State的ttl时间,或者同一个任务每个sql配置不同的TTL时间,这种场景应该如何去做 ?



gygz...@163.com


退订

2021-12-08 文章 lpf
退订

退订

2021-12-08 文章 lpf
退订

flink作业支持资源自动扩缩容吗?

2021-12-08 文章 casel.chen
实时作业根据上游业务流量大小消耗资源有峰谷,请问最新版本的flink支持在流量大的时候自动扩容(增加cpu/mem或提高并行度等),在流量小的时候自动缩容吗?
如果支持,一般需要多久?扩缩容期间会影响作业正常运行吗?

Re:回复: Re:回复: flink cdc支持mysql整库同步进hudi湖吗?

2021-12-08 文章 casel.chen
整库入湖的需求分为两部分:存量和增量
存量数据可以通过离线spark作业写hudi表,我提问的重点是增量数据怎样通过flink 
cdc方式写hudi表。如果一个库有成百上千张表的话,我不希望每一张表写一个flink作业,有没有方法可以只写一个作业就能同步一个库下所有表的增量数据呢?

















At 2021-12-08 10:00:37, "su wenwen"  wrote:
>hi,  I think Chengyanan is talking about hudig website
>https://hudi.apache.org/docs/flink-quick-start-guide
>Flink Guide | Apache 
>Hudi!
>Notice that the save mode is now Append.In general, always use append mode 
>unless you are trying to create the table for the first time. Querying the 
>data again will now show updated records. Each write operation generates a new 
>commit denoted by the timestamp. Look for changes in _hoodie_commit_time, age 
>fields for the same _hoodie_record_keys in previous commit. {: .notice--info}
>hudi.apache.org
>
>
>发件人: casel.chen 
>发送时间: 2021年12月8日 0:19
>收件人: user-zh@flink.apache.org 
>主题: Re:回复: flink cdc支持mysql整库同步进hudi湖吗?
>
>“例子参考hudi官网 ” -> 这个没有链接吗?官网哪里有介绍cdc整库入湖了?
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>在 2021-12-07 10:23:03,"chengyanan1...@foxmail.com" 
> 写道:
>>支持,例子参考hudi官网
>>
>>
>>
>>chengyanan1...@foxmail.com
>>
>>发件人: casel.chen
>>发送时间: 2021-12-06 23:55
>>收件人: user-zh@flink.apache.org
>>主题: flink cdc支持mysql整库同步进hudi湖吗?
>>flink cdc支持mysql整库同步进hudi湖吗?如果支持的话,希望能给一个例子,还要求能够支持schema变更。谢谢!