Hi,
1. table 不禁止 uid/uidhash 的使用。 2. 你说的 Savepoint API 是指 State Processor API 吗?据我所知,目前只支持 uid。 3. 有一个方法是,让你的 hive source 不finish(会浪费资源,但能做 checkpoint)。 有一个疑问,你的流作业任务只需要关联 static data吗? 据我所知,这种场景很少,因为 streaming job 一般都是 long run 作业,所以关联的也是会变得数据。 Best, Jark On Wed, 16 Oct 2019 at 10:24, 去冒险吧 <[email protected]> wrote: > Hi ~, > > > 在使用Flink 1.9 > SQL时,需要结合外部大量数据与当前流进行Join、TopN和Distinct操作,考虑采用初始化相关Operator的State方法,遇到下面几个问题,麻烦解答下: > 1. 是否SQL或Table API是禁止设置uid或者uidhash的?包括对Kafka > DataStreamSource设置了uid或者uidhash也无效? > 2. 在不改变Graph下,对一个SQL Job 下某个GroupAggregator > Operator进行State更新,根据WebUI已经拿到uidhash,但SavePoint > API只允许传入uid,没有uidhash的方法,这个要怎么解决? > 3. 最终是要解决以下问题:需要Union/Join大量外部Hive数据 =》 因为存在Finished Task > 导致整个Job没法做checkpoint。解决这类问题有相关的实践方案吗? > > > 非常感谢。
