Re: 作业从savepoint启动,状态不一致问题

2020-06-23 文章 Congxian Qiu
具体的依赖你生成 watermark 的逻辑,换句话说,如果你的作业不 failvover 的话,watermark 应该是怎么样的,然后
failover 之后,你的 watermark 应该是怎么样的。你需要能够保证这两个是一致的。

checkpoint 包含 watermark 之前有个 issue[1] 如果你需要这个功能的话,可以在 issue 那边进行评论

[1] https://issues.apache.org/jira/browse/FLINK-5601
<https://issues.apache.org/jira/browse/FLINK-5601?>

Best,
Congxian


claylin <1012539...@qq.com> 于2020年6月23日周二 下午2:44写道:

> 有什么办法可以确保watermark生成一直吗。。。如果没有的话是不是在生产上不能用时间窗口了
>
>
>
>
> --原始邮件--
> 发件人:"Congxian Qiu" 发送时间:2020年6月23日(星期二) 下午2:09
> 收件人:"user-zh"
> 主题:Re: 作业从savepoint启动,状态不一致问题
>
>
>
> 现在 watermark 没有被记录在 checkpoint/savepoint 中,因此结果可能会不一致,这需要看下 从 savepoint
> 恢复之后 watermark 的生成和之前是否完全一致。
>
> Best,
> Congxian
>
>
> claylin <1012539...@qq.com 于2020年6月23日周二 上午9:35写道:
>
>  1. 生成savepoint的作业还在正常运行,我是从savepoint又重新起了一个任务,然后对他们的输出做了对比,发现输出结果不一致
>  2. 是的,我这边有window窗口,使用的是tumble event time window
>  3. eventtime是从record计算出来的,计算的结果是幂等的,应该不会影响
> 
> 
> 
> 
>  --nbsp;原始邮件nbsp;----------
>  发件人:nbsp;"Congxian Qiu"  发送时间:nbsp;2020年6月22日(星期一) 晚上11:27
>  收件人:nbsp;"user-zh" 
>  主题:nbsp;Re: 作业从savepoint启动,状态不一致问题
> 
> 
> 
>  Hi
>  1 怎么对比得到“结果不一致”这个结论的呢?
>  2 是否有 window 算子呢,现在 checkpoint/savepoint 没有 记录 watermark 的。
>  3 你的 eventtime 是直接从 record 取的,还是计算出来的呢,如果是计算出来的话,重启是否影响计算逻辑得到的
> eventtime 和
>  watermark 呢
> 
>  Best,
>  Congxian
> 
> 
>  claylin <1012539...@qq.comgt; 于2020年6月22日周一 下午10:49写道:
> 
>  gt; hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event
>  gt; time,不知道还有什么因素会导致状态不一样,求大佬支招


Re: 作业从savepoint启动,状态不一致问题

2020-06-23 文章 Congxian Qiu
现在 watermark 没有被记录在 checkpoint/savepoint 中,因此结果可能会不一致,这需要看下 从 savepoint
恢复之后 watermark 的生成和之前是否完全一致。

Best,
Congxian


claylin <1012539...@qq.com> 于2020年6月23日周二 上午9:35写道:

> 1. 生成savepoint的作业还在正常运行,我是从savepoint又重新起了一个任务,然后对他们的输出做了对比,发现输出结果不一致
> 2. 是的,我这边有window窗口,使用的是tumble event time window
> 3. eventtime是从record计算出来的,计算的结果是幂等的,应该不会影响
>
>
>
>
> --原始邮件--
> 发件人:"Congxian Qiu" 发送时间:2020年6月22日(星期一) 晚上11:27
> 收件人:"user-zh"
> 主题:Re: 作业从savepoint启动,状态不一致问题
>
>
>
> Hi
> 1 怎么对比得到“结果不一致”这个结论的呢?
> 2 是否有 window 算子呢,现在 checkpoint/savepoint 没有 记录 watermark 的。
> 3 你的 eventtime 是直接从 record 取的,还是计算出来的呢,如果是计算出来的话,重启是否影响计算逻辑得到的 eventtime 和
> watermark 呢
>
> Best,
> Congxian
>
>
> claylin <1012539...@qq.com 于2020年6月22日周一 下午10:49写道:
>
>  hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event
>  time,不知道还有什么因素会导致状态不一样,求大佬支招


Re: 作业从savepoint启动,状态不一致问题

2020-06-22 文章 Congxian Qiu
Hi
1 怎么对比得到“结果不一致”这个结论的呢?
2 是否有 window 算子呢,现在 checkpoint/savepoint 没有 记录 watermark 的。
3 你的 eventtime 是直接从 record 取的,还是计算出来的呢,如果是计算出来的话,重启是否影响计算逻辑得到的 eventtime 和
watermark 呢

Best,
Congxian


claylin <1012539...@qq.com> 于2020年6月22日周一 下午10:49写道:

> hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event
> time,不知道还有什么因素会导致状态不一样,求大佬支招