我感觉应该是这样的:
比如有两个算子
A ---hash---> B
A和B分别有2和3个并发。那就是说对于B的某个subtask来讲,需要对齐上游A的2个subtask发过来的barrier,才能做checkpoint。
了不起的盖茨比 <573693...@qq.com> 于2020年5月17日周日 下午1:16写道:
> 可以理解成,有多个subtask时候,需要等待不同subtask消费数据完毕,之后做checkpoint
>
>
>
>
>
> -- 原始邮件 --
> 发件人: Benchao Li
可以理解成,有多个subtask时候,需要等待不同subtask消费数据完毕,之后做checkpoint
-- 原始邮件 --
发件人: Benchao Li
我记得这个好像是个 bug,已经在 calcite 修复了。 你用的是哪个版本的 flink?
Best,
Jark
On Thu, 14 May 2020 at 15:30, Senior.Hu <463302...@qq.com> wrote:
> Hi All,
> 在用FlinkSqlParserImpl.FACTORY解析Flink DML SQL时,发现解析Join with Temporal
> Table语法,会自动加上LATERAL关键字,如下所示
> LEFT JOIN
> side_room FOR SYSTEM_TIME AS OF
Hi,
我对这块不是非常了解,但是我理解的barrier对齐,指的是同一个Task的多个subtask之间对齐吧。
比如你只有一个source,然后经过keyby之后做了其他的操作,那也是存在barrier对齐的。
了不起的盖茨比 <573693...@qq.com> 于2020年5月17日周日 上午11:29写道:
> 请教一下,如果只有一个source,就不需要对齐了吧?只有source多个数据源时候才需要对齐?
--
Benchao Li
School of Electronics Engineering and Computer Science, Peking
请教一下,如果只有一个source,就不需要对齐了吧?只有source多个数据源时候才需要对齐?
Hi tison,
我不是很清楚我是否理解了你的问题,我先尝试解释一下,如果没有解释清楚,你可以再细化一下你的问题。
这个代码生成的过程整体是这样子的:
1. 不管是SQL,还是Table API,在经过前面的各种处理之后,都会转成逻辑执行计划;
2. 逻辑执行计划会经过优化,然后转成物理执行计划
3. 物理执行计划优化后,会翻译到Transformations(也就是DataStream里面的概念)
3.1. 在翻译过程中,就是代码生成参与的地方。我理解这里最主要的生成其实是表达式,这里面就包含了各种内置函数、UDF等
3.2.
Hi Benchao,
我想搭车问一下这个代码生成是全局仅一次还是每个 call 都会走一遍流程?或者是其他策略。
Best,
tison.
Benchao Li 于2020年5月16日周六 下午9:50写道:
> Hi,
>
> Flink内置函数的实现方式跟udf不太一样,很多函数是直接用的代码生成来做的。
>
> 下面是以blink planner为例,大概说下流程:
> 1. FlinkSqlOperatorTable 这个类里面放的是内置函数表,这个表会被calcite parse
> SQL的时候用到,直接把这些函数识别为具体的某个函数定义。
> 2.
>
>
??datastream
| |
jimandlice
|
|
??jimandl...@163.com
|
Signature is customized by Netease Mail Master
??2020??05??16?? 23:00??1048262223 ??
??dataset api??
----
??: "jimandlice"
??dataset api??
----
??: "jimandlice"
使用sql api的方式
| |
jimandlice
|
|
邮箱:jimandl...@163.com
|
Signature is customized by Netease Mail Master
在2020年05月16日 22:51,jimandlice 写道:
大佬 你好 ! kafka 写入hive 您这边demo么 我这边 只完成了hdfs 应该可以写到hive上去 能提供一个demo么
在 2020-05-15 19:41:59,"zhisheng" 写道:
>看看 Flink UI 上 作业 task 的 sent 和 receive
大佬 你好 ! kafka 写入hive 您这边demo么 我这边 只完成了hdfs 应该可以写到hive上去 能提供一个demo么
在 2020-05-15 19:41:59,"zhisheng" 写道:
>看看 Flink UI 上 作业 task 的 sent 和 receive
>的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经 join 完了,等 checkpoint 也
>complete 完成了即可以停掉作业。
>
>实在不放心,不知道啥时候跑完,可以晚上开始跑,第二天白天再去看看就好了
>
>jimandlice
Hi,
Flink内置函数的实现方式跟udf不太一样,很多函数是直接用的代码生成来做的。
下面是以blink planner为例,大概说下流程:
1. FlinkSqlOperatorTable 这个类里面放的是内置函数表,这个表会被calcite parse
SQL的时候用到,直接把这些函数识别为具体的某个函数定义。
2.
然后再代码生成阶段,会识别到这些函数,根据不同的函数定义,生成不同的函数实现调用。这部分你可以直接看下`org.apache.flink.table.planner.codegen.calls`这个package下的代码。
3. 上面第2条说的主要是scalar
谢谢老哥 终于明白了
-- 原始邮件 --
发件人: venn
Subtask 显示的metrics 是整个 算子链的输入、输出的,算子全部 chain
在一起后,对应的输入、输出就是外部系统了,所有看不到。可以去metrics 页面查看具体算子的metrics 指标
-邮件原件-
发件人: user-zh-return-3563-wxchunjhyy=163@flink.apache.org
代表 了不起的盖茨比
发送时间: 2020年5月16日 11:08
收件人: user-zh
主题: 回复:flink1.10 ddl metric 不显示
为什么chain一起就无法看到了???求大佬解释一下。
各位大佬,请问下,flink 内置的 udf 的源码在什么位置,还有在哪里完成的函数注
册? 非常感谢各位大佬回复
Thanks a lot !
15 matches
Mail list logo