是提交到 yarn 集群么?
不知道 -yt [1] 是否是你想要的添加依赖的效果?
1:
https://github.com/apache/flink/blob/master/flink-yarn/src/main/java/org/apache/flink/yarn/cli/FlinkYarnSessionCli.java#L183
在 2020-11-06 11:12:33,"silence" 写道:
>感谢回复,还是希望可以从submit上解决这个问题,不能添加依赖限制了很多应用场景,特别是针对平台来说
>
>
>
>--
>Sent from: http
hi,Community:
我们目前使用的是 flink 1.9.1 执行 SQL 任务,主要使用了以下几种接口:
1. sqlQuery sqlUpdate: 执行表的创建、查找和写入
2. toAppendStream/toRetractStream:将表转换为流后,通过 DataStream.addSink(new
RichSinkFunction )写入
3. registerDataStream:将流注册为表,下一步使用 sqlQuery/sqlUpdate 读写该表
最后通过 env.execute() 或者 tableEnv.execute() 执行:通过 RichS
我理解是一样的,关于两者的不同点在这里[1]有介绍。
恢复方法是启动任务时 -s 指定从哪个路径恢复,例如 -s
file:///tmp/test/db262ffab6b00db9820c54f25a3f956f/chk-61
[1]
https://ci.apache.org/projects/flink/flink-docs-master/ops/state/savepoints.html#what-is-a-savepoint-how-is-a-savepoint-different-from-a-checkpoint
在 2020-10-10 08:43:38,"
Latency tracking[1] 开启后,metrics 里的
[.[.]]..latency
值只能作为一个参考值,更适合根据对比值判断哪个 channel、operator 延时变高了。
sql
的话,也可能遇到之前我之前困惑的一点:http://apache-flink.147419.n8.nabble.com/flink-Latency-tracking-td1800.html
所以如果是用于获取数据流 end-to-end 延迟的话,目前觉得还是在 sql 数据流里自己增加一个时间字段比较合适。
另外 source 是 kafka 的话 gr
hbase写入时会有buffer [1],按照时间或者数据量写入 [2],可以看下是不是调整过?
1.
https://github.com/apache/flink/blob/master/flink-connectors/flink-connector-hbase/src/main/java/org/apache/flink/connector/hbase/sink/HBaseSinkFunction.java
2.
https://ci.apache.org/projects/flink/flink-docs-master/dev/table/connectors/hbase
问下flink开启latency tracking 的问题,请求restapi的返回里:
latency.operator_id.cf155f65686cb012844f7c745ec70a3c.operator_subtask_index.0.latency_p99
这个 operator_id 怎么跟代码里的算子对上?支持自定义名字吗?
如果是纯 sql 的场景,有办法跟 metric 里的 name 对应上吗?
name: Source: KafkaTableSource(...) -> SourceConversion(...) -> Calc(...) ->
SinkCo
1. SideOutput
按照文档:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/stream/side_output.html
以及 SideOutputITCase.scala 的单测代码,实现了一个一样的例子。不过执行时会报错:
Caused by: java.lang.IllegalArgumentException: OutputTag must not be null.
我理解报错是正常的,因为
val outputTag = OutputTag[String]("side-output")
是