回复:flink1.10 ddl metric 不显示

2020-05-15 文章 了不起的盖茨比
为什么chain一起就无法看到了???求大佬解释一下。 -- 原始邮件 -- 发件人: zhisheng

Re: [ANNOUNCE] Apache Flink 1.10.1 released

2020-05-15 文章 Benchao Li
Thanks Yu for the great work, and everyone else who made this possible. Dian Fu 于2020年5月15日周五 下午6:55写道: > Thanks Yu for managing this release and everyone else who made this > release possible. Good work! > > Regards, > Dian > > 在 2020年5月15日,下午6:26,Till Rohrmann 写道: > > Thanks Yu for being our

回复:flink 历史数据join

2020-05-15 文章 jimandlice
好的 谢谢哈 我先试一试 有问题在和你说哈 | | jimandlice | | 邮箱:jimandl...@163.com | Signature is customized by Netease Mail Master 在2020年05月15日 19:41,zhisheng 写道: 看看 Flink UI 上 作业 task 的 sent 和 receive 的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经 join 完了,等 checkpoint 也 complete 完成了即可以停掉作业。 实在不放心,不知道啥时候跑完,可以晚

Re: Flink1.10.1关于CliFronted命令行解析顺序引发的BUG

2020-05-15 文章 zhisheng
可以去提个 Issue 111 于2020年5月15日周五 下午5:19写道: > Hi, > > > 今天再升级Flink1.10.0到Flink1.10.1时,发现我们搭建的开发系统在使用YarnSession模式时无法正常工作,目前的架构是: > > > [自己的平台]—发送sql--> [sql-gateway]—提交jobgraph-->[yarn] > > > 跟踪代码发现,sql-gateway在启动时,需要调用CliFronted的loadCustomCommandLines来解析命令行参数。 > > > 在1.10.0版本中,命令行的顺序是:FlinkYarnSess

Re: flink 历史数据join

2020-05-15 文章 zhisheng
看看 Flink UI 上 作业 task 的 sent 和 receive 的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经 join 完了,等 checkpoint 也 complete 完成了即可以停掉作业。 实在不放心,不知道啥时候跑完,可以晚上开始跑,第二天白天再去看看就好了 jimandlice 于2020年5月15日周五 下午7:38写道: > 是的 我想用datastrem 来做 join停的话 需要注意什么 > > > > > | | > jimandlice > | > | > 邮箱:jimandl...@163.co

回复:flink 历史数据join

2020-05-15 文章 jimandlice
是的 我想用datastrem 来做 join停的话 需要注意什么 | | jimandlice | | 邮箱:jimandl...@163.com | Signature is customized by Netease Mail Master 在2020年05月15日 19:36,zhisheng 写道: 所以现在纠结的是使用 DataStream 还是 DataSet ? 可以使用 DataStream,作业 join 完了停掉作业就行了。 小黑 于2020年5月15日周五 下午3:28写道: > > 先工作上有一个需求 2个数据源 一个是mysql 一个是Hb

Re: 回复:怎么排查taskmanager频繁挂掉的原因?

2020-05-15 文章 zhisheng
可以去 yarn 上找找 jobmanager 的日志,挂掉的作业,他的 jobmanager 日志应该还在的 Jeff 于2020年5月15日周五 下午3:28写道: > > > > 不是,是用per-job方式提交的 > > > > > > > > > > > > > > > 在 2020-05-15 14:14:20,"shao.hongxiao" <17611022...@163.com> 写道: > >你的是batch 模式吗 > > > > > > > > > >| | > >邵红晓 > >| > >| > >邮箱:17611022...@163.com > >| > >

Re: flink 历史数据join

2020-05-15 文章 zhisheng
所以现在纠结的是使用 DataStream 还是 DataSet ? 可以使用 DataStream,作业 join 完了停掉作业就行了。 小黑 于2020年5月15日周五 下午3:28写道: > > 先工作上有一个需求 2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 > 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 > 是用datatream还是dataset 没有一个很好的 解决方案 望给与回复 > > > > >

Re: flink1.10 ddl metric 不显示

2020-05-15 文章 zhisheng
是不是因为作业chain在一起了,所以才看不到的? 了不起的盖茨比 <573693...@qq.com> 于2020年5月15日周五 下午3:22写道: > DDL(source sink 都是kafka-connect) metric 不展示数据,比如接收了多少数据等

Re: Flink-SQL on yarn 的bug

2020-05-15 文章 zhisheng
这个应该不是 bug,如果用代码写,在定义了事件时间的时候,也是要加水印的,否则无法触发窗口的 trigger guaishushu1...@163.com 于2020年5月15日周五 下午5:36写道: > insert into t_report_realtime_fangxin2_order1 > > SELECT date_format(TUMBLE_END(w_ts, INTERVAL '60' SECOND),'-MM-dd') as > summary_date, > date_format(TUMBLE_END(w_ts, INTERVAL '60' SECON

Re: [ANNOUNCE] Apache Flink 1.10.1 released

2020-05-15 文章 Dian Fu
Thanks Yu for managing this release and everyone else who made this release possible. Good work! Regards, Dian > 在 2020年5月15日,下午6:26,Till Rohrmann 写道: > > Thanks Yu for being our release manager and everyone else who made the > release possible! > > Cheers, > Till > > On Fri, May 15, 2020 a

Re: [ANNOUNCE] Apache Flink 1.10.1 released

2020-05-15 文章 Till Rohrmann
Thanks Yu for being our release manager and everyone else who made the release possible! Cheers, Till On Fri, May 15, 2020 at 9:15 AM Congxian Qiu wrote: > Thanks a lot for the release and your great job, Yu! > Also thanks to everyone who made this release possible! > > Best, > Congxian > > > Y

Flink-SQL on yarn 的bug

2020-05-15 文章 guaishushu1...@163.com
insert into t_report_realtime_fangxin2_order1 SELECT date_format(TUMBLE_END(w_ts, INTERVAL '60' SECOND),'-MM-dd') as summary_date, date_format(TUMBLE_END(w_ts, INTERVAL '60' SECOND), '-MM-dd hh') as summary_hour, date_format(TUMBLE_END(w_ts, INTERVAL '60' SECOND), '-MM-dd hh:mm') as

Flink1.10.1关于CliFronted命令行解析顺序引发的BUG

2020-05-15 文章 111
Hi, 今天再升级Flink1.10.0到Flink1.10.1时,发现我们搭建的开发系统在使用YarnSession模式时无法正常工作,目前的架构是: [自己的平台]—发送sql--> [sql-gateway]—提交jobgraph-->[yarn] 跟踪代码发现,sql-gateway在启动时,需要调用CliFronted的loadCustomCommandLines来解析命令行参数。 在1.10.0版本中,命令行的顺序是:FlinkYarnSessionCLI, ExecutorCLI, DefaultCLI 在1.10.1版本中,命令行的顺序是:ExecutorCL

Re:Re: 有什么方式可以获得各个task占用内存情况呢

2020-05-15 文章 Jeff
好的,谢谢 在 2020-05-15 14:48:15,"Xintong Song" 写道: >Hi Jeff, > >Flink 目前没有 task 级别的内存统计。原因是运行在同一个 JVM >进程中的不同线程的内存开销,是很难区分开的。如果真要逐个线程进行内存分析,代价会比较高,不适合在运行时进行统计。如果需要对 task >的内存开销进行深入分析的话,可能需要借助一些 profiling 工具对某一时刻的 heap dump 进行分析。 > >Thank you~ > >Xintong Song > > > >On Fri, May 15, 202

Re: 有什么方式可以获得各个task占用内存情况呢

2020-05-15 文章 Xintong Song
Hi Jeff, Flink 目前没有 task 级别的内存统计。原因是运行在同一个 JVM 进程中的不同线程的内存开销,是很难区分开的。如果真要逐个线程进行内存分析,代价会比较高,不适合在运行时进行统计。如果需要对 task 的内存开销进行深入分析的话,可能需要借助一些 profiling 工具对某一时刻的 heap dump 进行分析。 Thank you~ Xintong Song On Fri, May 15, 2020 at 2:52 PM Jeff wrote: > hi all, > > > 我用per-job方式提交了一批任务,请问有什么方式知道每个任务内存消

回复:flink 历史数据join

2020-05-15 文章 shao.hongxiao
底层原理都一样,你要封装接口动态生成映射表,sql等 | | 邵红晓 | | 邮箱:17611022...@163.com | 签名由网易邮箱大师定制 在2020年5月15日 15:42,jimandlice 写道: 2个不同源的历史数据同步 需要join 这个不是给开发者用的 是客户用的 客户只要选择2个数据源的2个表 join 结果保存 难道还要用sql来做么 | | jimandlice | | 邮箱:jimandl...@163.com | Signature is customized by Netease Mail Master 在2020年05月15日 15

回复:flink 历史数据join

2020-05-15 文章 jimandlice
2个不同源的历史数据同步 需要join 这个不是给开发者用的 是客户用的 客户只要选择2个数据源的2个表 join 结果保存 难道还要用sql来做么 | | jimandlice | | 邮箱:jimandl...@163.com | Signature is customized by Netease Mail Master 在2020年05月15日 15:39,shao.hongxiao 写道: 1. 搞hive映射表,直接使用spark或者hive sql | | 邵红晓 | | 邮箱:17611022...@163.com | 签名由网易邮箱大师定制 在202

回复:flink 历史数据join

2020-05-15 文章 shao.hongxiao
1. 搞hive映射表,直接使用spark或者hive sql | | 邵红晓 | | 邮箱:17611022...@163.com | 签名由网易邮箱大师定制 在2020年5月15日 15:31,jimandlice 写道: 如果要集成公司产品呢 | | jimandlice | | 邮箱:jimandl...@163.com | Signature is customized by Netease Mail Master 在2020年05月15日 15:30,shao.hongxiao 写道: 可以直接注册表,然后写sql来弄 | | 邵红晓 | | 邮箱:176

求教flink自定义python udf时TIMESTAMP类型问题

2020-05-15 文章 元灵
大佬们: 有没有遇到过使用python udf的时候 DataTypes.TIMESTAMP()类型不匹配的问题啊 自定义代码是这个: @udf(input_types=[DataTypes.INT(), DataTypes.INT(), DataTypes.TIMESTAMP()], result_type=DataTypes.INT()) def add_new(i, j, k): return i + j#k没用我就是测试一下 使用的时候: st_env.from_pa

回复:flink 历史数据join

2020-05-15 文章 jimandlice
如果要集成公司产品呢 | | jimandlice | | 邮箱:jimandl...@163.com | Signature is customized by Netease Mail Master 在2020年05月15日 15:30,shao.hongxiao 写道: 可以直接注册表,然后写sql来弄 | | 邵红晓 | | 邮箱:17611022...@163.com | 签名由 网易邮箱大师 定制 在2020年05月15日 13:17,jimandlice 写道: 就是要用api的方式来继承 不是直接操作sql那样来出来 | | jimandlice

回复:flink 历史数据join

2020-05-15 文章 shao.hongxiao
可以直接注册表,然后写sql来弄 | | 邵红晓 | | 邮箱:17611022...@163.com | 签名由 网易邮箱大师 定制 在2020年05月15日 13:17,jimandlice 写道: 就是要用api的方式来继承 不是直接操作sql那样来出来 | | jimandlice | | 邮箱:jimandl...@163.com | Signature is customized by Netease Mail Master 在2020年05月15日 11:38,jimandlice 写道: api 做 还是用table sql 来做 谁做比较好集成 因为

Re:回复:怎么排查taskmanager频繁挂掉的原因?

2020-05-15 文章 Jeff
不是,是用per-job方式提交的 在 2020-05-15 14:14:20,"shao.hongxiao" <17611022...@163.com> 写道: >你的是batch 模式吗 > > > > >| | >邵红晓 >| >| >邮箱:17611022...@163.com >| > >签名由 网易邮箱大师 定制 > >在2020年05月15日 15:05,Jeff 写道: >hi all, >最近上线一批新任务后taskmanager频繁挂掉,很可能是OOM问题,操作系统日志里没找到相关记录,flink日志只找到如下部分,但还是不确定是什么原因

flink 历史数据join

2020-05-15 文章 小黑
先工作上有一个需求 2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 是用datatream还是dataset 没有一个很好的 解决方案 望给与回复

flink1.10 ddl metric ??????

2020-05-15 文章 ??????????????
DDL(source sink kafka-connect) metric

回复:怎么排查taskmanager频繁挂掉的原因?

2020-05-15 文章 jimandlice
大佬 也看看我的问题呀 | | jimandlice | | 邮箱:jimandl...@163.com | Signature is customized by Netease Mail Master 在2020年05月15日 15:14,shao.hongxiao 写道: 你的是batch 模式吗 | | 邵红晓 | | 邮箱:17611022...@163.com | 签名由 网易邮箱大师 定制 在2020年05月15日 15:05,Jeff 写道: hi all, 最近上线一批新任务后taskmanager频繁挂掉,很可能是OOM问题,操作系统日志里没找到相关

Re: [ANNOUNCE] Apache Flink 1.10.1 released

2020-05-15 文章 Congxian Qiu
Thanks a lot for the release and your great job, Yu! Also thanks to everyone who made this release possible! Best, Congxian Yu Li 于2020年5月14日周四 上午1:59写道: > The Apache Flink community is very happy to announce the release of Apache > Flink 1.10.1, which is the first bugfix release for the Apach

回复:怎么排查taskmanager频繁挂掉的原因?

2020-05-15 文章 shao.hongxiao
你的是batch 模式吗 | | 邵红晓 | | 邮箱:17611022...@163.com | 签名由 网易邮箱大师 定制 在2020年05月15日 15:05,Jeff 写道: hi all, 最近上线一批新任务后taskmanager频繁挂掉,很可能是OOM问题,操作系统日志里没找到相关记录,flink日志只找到如下部分,但还是不确定是什么原因,请问要怎么确定原因呢? id, channel, rowtime) -> select: (appid, channel, rowtime, 1 AS $f3) b91d36766995398a9b0c9416ac1fb

怎么排查taskmanager频繁挂掉的原因?

2020-05-15 文章 Jeff
hi all, 最近上线一批新任务后taskmanager频繁挂掉,很可能是OOM问题,操作系统日志里没找到相关记录,flink日志只找到如下部分,但还是不确定是什么原因,请问要怎么确定原因呢? id, channel, rowtime) -> select: (appid, channel, rowtime, 1 AS $f3) b91d36766995398a9b0c9416ac1fb6bc. 2020-05-14 08:55:30,504 ERROR org.apache.flink.runtime.taskmanager.Task - Task did not exit