Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk
Hi,您好,请问如何拼接url可以看到已经结束了的任务的tm日志文件呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk
您好,请问一下,如何通过拼接url获取已经结束的任务的tm日志呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink-1.11.2提交到yarn一直处于CREATED中

2020-11-03 文章 admin
会不会是这个问题 https://issues.apache.org/jira/browse/FLINK-19151 > 2020年11月4日 下午2:42,酷酷的浑蛋 写道: > > taskmanager.memory.process.size: > 1728m1728改为2048就好了,这是啥原理taskmanager.memory.process.size: 2048m > > > > 在2020年11月4日 11:47,Yangze Guo 写道: > 有更完整的am日志么?需要看一下rm那边资源申请情况。 > > Best, > Yangze Guo > >

Re: Re: 不同的算子能共用一个状态吗?

2020-11-03 文章 hl9...@126.com
感谢。我这个场景中op1和op2是串行的,那只能把op1的状态也发到下游的op2。 hl9...@126.com 发件人: Qi Kang 发送时间: 2020-11-04 14:53 收件人: user-zh 主题: Re: 不同的算子能共用一个状态吗? Hi, Flink不支持算子共享状态。如果你的op1和op2是并行的,就只能利用外部存储间接地共享状态数据。如果是串行的(op2在op1的下游),也可以尝试考虑把op1产生的状态数据作为流元素发送到op2中去。希望对你有所帮助。 > On Nov 4, 2020, at 14:48, hl9...@126.com

Re: 不同的算子能共用一个状态吗?

2020-11-03 文章 Qi Kang
Hi, Flink不支持算子共享状态。如果你的op1和op2是并行的,就只能利用外部存储间接地共享状态数据。如果是串行的(op2在op1的下游),也可以尝试考虑把op1产生的状态数据作为流元素发送到op2中去。希望对你有所帮助。 > On Nov 4, 2020, at 14:48, hl9...@126.com wrote: > > Hi,all: > 我定义了两个flatmap算子(op1和op2),op1里面定义了一个MapState变量,我想在op2里面直接用这个状态,可以吗? > 我感觉是不行的,没有找到相关的api。请各位大佬帮忙明确一下。 > > > >

不同的算子能共用一个状态吗?

2020-11-03 文章 hl9...@126.com
Hi,all: 我定义了两个flatmap算子(op1和op2),op1里面定义了一个MapState变量,我想在op2里面直接用这个状态,可以吗? 我感觉是不行的,没有找到相关的api。请各位大佬帮忙明确一下。 hl9...@126.com

回复: flink-1.11.2提交到yarn一直处于CREATED中

2020-11-03 文章 酷酷的浑蛋
taskmanager.memory.process.size: 1728m1728改为2048就好了,这是啥原理taskmanager.memory.process.size: 2048m 在2020年11月4日 11:47,Yangze Guo 写道: 有更完整的am日志么?需要看一下rm那边资源申请情况。 Best, Yangze Guo On Wed, Nov 4, 2020 at 11:45 AM 酷酷的浑蛋 wrote: 下面是报错,说是没有资源,但资源是充足的,之后我把版本改为1.11.1,任务就可以运行了

Re: 使用BroadcastStream后checkpoint失效

2020-11-03 文章 restart
感谢,改成定时确实流状态时RUNNING了 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 使用BroadcastStream后checkpoint失效

2020-11-03 文章 restart
finish状态导致checkpoint不触发,我看了源码,在CheckpointCoordinator.triggerCheckpoint方法有判断: -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: flink-1.10 checkpoint 偶尔报 NullPointerException

2020-11-03 文章 Congxian Qiu
Hi 这个问题看上去是特定 JDK 版本上,某些写法下对象被提前回收了,猜测和 gc 有关。之前看到一个可能相关的帖子[1] [1] https://cloud.tencent.com/developer/news/564780 Best, Congxian 蒋佳成(Jiacheng Jiang) <920334...@qq.com> 于2020年11月4日周三 上午11:33写道: > hi,这个问题我也遇到了,这个问题的根本原因是啥呢? > > > > --原始邮件-- > 发件人:

Re: flink-1.11.2提交到yarn一直处于CREATED中

2020-11-03 文章 Yangze Guo
有更完整的am日志么?需要看一下rm那边资源申请情况。 Best, Yangze Guo On Wed, Nov 4, 2020 at 11:45 AM 酷酷的浑蛋 wrote: > > > > 下面是报错,说是没有资源,但资源是充足的,之后我把版本改为1.11.1,任务就可以运行了 > org.apache.flink.runtime.jobmanager.scheduler.NoResourceAvailableException: > Could not allocate the required slot within slot request timeout.

回复: flink-1.11.2提交到yarn一直处于CREATED中

2020-11-03 文章 酷酷的浑蛋
下面是报错,说是没有资源,但资源是充足的,之后我把版本改为1.11.1,任务就可以运行了 org.apache.flink.runtime.jobmanager.scheduler.NoResourceAvailableException: Could not allocate the required slot within slot request timeout. Please make sure that the cluster has enough resources. at

Re: Re: Re:flink任务挂掉后自动重启

2020-11-03 文章 bradyMk
谢谢您的解答,我现在已经尝试用这种思路去搞了 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: Re:flink任务挂掉后自动重启

2020-11-03 文章 bradyMk
您好,除了手动自己去kill掉任务,我这边经常会有类似丢节点或者写hbase时节点连不上导致整个job挂掉的问题,类似: Caused by: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 66 actions: Operation Timeout: 66 times, servers with issues: 172.xx.x.xx,16020,1597989428451 at

??????Re:Re: flink-1.10 checkpoint ?????? NullPointerException

2020-11-03 文章 ??????(Jiacheng Jiang)
hi ---- ??: "chenkaibit"https://github.com/apache/flink/blob/release-1.10.0/flink-streaming-java/src/main/java/org/apache/flink/streaming/runtime/tasks/StreamTask.java#L1421

Re: flink-1.11.2提交到yarn一直处于CREATED中

2020-11-03 文章 Guowei Ma
hi, 有看过am的日志没有,日志中有报什么异常么? Best, Guowei On Wed, Nov 4, 2020 at 11:04 AM 酷酷的浑蛋 wrote: > > flink-1.11.2提交到yarn一直处于CREATED中,不会运行,flink-1.11.1没问题 > 资源已经分配 > >

flink-1.11.2提交到yarn一直处于CREATED中

2020-11-03 文章 酷酷的浑蛋
flink-1.11.2提交到yarn一直处于CREATED中,不会运行,flink-1.11.1没问题 资源已经分配

Re:FlinkSLQ双流join使用LAST_VALUE + INTERVAL JOIN时遇到问题

2020-11-03 文章 xiao cai
Hi wang: 非常感谢解答,我先顺着你的思路去详细了解下这个过程。 Good luck. Best, xiao 原始邮件 发件人: hailongwang<18868816...@163.com> 收件人: user-zh 发送时间: 2020年11月3日(周二) 21:42 主题: Re:FlinkSLQ双流join使用LAST_VALUE + INTERVAL JOIN时遇到问题 Hi xiao, 从报错来看,这个 SQL 应该是 match 了 `StreamExecJoinRule`,而 regular join 不能有 rowtime 属性。 应该是因为你的

Re: TUMBLE函数不支持 回撤流

2020-11-03 文章 LakeShen
Hi 夜思流年梦, 看下你的 dwd_XXX 这张表的类型,是 append 数据流,还是 retract 数据流。 如果是 retract ,应该就不能再上面进行窗口计算了。 Best, LakeShen 史 正超 于2020年11月3日周二 下午6:34写道: > canal-json 的format也是会有delete 和update的数据的,同样changelog-json也是。他们的都支持 INSERT > UPDATE DELETE, 相关代码如下: > > @Override > public ChangelogMode

Re: Re: Re:flink任务挂掉后自动重启

2020-11-03 文章 LakeShen
Hi bradyMk, 整体上有两种方法: 1. 任务被 Kill 掉后,拉起时,从checkpoint 恢复,这个就需要知道任务结束之前,最新一次的 checkpoint 信息,然后从这开始恢复。 Flink 任务 checkpoint 的路径是 checkpoint 根路径 + job_id 组成的路径,所以你可以从这个目录找到 chk-xx 最新的 checkpoint ,然后进行恢复即可。 当然,还有其他方法知道任务被kill 前,最新一次的 checkpoint 信息。你选择一种适合你的方式就行,然后做成自动化的,降低运维成本。 2. 任务被

Re:kafka table connector eventTime的问题

2020-11-03 文章 hailongwang
Hi marble, 使用 Datastream 开发的话,Kafka connector 的使用可参考文献1[1];EventTime以及WaterMark的使用可以参考文献2[2]。 对应的中文文档对应在文献3和4. [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/connectors/kafka.html [2]

Re:FlinkSLQ双流join使用LAST_VALUE + INTERVAL JOIN时遇到问题

2020-11-03 文章 hailongwang
Hi xiao, 从报错来看,这个 SQL 应该是 match 了 `StreamExecJoinRule`,而 regular join 不能有 rowtime 属性。 应该是因为你的 kafkaSouce1 table 的 rowtime 经过 group by 后使用了 last_value 导致不是时间属性类型->`TimeIndicatorRelDataType`,而在 rule 进行判断后没有 windowBounds,所以就报了现在这个错误了。 Best, Hailong Wang 在 2020-11-03 18:27:51,"xiao cai" 写道:

Re: 退订

2020-11-03 文章 Xingbo Huang
Hi, 退订请发邮件到 user-zh-unsubscr...@flink.apache.org 详细的可以参考 [1] [1] https://flink.apache.org/zh/community.html#section-1 Best, Xingbo 夏明 于2020年11月3日周二 下午8:01写道: > 退订

Re: 使用BroadcastStream后checkpoint失效

2020-11-03 文章 JasonLee
hi checkpoint目前只能用在流数据上,你读取的mongo数据是一个有界的数据源,所以是不支持做checkpoint就会导致整个任务的checkpoint失败,你可以把读取mongo做一个定时读取,这样应该就可以完成checkpoint. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 使用BroadcastStream后checkpoint失效

2020-11-03 文章 赵一旦
finish为啥会导致ckpt不触发。 restart 于2020年11月3日周二 上午10:11写道: > 问题:job在接入广播流后,checkpint失效。 > > 描述:广播流的数据来源两个地方,一个是从mongo,一个是从kafka,数据进行union,同时指定Watermark,返回Watermark.MAX_WATERMARK(用于与主数据源connect后,窗口聚合水印更新),job部署后,来源mongo的数据源状态会变为FINISHED。网上有查过,说subtask >

退订

2020-11-03 文章 夏明
退订

FlinkSLQ双流join使用LAST_VALUE + INTERVAL JOIN时遇到问题

2020-11-03 文章 xiao cai
Hi : flink 版本 1.11.2 问题:双流Join时,使用last_value + interval join,报错:Rowtime attributes must not be in the input rows of a regular join. As a workaround you can cast the time attributes of input tables to TIMESTAMP before. 代码: // stream 1 create table kafkaSource1 ( id int, field_1 int, field_2

Re:Re: Re:flink任务挂掉后自动重启

2020-11-03 文章 hailongwang
Hi bradyMk, 在 on yarn 的模式下,如果某个container 被kill 了,是会重新拉起的。 至于整个 job 被kill 了,这种情况应该是自己手动显示的去停止把? 最于重启的话,重启次数可以设置个非常大的数字(~无限重启),但是一旦 job 一直这么重启,我个人任务就算重新拉起也是没用的把? 这个时候应该结合平台的告警策略来进行人工干预了。 Best, Hailong Wang 在 2020-11-03 09:32:50,"bradyMk" 写道:

Re: 【PyFlink】对于数据以Csv()格式写入kafka报错,以及使用python udf时无法启动udf

2020-11-03 文章 Xingbo Huang
Hi, 1. python demo.py运行正常,说明代码和你本地执行的python环境都没有问题。 2. 你现在给的错误和你前一封邮件给的那个编译报错不是一个报错,一个一个问题来。 3. 你这个运行报错是你集群运行环境里面的python环境的beam包冲突了,就是我一开始回答的,你去得去检查集群运行环境里面的python环境是否符合要求。 Best, Xingbo jing 于2020年11月3日周二 下午6:09写道: > 1. 重新安装之后并没有解决。 > 本地提交和远程提交都有问题。用 python demo.py 的方式是正常的。 > 2. 作业是已经提交了。 >

回复: TUMBLE函数不支持 回撤流

2020-11-03 文章 史 正超
canal-json 的format也是会有delete 和update的数据的,同样changelog-json也是。他们的都支持 INSERT UPDATE DELETE, 相关代码如下: @Override public ChangelogMode getChangelogMode() { return ChangelogMode.newBuilder() .addContainedKind(RowKind.INSERT) .addContainedKind(RowKind.UPDATE_BEFORE)

Re: 【PyFlink】对于数据以Csv()格式写入kafka报错,以及使用python udf时无法启动udf

2020-11-03 文章 jing
1. 重新安装之后并没有解决。 本地提交和远程提交都有问题。用 python demo.py 的方式是正常的。 2. 作业是已经提交了。 有在提示 Job has been submitted with JobID 05fcaebfec3aca731df408418ebea80c 然后立马会出现下面的错误: 即:Caused by: java.lang.NoClassDefFoundError: Could not initialize class org.apache.beam.sdk.options.PipelineOptionsFactory Traceback (most

Re: 【PyFlink】对于数据以Csv()格式写入kafka报错,以及使用python udf时无法启动udf

2020-11-03 文章 Xingbo Huang
Hi, 1. 之前那个报错在重新安装完pyflink之后有没有解决(本地python demo.py是否正常);之前那个报错是本地运行就报错,还是在远程提交才报的错。 2. 现在这个报错是作业提交时编译阶段就报错了,还没到作业运行。在作业提交的console界面是可以看到错误日志的,可否提供一下错误日志。 Best, Xingbo jing 于2020年11月3日周二 下午5:36写道: > Hi, xingbo. > 在检查之后,并没有发现什么 beam 的其他版本,flink-python 版本是 2.11-1.11.1。不管是 pip install >

TUMBLE函数不支持 回撤流

2020-11-03 文章 夜思流年梦
这个问题上次给淹没了,就把这个在拿出来问下,看上次admin的回复感觉像是 支持的,不知道是我用法有问题还是flink不支持此特性; 原sql select 0 as id , HOUR(TUMBLE_START(proctime ,interval '1' HOUR)) as ftime ,count(case when write_time >= DATE_FORMAT(LOCALTIMESTAMP, '-MM-dd') then memberid else NULL end) as paynum_h ,round(sum(case when

RT,如何动态提交管理Flink Job

2020-11-03 文章 林影
正如Apache Livy可以通过RestAPI 提交job一样,Flink有类似的方式吗? 我们的场景现在是根据业务条件可以转化成Flink SQL,想使用和livy类似的方式动态提交Job,社区有人实践过吗

Re: 【PyFlink】对于数据以Csv()格式写入kafka报错,以及使用python udf时无法启动udf

2020-11-03 文章 jing
Hi, xingbo. 在检查之后,并没有发现什么 beam 的其他版本,flink-python 版本是 2.11-1.11.1。不管是 pip install apache-beam==2.19.0 还是没有,都是一样的问题。 用 udf 的示例代码也不通过。本地 python demo.py 是可以正常的。 只有是 flink run -m localhost:8081 -py demo.py 是一直在出现这种问题。 pyflink-shell.sh remote localhost 8081 也试过了。一样的结果。 示例代码如下: import logging import

Re: yarn部署模式kerberos问题

2020-11-03 文章 Yangze Guo
你好, 请问描述中的"在客户端通过Kerberos权限认证指定用户"指的具体是什么操作? -yD security.kerberos.login.principal=xxx -yD security.kerberos.login.keytab=xxx 这两个参数的作用是在Flink中enable HadoopModule,这个Module利用UserGroupInformation来处理Kerberos认证。同时在Yarn部署中,会帮你把这个Keytab上传到yarn中的container里。 可以参照社区文档再看一下[1] [1]

yarn部署模式kerberos问题

2020-11-03 文章 amen...@163.com
hi everyone, 最近使用flink-1.11.1在通过per-job方式提交任务到yarn队列的时候,碰到了kerberos权限认证问题。 具体描述:在客户端通过Kerberos权限认证指定用户,提交flink任务到yarn队列,正常提交,但是当任务被yarn分配到指定节点进行执行时,根据报错信息来看,是因为需要操作hdfs(创建检查点目录和保存点目录,因为我使用FileSystem StateBackend)而并没有获得操作hdfs的权限,被kerberos常规的拦截了。