Re: taskmanager.out配置滚动

2020-12-21 文章 李杰
Hi, 这个功能我们之前做过,可以看下这里。 https://issues.apache.org/jira/browse/FLINK-20713 zilong xiao 于2020年12月3日周四 下午7:50写道: > 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗? >

flink 1.11.2 创建hive表的问题

2020-12-21 文章 曹武
大佬好,我在使用create table if not exists创建hive表时,对于已存在的hive表,在hive的日志中会抛出AlreadyExistsException(message:Table bm_tsk_001 already exists异常,查看源码发现if not exists貌似只是用于判断捕获异常后是否抛出,对于这个问题有建议的解决方案嘛? -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink 1.11.2 创建hive表的问题

2020-12-21 文章 曹武
大佬好,我在使用create table if not exists创建hive表时,对于已存在的hive表,在hive的日志中会抛出AlreadyExistsException(message:Table bm_tsk_001 already exists异常,查看源码发现if not exists貌似只是用于判断捕获异常后是否抛出,对于这个问题有建议的解决方案嘛? -- Sent from: http://apache-flink.147419.n8.nabble.com/

?????? flink-shaded-hadoop-2-uber????????????

2020-12-21 文章 liujian
Thanks,flink-confhistory server,??hdfs??,??web ui??, ---- ??:

flink1.10 广播流更新卡住

2020-12-21 文章 洪雪芬
Hi! 在使用flink广播流实现配置定时更新的过程中,出现下游算子并行度大于1时,下游算子获取更新到的广播流卡住的情况,即广播流算子持续发送数据,但下游算子只接收到前一小部分数据,然后就没有接收到新数据的情况,但无报错日志。 但该问题在本地IDEA运行时无法复现,提交到集群上以yarn-cluster模式运行时则会出现。 大家有没有遇到过类似的情况?是什么原因导致这样的问题,有什么解决方案吗?

java.lang.IllegalStateException: Trying to access closed classloader.

2020-12-21 文章 jy l
Hi: 我在Idea里面运行我的flink程序,报了如下异常: Exception in thread "Thread-22" java.lang.IllegalStateException: Trying to access closed classloader. Please check if you store classloaders directly or indirectly in static fields. If the stacktrace suggests that the leak occurs in a third party library and cannot

pyflink1.12 进行多表关联后的结果类型是TableResult,如何转为Table类型

2020-12-21 文章 肖越
通过sql进行左连接查询,sql语句为: sql = ''' Insert into print_sink select a.id, a.pf_id, b.symbol_id from a \ left join b on b.day_id = a.biz_date where a.ccy_type = 'AC' and \ a.pf_id = '1030100122' and b.symbol_id = '2030004042' and a.biz_date between '20160701' and '20170307' '''

Re: yarn application模式提交任务失败

2020-12-21 文章 Yang Wang
silence的回答是对的 如果用-t参数,搭配的都是-D来引导的,不需要prefix,文档里面也是[1] 这个和之前-m yarn-cluster是不一样的,以前的方式需要-yD来引导 [1]. https://ci.apache.org/projects/flink/flink-docs-master/deployment/resource-providers/yarn.html#application-mode Best, Yang silence 于2020年12月21日周一 上午10:53写道: > 应该是-D不是-yD > > > > -- > Sent from:

Re: Flink1.11.1版本Application Mode job on K8S集群,too old resource version问题

2020-12-21 文章 Yang Wang
我之前在另一个邮件里面回复过,我再拷贝过来。 目前我已经建了一个JIRA来跟进too old resource version的问题[1] 在Flink里面采用了Watcher来监控Pod的状态变化,当Watcher被异常close的时候就会触发fatal error进而导致JobManager的重启 我这边做过一些具体的测试,在minikube、自建的K8s集群、阿里云ACK集群,稳定运行一周以上都是正常的。这个问题复现是通过重启 K8s的APIServer来做到的。所以我怀疑你那边Pod和APIServer之间的网络是不是不稳定,从而导致这个问题经常出现。 [1].

Re: flink-shaded-hadoop-2-uber版本如何选择

2020-12-21 文章 Yang Wang
history-server和native k8s没有关系的,如果你想使用,就需要用一个deployment单独部署history-server在K8s集群内 native k8s覆盖的场景是Flink任务如何原生地提交到K8s集群内 Best, yang liujian <13597820...@qq.com> 于2020年12月21日周一 下午8:16写道: > Thanks, 使用你下面的docker方式我测试确实可以,但是不知道Native K8s如何来操作,可以详细说一下 > 我现在是Dockerfile如下两种情况都试过 > > > COPY

Re: Native Kubernetes 需要访问HDFS

2020-12-21 文章 Yang Wang
对,是的,自动ship hadoop配置是从1.11开始支持的 在1.10的版本你需要把配置打到镜像里面 Best, Yang Akisaya 于2020年12月21日周一 下午5:02写道: > 1.10 版本好像还没有支持,看了下 1.10 代码里创建 cm 的时候没有去读取 hadoop 配置 > > Yang Wang 于2020年12月19日周六 上午12:18写道: > > > 你可以在Flink client端设置HADOOP_CONF_DIR环境变量即可,这样会自动ship > > hadoop的配置并且挂载给JobManager和TaskManager的 >

Re: Application Mode job on K8S集群,无法缩容问题

2020-12-21 文章 Yang Wang
是的,如果CA不能直接释放Pod的话,那是会导致它没有办法被驱逐 Flink TaskManager Pod的生命周期都是交给JobManager管理的,并且不会重启,挂了之后就会申请新的 和CA结合起来,是会有你所说的限制。不过如果能够带上annotation标识pod可以被驱逐的话,不清楚CA是否可以work Best, Yang lichunguang 于2020年12月21日周一 下午4:16写道: > Yang Wang你好: > 我想表达的意思是: > Native Flink on K8s采用单Pod的申请资源的方式,和K8s自动伸缩机制有些冲突。 > >

Re: flink1.11.2写hive分区表,hive识别不到分区

2020-12-21 文章 Rui Li
具体是怎么写hive的呢? On Mon, Dec 21, 2020 at 11:28 PM 赵一旦 wrote: > 即使不是flink写入,其他方式写入也需要这样做的哈。 > > r pp 于2020年12月21日周一 下午9:28写道: > > > 程序中,创建表后,执行命令。 > > > > kingdomad 于2020年12月21日周一 下午4:55写道: > > > > > > > > flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。 > > > 需要执行msck

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 xiao cai
Hi 可以考虑使用yarn的node label特性,将flink的任务提交到特定的node上 Original Message Sender: r pp Recipient: user-zh Date: Monday, Dec 21, 2020 21:25 Subject: Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点 嗯,指定几台机子 用于使用flink 运行,为什么 不在yarn 为flink 专门制定 一个队列呢?需要 网络隔离 。。。内网速度多大? 于2020年12月21日周一 下午5:48写道: > 通过yarn

Re: 请教关于KeyedState的恢复机制

2020-12-21 文章 赵一旦
目前来说,按照我讲的方式去实现应该不难。我怕的是flink在恢复keyedState的时候,无法适应我的这种partition机制。 现有的机制,restore的时候实际是 keyGroup 到window并行实例之间的一个重分配。 换成我的partition机制后,能否还正常restore呢? 赵一旦 于2020年12月22日周二 上午12:03写道: > 如题,目前对于OperatorState来说,API层面有2个接口,即CheckpointedFunction和ListCheckpointed > 。即UDF中有入口对restore做自定义。 > >

Re: flink1.11.2写hive分区表,hive识别不到分区

2020-12-21 文章 赵一旦
即使不是flink写入,其他方式写入也需要这样做的哈。 r pp 于2020年12月21日周一 下午9:28写道: > 程序中,创建表后,执行命令。 > > kingdomad 于2020年12月21日周一 下午4:55写道: > > > > flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。 > > 需要执行msck repair table修复分区表后,hive才能读取到数据。 > > 求助大佬,要如何解决。 > > > > > > > > > > > > > > > > > >

Re: Re: 如何通过现实时间控制事件时间的窗口

2020-12-21 文章 赵一旦
大概懂了,但还不够清晰。 因为tumble window中,如果是5s窗口,则是按照0-5,5-10,10-15这样的。不是基于第一条数据的。 如果你要按照第一条数据到达开始开窗,那就不要使用flink的window机制。 直接基于process function提供的底层功能,自己通过timeservice实现。 再或者如果需要使用window,则使用global window,自己定义window的trigger触发机制即可(比如进来第一条数据,就设置定时器,定时器到了则触发窗口计算然后清理窗口状态)。 guoliubi...@foxmail.com 于2020年12月21日周一

Re: 请教一下flink1.12可以指定时间清除state吗?

2020-12-21 文章 赵一旦
窗口不会重复?重叠?是否重叠取决于你使用什么窗口。tumble窗口是不重叠的。 三色堇 <25977...@qq.com> 于2020年12月21日周一 上午8:47写道: > 大佬,按天开窗滑动窗口会重复吗?滚动好像不行。 > > > > > --原始邮件-- > 发件人: > "user-zh" >

Re: 执行mvn构建错误 编译flink1.9遇到了相同的问题 请问解决了吗?我编译最新代码没这个问题

2020-12-21 文章 r pp
编译问题,大多包没下好,多来几次 mvn clean install -DskipTests -Drat.skip=true 亲测有效 shaoshuai <762290...@qq.com> 于2020年12月21日周一 下午4:53写道: > [ERROR] Failed to execute goal > org.apache.maven.plugins:maven-compiler-plugin:3.8.0:testCompile > (default-testCompile) on project flink-parquet_2.11: Compilation

Re: flink1.11.2写hive分区表,hive识别不到分区

2020-12-21 文章 r pp
程序中,创建表后,执行命令。 kingdomad 于2020年12月21日周一 下午4:55写道: > flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。 > 需要执行msck repair table修复分区表后,hive才能读取到数据。 > 求助大佬,要如何解决。 > > > > > > > > > > > > > > > > > -- > > kingdomad > >

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 r pp
嗯,指定几台机子 用于使用flink 运行,为什么 不在yarn 为flink 专门制定 一个队列呢?需要 网络隔离 。。。内网速度多大? 于2020年12月21日周一 下午5:48写道: > 通过yarn label可以实现 > > -邮件原件- > 发件人: user-zh-return-10095-afweijian=163@flink.apache.org > 代表 yujianbo > 发送时间: 2020年12月21日 16:44 > 收件人: user-zh@flink.apache.org > 主题: Flink on yarn

Re: SQL执行模式

2020-12-21 文章 r pp
sql 的本质其实是 让用户不用关心 是流处理 还是 批处理,比如 ,计算 当天某个视频的点击总数。是一个累加结果,可以实时查询出变化。 但flink 不是一个存储系统,就会存在一个问题,使用sql 状态值 怎么办? 官博 都有说明,也说了哪些算子背后 适用于 Streaming or Batch or both。以及存在的使用注意事项 https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/ jiangjiguang719 于2020年12月21日周一 下午7:44写道: >

Re: 请教个Flink sql问题

2020-12-21 文章 占英华
学习了,感谢回复! > 在 2020年12月21日,20:39,hailongwang <18868816...@163.com> 写道: > >  > > > 不是的。在提交运行之后,如果那两个 insert 是从同一张表 select 出来的话,是会分流发送到 table1 和 table2,并没有先后顺序。 >> 在 2020-12-21 10:45:25,"占英华" 写道: >> 这样是不是第一条select和第二条的select出来的结果会有差异,因为执行第一条有耗时,第二条执行时查询的结果是在耗时后查询得到的 >> 在

Re:Re: 请教个Flink sql问题

2020-12-21 文章 hailongwang
不是的。在提交运行之后,如果那两个 insert 是从同一张表 select 出来的话,是会分流发送到 table1 和 table2,并没有先后顺序。 在 2020-12-21 10:45:25,"占英华" 写道: >这样是不是第一条select和第二条的select出来的结果会有差异,因为执行第一条有耗时,第二条执行时查询的结果是在耗时后查询得到的 > >> 在 2020年12月21日,11:14,hailongwang <18868816...@163.com> 写道: >> >>  >> >> 可以的,比如将结果写入table1,table2 …… >> Insert

?????? flink-shaded-hadoop-2-uber????????????

2020-12-21 文章 liujian
Thanks, docker??,??Native K8s??,?? Dockerfile?? COPY ./jar/flink-shaded-hadoop-2-uber-2.8.3-10.0.jar /opt/flink/lib/flink-shaded-hadoop-2-uber-2.8.3-10.0.jar ENTRYPOINT ["/docker-entrypoint.sh"] EXPOSE 6123 8081

SQL执行模式

2020-12-21 文章 jiangjiguang719
flink1.12版本中,streamAPI 通过 -Dexecution.runtime-mode 指定是批还是流 的执行模式,那么在SQL中如何指定呢

Re: pyflink1.12 连接Mysql报错 : Missing required options

2020-12-21 文章 Wei Zhong
Hi, 正如报错中提示的,with参数里需要的是"url"参数,你可以尝试将connector.url改成url试试看会不会报错了。 > 在 2020年12月21日,13:44,肖越 <18242988...@163.com> 写道: > > 在脚本中定义了两个源数据 ddl,但是第二就总会报缺option的问题,pyflink小白,求大神解答? > #DDL定义 > source_ddl2 = """CREATE TABLE ts_pf_sec_yldrate (id DECIMAL,pf_id VARCHAR,\ > >symbol_id

回复:请教一个flink消费多kafka topic如何进行数据分配的问题

2020-12-21 文章 Shuai Xia
Hi,可以看下KafkaTopicPartitionAssigner类的assign方式 是根据Topic名称哈希之后对并行度取余,加上分区值再次对并行度取余 最终的结果分配是存在不均匀 -- 发件人:bradyMk 发送时间:2020年12月21日(星期一) 17:40 收件人:user-zh 主 题:请教一个flink消费多kafka topic如何进行数据分配的问题 Hi~想请教一下大家: 现在我用flink消费5个不同的kafka

答复: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 afweijian
通过yarn label可以实现 -邮件原件- 发件人: user-zh-return-10095-afweijian=163@flink.apache.org 代表 yujianbo 发送时间: 2020年12月21日 16:44 收件人: user-zh@flink.apache.org 主题: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点 各位大佬好: 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? -- Sent from:

请教一个flink消费多kafka topic如何进行数据分配的问题

2020-12-21 文章 bradyMk
Hi~想请教一下大家: 现在我用flink消费5个不同的kafka topic,每个topic都有12个分区,所以我设置了60个并行度; env.setParallelism(60) 我认为程序设置的并行度是和topic的总分区一一对应的; 但是,程序运行后,我发现只有14个task有从topic消费到数据,其余消费数据量都为0,且有几个是每秒几千条,有几个是每秒几百条。所以现在很疑惑,flink消费多kafka topic到底是如何进行数据分配的呢? - Best Wishes -- Sent from:

Re: Native Kubernetes 需要访问HDFS

2020-12-21 文章 Akisaya
1.10 版本好像还没有支持,看了下 1.10 代码里创建 cm 的时候没有去读取 hadoop 配置 Yang Wang 于2020年12月19日周六 上午12:18写道: > 你可以在Flink client端设置HADOOP_CONF_DIR环境变量即可,这样会自动ship > hadoop的配置并且挂载给JobManager和TaskManager的 > > Best, > Yang > > liujian <13597820...@qq.com> 于2020年12月18日周五 下午5:26写道: > > > Hi: > > 在使用Native Kubernetes > >

flink1.11.2写hive分区表,hive识别不到分区

2020-12-21 文章 kingdomad
flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。 需要执行msck repair table修复分区表后,hive才能读取到数据。 求助大佬,要如何解决。 -- kingdomad

Re: 执行mvn构建错误 编译flink1.9遇到了相同的问题 请问解决了吗?我编译最新代码没这个问题

2020-12-21 文章 shaoshuai
[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.0:testCompile (default-testCompile) on project flink-parquet_2.11: Compilation failure: Compilation failure: [ERROR]

Job结束blob目录及文件没有删除

2020-12-21 文章 Luna Wong
https://issues.apache.org/jira/browse/FLINK-20696 有一定概率发生,提交很多Job,Job结束后,会有个别Blob目录没有清理。我还没Debug出原因。

Re:Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 felixzh
这个没办法做到吧。想做资源隔离的话,应该只需要分队列就行 在 2020-12-21 16:43:35,"yujianbo" <15205029...@163.com> 写道: >各位大佬好: > 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? > > > >-- >Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 amen...@163.com
这个问题应该问yarn吧。。。 发件人: yujianbo 发送时间: 2020-12-21 16:43 收件人: user-zh 主题: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点 各位大佬好: 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 yujianbo
各位大佬好: 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Application Mode job on K8S集群,无法缩容问题

2020-12-21 文章 lichunguang
Yang Wang你好: 我想表达的意思是: Native Flink on K8s采用单Pod的申请资源的方式,和K8s自动伸缩机制有些冲突。 原因: 比如job比较多时,各node负载都比较高;而剩余job比较少时,每个node只有少量pod,但因为【Pods that are not backed by a controller object】,没法驱逐资源利用率最低的node,导致整体利用率较低。 What types of pods can prevent CA from removing a node?