date:20201221

Re: taskmanager.out配置滚动

2020-12-21 文章李杰

Hi，这个功能我们之前做过，可以看下这里。 https://issues.apache.org/jira/browse/FLINK-20713 zilong xiao 于2020年12月3日周四下午7:50写道： > 想问下社区的大佬，标准输出文件taskmanager.out可以配置成滚动的吗？ >

flink 1.11.2 创建hive表的问题

2020-12-21 文章曹武

大佬好,我在使用create table if not exists创建hive表时,对于已存在的hive表,在hive的日志中会抛出AlreadyExistsException(message:Table bm_tsk_001 already exists异常,查看源码发现if not exists貌似只是用于判断捕获异常后是否抛出,对于这个问题有建议的解决方案嘛? -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink 1.11.2 创建hive表的问题

2020-12-21 文章曹武

大佬好,我在使用create table if not exists创建hive表时,对于已存在的hive表,在hive的日志中会抛出AlreadyExistsException(message:Table bm_tsk_001 already exists异常,查看源码发现if not exists貌似只是用于判断捕获异常后是否抛出,对于这个问题有建议的解决方案嘛? -- Sent from: http://apache-flink.147419.n8.nabble.com/

?????? flink-shaded-hadoop-2-uber????????????

2020-12-21 文章 liujian

Thanks,flink-confhistory server,??hdfs??,??web ui??, ---- ??:

flink1.10 广播流更新卡住

2020-12-21 文章洪雪芬

Hi! 在使用flink广播流实现配置定时更新的过程中，出现下游算子并行度大于1时，下游算子获取更新到的广播流卡住的情况，即广播流算子持续发送数据，但下游算子只接收到前一小部分数据，然后就没有接收到新数据的情况，但无报错日志。但该问题在本地IDEA运行时无法复现，提交到集群上以yarn-cluster模式运行时则会出现。大家有没有遇到过类似的情况？是什么原因导致这样的问题，有什么解决方案吗？

java.lang.IllegalStateException: Trying to access closed classloader.

2020-12-21 文章 jy l

Hi: 我在Idea里面运行我的flink程序，报了如下异常： Exception in thread "Thread-22" java.lang.IllegalStateException: Trying to access closed classloader. Please check if you store classloaders directly or indirectly in static fields. If the stacktrace suggests that the leak occurs in a third party library and cannot

pyflink1.12 进行多表关联后的结果类型是TableResult，如何转为Table类型

2020-12-21 文章肖越

通过sql进行左连接查询，sql语句为： sql = ''' Insert into print_sink select a.id, a.pf_id, b.symbol_id from a \ left join b on b.day_id = a.biz_date where a.ccy_type = 'AC' and \ a.pf_id = '1030100122' and b.symbol_id = '2030004042' and a.biz_date between '20160701' and '20170307' '''

Re: yarn application模式提交任务失败

2020-12-21 文章 Yang Wang

silence的回答是对的如果用-t参数，搭配的都是-D来引导的，不需要prefix，文档里面也是[1] 这个和之前-m yarn-cluster是不一样的，以前的方式需要-yD来引导 [1]. https://ci.apache.org/projects/flink/flink-docs-master/deployment/resource-providers/yarn.html#application-mode Best, Yang silence 于2020年12月21日周一上午10:53写道： > 应该是-D不是-yD > > > > -- > Sent from:

Re: Flink1.11.1版本Application Mode job on K8S集群，too old resource version问题

2020-12-21 文章 Yang Wang

我之前在另一个邮件里面回复过，我再拷贝过来。目前我已经建了一个JIRA来跟进too old resource version的问题[1] 在Flink里面采用了Watcher来监控Pod的状态变化，当Watcher被异常close的时候就会触发fatal error进而导致JobManager的重启我这边做过一些具体的测试，在minikube、自建的K8s集群、阿里云ACK集群，稳定运行一周以上都是正常的。这个问题复现是通过重启 K8s的APIServer来做到的。所以我怀疑你那边Pod和APIServer之间的网络是不是不稳定，从而导致这个问题经常出现。 [1].

Re: flink-shaded-hadoop-2-uber版本如何选择

2020-12-21 文章 Yang Wang

history-server和native k8s没有关系的，如果你想使用，就需要用一个deployment单独部署history-server在K8s集群内 native k8s覆盖的场景是Flink任务如何原生地提交到K8s集群内 Best, yang liujian <13597820...@qq.com> 于2020年12月21日周一下午8:16写道： > Thanks, 使用你下面的docker方式我测试确实可以,但是不知道Native K8s如何来操作,可以详细说一下 > 我现在是Dockerfile如下两种情况都试过 > > > COPY

Re: Native Kubernetes 需要访问HDFS

2020-12-21 文章 Yang Wang

对，是的，自动ship hadoop配置是从1.11开始支持的在1.10的版本你需要把配置打到镜像里面 Best, Yang Akisaya 于2020年12月21日周一下午5:02写道： > 1.10 版本好像还没有支持，看了下 1.10 代码里创建 cm 的时候没有去读取 hadoop 配置 > > Yang Wang 于2020年12月19日周六上午12:18写道： > > > 你可以在Flink client端设置HADOOP_CONF_DIR环境变量即可，这样会自动ship > > hadoop的配置并且挂载给JobManager和TaskManager的 >

Re: Application Mode job on K8S集群，无法缩容问题

2020-12-21 文章 Yang Wang

是的，如果CA不能直接释放Pod的话，那是会导致它没有办法被驱逐 Flink TaskManager Pod的生命周期都是交给JobManager管理的，并且不会重启，挂了之后就会申请新的和CA结合起来，是会有你所说的限制。不过如果能够带上annotation标识pod可以被驱逐的话，不清楚CA是否可以work Best, Yang lichunguang 于2020年12月21日周一下午4:16写道： > Yang Wang你好： > 我想表达的意思是: > Native Flink on K8s采用单Pod的申请资源的方式，和K8s自动伸缩机制有些冲突。 > >

Re: flink1.11.2写hive分区表，hive识别不到分区

2020-12-21 文章 Rui Li

具体是怎么写hive的呢？ On Mon, Dec 21, 2020 at 11:28 PM 赵一旦 wrote: > 即使不是flink写入，其他方式写入也需要这样做的哈。 > > r pp 于2020年12月21日周一下午9:28写道： > > > 程序中，创建表后，执行命令。 > > > > kingdomad 于2020年12月21日周一下午4:55写道： > > > > > > > > flink1.11.2写hive3.12的分区表，flink新创建的分区数据hive无法识别，在hdfs上能看到写入了文件，但是hive读取不了分区。 > > > 需要执行msck

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 xiao cai

Hi 可以考虑使用yarn的node label特性，将flink的任务提交到特定的node上 Original Message Sender: r pp Recipient: user-zh Date: Monday, Dec 21, 2020 21:25 Subject: Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点嗯，指定几台机子用于使用flink 运行，为什么不在yarn 为flink 专门制定一个队列呢？需要网络隔离。。。内网速度多大？于2020年12月21日周一下午5:48写道： > 通过yarn

Re: 请教关于KeyedState的恢复机制

2020-12-21 文章赵一旦

目前来说，按照我讲的方式去实现应该不难。我怕的是flink在恢复keyedState的时候，无法适应我的这种partition机制。现有的机制，restore的时候实际是 keyGroup 到window并行实例之间的一个重分配。换成我的partition机制后，能否还正常restore呢？赵一旦于2020年12月22日周二上午12:03写道： > 如题，目前对于OperatorState来说，API层面有2个接口，即CheckpointedFunction和ListCheckpointed > 。即UDF中有入口对restore做自定义。 > >

Re: flink1.11.2写hive分区表，hive识别不到分区

2020-12-21 文章赵一旦

即使不是flink写入，其他方式写入也需要这样做的哈。 r pp 于2020年12月21日周一下午9:28写道： > 程序中，创建表后，执行命令。 > > kingdomad 于2020年12月21日周一下午4:55写道： > > > > flink1.11.2写hive3.12的分区表，flink新创建的分区数据hive无法识别，在hdfs上能看到写入了文件，但是hive读取不了分区。 > > 需要执行msck repair table修复分区表后，hive才能读取到数据。 > > 求助大佬，要如何解决。 > > > > > > > > > > > > > > > > > >

Re: Re: 如何通过现实时间控制事件时间的窗口

2020-12-21 文章赵一旦

大概懂了，但还不够清晰。因为tumble window中，如果是5s窗口，则是按照0-5，5-10，10-15这样的。不是基于第一条数据的。如果你要按照第一条数据到达开始开窗，那就不要使用flink的window机制。直接基于process function提供的底层功能，自己通过timeservice实现。再或者如果需要使用window，则使用global window，自己定义window的trigger触发机制即可（比如进来第一条数据，就设置定时器，定时器到了则触发窗口计算然后清理窗口状态）。 guoliubi...@foxmail.com 于2020年12月21日周一

Re: 请教一下flink1.12可以指定时间清除state吗？

2020-12-21 文章赵一旦

窗口不会重复？重叠？是否重叠取决于你使用什么窗口。tumble窗口是不重叠的。三色堇 <25977...@qq.com> 于2020年12月21日周一上午8:47写道： > 大佬，按天开窗滑动窗口会重复吗？滚动好像不行。 > > > > > --原始邮件-- > 发件人: > "user-zh" >

Re: 执行mvn构建错误编译flink1.9遇到了相同的问题请问解决了吗？我编译最新代码没这个问题

2020-12-21 文章 r pp

编译问题，大多包没下好，多来几次 mvn clean install -DskipTests -Drat.skip=true 亲测有效 shaoshuai <762290...@qq.com> 于2020年12月21日周一下午4:53写道： > [ERROR] Failed to execute goal > org.apache.maven.plugins:maven-compiler-plugin:3.8.0:testCompile > (default-testCompile) on project flink-parquet_2.11: Compilation

Re: flink1.11.2写hive分区表，hive识别不到分区

2020-12-21 文章 r pp

程序中，创建表后，执行命令。 kingdomad 于2020年12月21日周一下午4:55写道： > flink1.11.2写hive3.12的分区表，flink新创建的分区数据hive无法识别，在hdfs上能看到写入了文件，但是hive读取不了分区。 > 需要执行msck repair table修复分区表后，hive才能读取到数据。 > 求助大佬，要如何解决。 > > > > > > > > > > > > > > > > > -- > > kingdomad > >

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 r pp

嗯，指定几台机子用于使用flink 运行，为什么不在yarn 为flink 专门制定一个队列呢？需要网络隔离。。。内网速度多大？于2020年12月21日周一下午5:48写道： > 通过yarn label可以实现 > > -邮件原件- > 发件人: user-zh-return-10095-afweijian=163@flink.apache.org > 代表 yujianbo > 发送时间: 2020年12月21日 16:44 > 收件人: user-zh@flink.apache.org > 主题: Flink on yarn

Re: SQL执行模式

2020-12-21 文章 r pp

sql 的本质其实是让用户不用关心是流处理还是批处理，比如，计算当天某个视频的点击总数。是一个累加结果，可以实时查询出变化。但flink 不是一个存储系统，就会存在一个问题，使用sql 状态值怎么办？官博都有说明，也说了哪些算子背后适用于 Streaming or Batch or both。以及存在的使用注意事项 https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/ jiangjiguang719 于2020年12月21日周一下午7:44写道： >

Re: 请教个Flink sql问题

2020-12-21 文章占英华

学习了，感谢回复！ > 在 2020年12月21日，20:39，hailongwang <18868816...@163.com> 写道： > > > > > 不是的。在提交运行之后，如果那两个 insert 是从同一张表 select 出来的话，是会分流发送到 table1 和 table2，并没有先后顺序。 >> 在 2020-12-21 10:45:25，"占英华" 写道： >> 这样是不是第一条select和第二条的select出来的结果会有差异，因为执行第一条有耗时，第二条执行时查询的结果是在耗时后查询得到的 >> 在

Re:Re: 请教个Flink sql问题

2020-12-21 文章 hailongwang

不是的。在提交运行之后，如果那两个 insert 是从同一张表 select 出来的话，是会分流发送到 table1 和 table2，并没有先后顺序。在 2020-12-21 10:45:25，"占英华" 写道： >这样是不是第一条select和第二条的select出来的结果会有差异，因为执行第一条有耗时，第二条执行时查询的结果是在耗时后查询得到的 > >> 在 2020年12月21日，11:14，hailongwang <18868816...@163.com> 写道： >> >> >> >> 可以的，比如将结果写入table1，table2 …… >> Insert

?????? flink-shaded-hadoop-2-uber????????????

2020-12-21 文章 liujian

Thanks, docker??,??Native K8s??,?? Dockerfile?? COPY ./jar/flink-shaded-hadoop-2-uber-2.8.3-10.0.jar /opt/flink/lib/flink-shaded-hadoop-2-uber-2.8.3-10.0.jar ENTRYPOINT ["/docker-entrypoint.sh"] EXPOSE 6123 8081

SQL执行模式

2020-12-21 文章 jiangjiguang719

flink1.12版本中，streamAPI 通过 -Dexecution.runtime-mode 指定是批还是流的执行模式，那么在SQL中如何指定呢

Re: pyflink1.12 连接Mysql报错： Missing required options

2020-12-21 文章 Wei Zhong

Hi, 正如报错中提示的，with参数里需要的是"url"参数，你可以尝试将connector.url改成url试试看会不会报错了。 > 在 2020年12月21日，13:44，肖越 <18242988...@163.com> 写道： > > 在脚本中定义了两个源数据 ddl，但是第二就总会报缺option的问题，pyflink小白，求大神解答？ > #DDL定义 > source_ddl2 = """CREATE TABLE ts_pf_sec_yldrate (id DECIMAL,pf_id VARCHAR,\ > >symbol_id

回复：请教一个flink消费多kafka topic如何进行数据分配的问题

2020-12-21 文章 Shuai Xia

Hi，可以看下KafkaTopicPartitionAssigner类的assign方式是根据Topic名称哈希之后对并行度取余，加上分区值再次对并行度取余最终的结果分配是存在不均匀 -- 发件人：bradyMk 发送时间：2020年12月21日(星期一) 17:40 收件人：user-zh 主　题：请教一个flink消费多kafka topic如何进行数据分配的问题 Hi~想请教一下大家：现在我用flink消费5个不同的kafka

答复: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 afweijian

通过yarn label可以实现 -邮件原件- 发件人: user-zh-return-10095-afweijian=163@flink.apache.org 代表 yujianbo 发送时间: 2020年12月21日 16:44 收件人: user-zh@flink.apache.org 主题: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点各位大佬好：请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点？ -- Sent from:

请教一个flink消费多kafka topic如何进行数据分配的问题

2020-12-21 文章 bradyMk

Hi~想请教一下大家：现在我用flink消费5个不同的kafka topic，每个topic都有12个分区，所以我设置了60个并行度； env.setParallelism(60) 我认为程序设置的并行度是和topic的总分区一一对应的；但是，程序运行后，我发现只有14个task有从topic消费到数据，其余消费数据量都为0，且有几个是每秒几千条，有几个是每秒几百条。所以现在很疑惑，flink消费多kafka topic到底是如何进行数据分配的呢？ - Best Wishes -- Sent from:

Re: Native Kubernetes 需要访问HDFS

2020-12-21 文章 Akisaya

1.10 版本好像还没有支持，看了下 1.10 代码里创建 cm 的时候没有去读取 hadoop 配置 Yang Wang 于2020年12月19日周六上午12:18写道： > 你可以在Flink client端设置HADOOP_CONF_DIR环境变量即可，这样会自动ship > hadoop的配置并且挂载给JobManager和TaskManager的 > > Best, > Yang > > liujian <13597820...@qq.com> 于2020年12月18日周五下午5:26写道： > > > Hi: > > 在使用Native Kubernetes > >

flink1.11.2写hive分区表，hive识别不到分区

2020-12-21 文章 kingdomad

flink1.11.2写hive3.12的分区表，flink新创建的分区数据hive无法识别，在hdfs上能看到写入了文件，但是hive读取不了分区。需要执行msck repair table修复分区表后，hive才能读取到数据。求助大佬，要如何解决。 -- kingdomad

Re: 执行mvn构建错误编译flink1.9遇到了相同的问题请问解决了吗？我编译最新代码没这个问题

2020-12-21 文章 shaoshuai

[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.0:testCompile (default-testCompile) on project flink-parquet_2.11: Compilation failure: Compilation failure: [ERROR]

Job结束blob目录及文件没有删除

2020-12-21 文章 Luna Wong

https://issues.apache.org/jira/browse/FLINK-20696 有一定概率发生，提交很多Job，Job结束后，会有个别Blob目录没有清理。我还没Debug出原因。

Re:Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 felixzh

这个没办法做到吧。想做资源隔离的话，应该只需要分队列就行在 2020-12-21 16:43:35，"yujianbo" <15205029...@163.com> 写道： >各位大佬好： > 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点？ > > > >-- >Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 amen...@163.com

这个问题应该问yarn吧。。。发件人： yujianbo 发送时间： 2020-12-21 16:43 收件人： user-zh 主题： Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点各位大佬好：请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点？ -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 文章 yujianbo

各位大佬好：请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点？ -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Application Mode job on K8S集群，无法缩容问题

2020-12-21 文章 lichunguang

Yang Wang你好：我想表达的意思是: Native Flink on K8s采用单Pod的申请资源的方式，和K8s自动伸缩机制有些冲突。原因：比如job比较多时，各node负载都比较高；而剩余job比较少时，每个node只有少量pod，但因为【Pods that are not backed by a controller object】，没法驱逐资源利用率最低的node，导致整体利用率较低。 What types of pods can prevent CA from removing a node?

38 matches

Mail list logo