Hi,
这个功能我们之前做过,可以看下这里。
https://issues.apache.org/jira/browse/FLINK-20713
zilong xiao 于2020年12月3日周四 下午7:50写道:
> 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗?
>
大佬好,我在使用create table if not
exists创建hive表时,对于已存在的hive表,在hive的日志中会抛出AlreadyExistsException(message:Table
bm_tsk_001 already exists异常,查看源码发现if not
exists貌似只是用于判断捕获异常后是否抛出,对于这个问题有建议的解决方案嘛?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
大佬好,我在使用create table if not
exists创建hive表时,对于已存在的hive表,在hive的日志中会抛出AlreadyExistsException(message:Table
bm_tsk_001 already exists异常,查看源码发现if not
exists貌似只是用于判断捕获异常后是否抛出,对于这个问题有建议的解决方案嘛?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
Thanks,flink-confhistory
server,??hdfs??,??web ui??,
----
??:
Hi!
在使用flink广播流实现配置定时更新的过程中,出现下游算子并行度大于1时,下游算子获取更新到的广播流卡住的情况,即广播流算子持续发送数据,但下游算子只接收到前一小部分数据,然后就没有接收到新数据的情况,但无报错日志。
但该问题在本地IDEA运行时无法复现,提交到集群上以yarn-cluster模式运行时则会出现。
大家有没有遇到过类似的情况?是什么原因导致这样的问题,有什么解决方案吗?
Hi:
我在Idea里面运行我的flink程序,报了如下异常:
Exception in thread "Thread-22" java.lang.IllegalStateException: Trying to
access closed classloader. Please check if you store classloaders directly
or indirectly in static fields. If the stacktrace suggests that the leak
occurs in a third party library and cannot
通过sql进行左连接查询,sql语句为:
sql = ''' Insert into print_sink select a.id, a.pf_id, b.symbol_id from a \
left join b on b.day_id = a.biz_date where a.ccy_type = 'AC' and \
a.pf_id = '1030100122' and b.symbol_id = '2030004042' and a.biz_date
between '20160701' and '20170307' '''
silence的回答是对的
如果用-t参数,搭配的都是-D来引导的,不需要prefix,文档里面也是[1]
这个和之前-m yarn-cluster是不一样的,以前的方式需要-yD来引导
[1].
https://ci.apache.org/projects/flink/flink-docs-master/deployment/resource-providers/yarn.html#application-mode
Best,
Yang
silence 于2020年12月21日周一 上午10:53写道:
> 应该是-D不是-yD
>
>
>
> --
> Sent from:
我之前在另一个邮件里面回复过,我再拷贝过来。
目前我已经建了一个JIRA来跟进too old resource version的问题[1]
在Flink里面采用了Watcher来监控Pod的状态变化,当Watcher被异常close的时候就会触发fatal
error进而导致JobManager的重启
我这边做过一些具体的测试,在minikube、自建的K8s集群、阿里云ACK集群,稳定运行一周以上都是正常的。这个问题复现是通过重启
K8s的APIServer来做到的。所以我怀疑你那边Pod和APIServer之间的网络是不是不稳定,从而导致这个问题经常出现。
[1].
history-server和native
k8s没有关系的,如果你想使用,就需要用一个deployment单独部署history-server在K8s集群内
native k8s覆盖的场景是Flink任务如何原生地提交到K8s集群内
Best,
yang
liujian <13597820...@qq.com> 于2020年12月21日周一 下午8:16写道:
> Thanks, 使用你下面的docker方式我测试确实可以,但是不知道Native K8s如何来操作,可以详细说一下
> 我现在是Dockerfile如下两种情况都试过
>
>
> COPY
对,是的,自动ship hadoop配置是从1.11开始支持的
在1.10的版本你需要把配置打到镜像里面
Best,
Yang
Akisaya 于2020年12月21日周一 下午5:02写道:
> 1.10 版本好像还没有支持,看了下 1.10 代码里创建 cm 的时候没有去读取 hadoop 配置
>
> Yang Wang 于2020年12月19日周六 上午12:18写道:
>
> > 你可以在Flink client端设置HADOOP_CONF_DIR环境变量即可,这样会自动ship
> > hadoop的配置并且挂载给JobManager和TaskManager的
>
是的,如果CA不能直接释放Pod的话,那是会导致它没有办法被驱逐
Flink TaskManager Pod的生命周期都是交给JobManager管理的,并且不会重启,挂了之后就会申请新的
和CA结合起来,是会有你所说的限制。不过如果能够带上annotation标识pod可以被驱逐的话,不清楚CA是否可以work
Best,
Yang
lichunguang 于2020年12月21日周一 下午4:16写道:
> Yang Wang你好:
> 我想表达的意思是:
> Native Flink on K8s采用单Pod的申请资源的方式,和K8s自动伸缩机制有些冲突。
>
>
具体是怎么写hive的呢?
On Mon, Dec 21, 2020 at 11:28 PM 赵一旦 wrote:
> 即使不是flink写入,其他方式写入也需要这样做的哈。
>
> r pp 于2020年12月21日周一 下午9:28写道:
>
> > 程序中,创建表后,执行命令。
> >
> > kingdomad 于2020年12月21日周一 下午4:55写道:
> >
> > >
> >
> flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。
> > > 需要执行msck
Hi
可以考虑使用yarn的node label特性,将flink的任务提交到特定的node上
Original Message
Sender: r pp
Recipient: user-zh
Date: Monday, Dec 21, 2020 21:25
Subject: Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点
嗯,指定几台机子 用于使用flink 运行,为什么 不在yarn 为flink 专门制定 一个队列呢?需要 网络隔离 。。。内网速度多大?
于2020年12月21日周一 下午5:48写道: > 通过yarn
目前来说,按照我讲的方式去实现应该不难。我怕的是flink在恢复keyedState的时候,无法适应我的这种partition机制。
现有的机制,restore的时候实际是 keyGroup 到window并行实例之间的一个重分配。
换成我的partition机制后,能否还正常restore呢?
赵一旦 于2020年12月22日周二 上午12:03写道:
> 如题,目前对于OperatorState来说,API层面有2个接口,即CheckpointedFunction和ListCheckpointed
> 。即UDF中有入口对restore做自定义。
>
>
即使不是flink写入,其他方式写入也需要这样做的哈。
r pp 于2020年12月21日周一 下午9:28写道:
> 程序中,创建表后,执行命令。
>
> kingdomad 于2020年12月21日周一 下午4:55写道:
>
> >
> flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。
> > 需要执行msck repair table修复分区表后,hive才能读取到数据。
> > 求助大佬,要如何解决。
> >
> >
> >
> >
> >
> >
> >
> >
> >
大概懂了,但还不够清晰。
因为tumble window中,如果是5s窗口,则是按照0-5,5-10,10-15这样的。不是基于第一条数据的。
如果你要按照第一条数据到达开始开窗,那就不要使用flink的window机制。
直接基于process function提供的底层功能,自己通过timeservice实现。
再或者如果需要使用window,则使用global
window,自己定义window的trigger触发机制即可(比如进来第一条数据,就设置定时器,定时器到了则触发窗口计算然后清理窗口状态)。
guoliubi...@foxmail.com 于2020年12月21日周一
窗口不会重复?重叠?是否重叠取决于你使用什么窗口。tumble窗口是不重叠的。
三色堇 <25977...@qq.com> 于2020年12月21日周一 上午8:47写道:
> 大佬,按天开窗滑动窗口会重复吗?滚动好像不行。
>
>
>
>
> --原始邮件--
> 发件人:
> "user-zh"
>
编译问题,大多包没下好,多来几次
mvn clean install -DskipTests -Drat.skip=true
亲测有效
shaoshuai <762290...@qq.com> 于2020年12月21日周一 下午4:53写道:
> [ERROR] Failed to execute goal
> org.apache.maven.plugins:maven-compiler-plugin:3.8.0:testCompile
> (default-testCompile) on project flink-parquet_2.11: Compilation
程序中,创建表后,执行命令。
kingdomad 于2020年12月21日周一 下午4:55写道:
> flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。
> 需要执行msck repair table修复分区表后,hive才能读取到数据。
> 求助大佬,要如何解决。
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> --
>
> kingdomad
>
>
嗯,指定几台机子 用于使用flink 运行,为什么 不在yarn 为flink 专门制定 一个队列呢?需要 网络隔离 。。。内网速度多大?
于2020年12月21日周一 下午5:48写道:
> 通过yarn label可以实现
>
> -邮件原件-
> 发件人: user-zh-return-10095-afweijian=163@flink.apache.org
> 代表 yujianbo
> 发送时间: 2020年12月21日 16:44
> 收件人: user-zh@flink.apache.org
> 主题: Flink on yarn
sql 的本质其实是 让用户不用关心 是流处理 还是 批处理,比如 ,计算 当天某个视频的点击总数。是一个累加结果,可以实时查询出变化。
但flink 不是一个存储系统,就会存在一个问题,使用sql 状态值 怎么办?
官博 都有说明,也说了哪些算子背后 适用于 Streaming or Batch or both。以及存在的使用注意事项
https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/
jiangjiguang719 于2020年12月21日周一 下午7:44写道:
>
学习了,感谢回复!
> 在 2020年12月21日,20:39,hailongwang <18868816...@163.com> 写道:
>
>
>
>
> 不是的。在提交运行之后,如果那两个 insert 是从同一张表 select 出来的话,是会分流发送到 table1 和 table2,并没有先后顺序。
>> 在 2020-12-21 10:45:25,"占英华" 写道:
>> 这样是不是第一条select和第二条的select出来的结果会有差异,因为执行第一条有耗时,第二条执行时查询的结果是在耗时后查询得到的
>>
在
不是的。在提交运行之后,如果那两个 insert 是从同一张表 select 出来的话,是会分流发送到 table1 和 table2,并没有先后顺序。
在 2020-12-21 10:45:25,"占英华" 写道:
>这样是不是第一条select和第二条的select出来的结果会有差异,因为执行第一条有耗时,第二条执行时查询的结果是在耗时后查询得到的
>
>> 在 2020年12月21日,11:14,hailongwang <18868816...@163.com> 写道:
>>
>>
>>
>> 可以的,比如将结果写入table1,table2 ……
>> Insert
Thanks, docker??,??Native
K8s??,??
Dockerfile??
COPY ./jar/flink-shaded-hadoop-2-uber-2.8.3-10.0.jar
/opt/flink/lib/flink-shaded-hadoop-2-uber-2.8.3-10.0.jar
ENTRYPOINT ["/docker-entrypoint.sh"]
EXPOSE 6123 8081
flink1.12版本中,streamAPI 通过 -Dexecution.runtime-mode 指定是批还是流 的执行模式,那么在SQL中如何指定呢
Hi,
正如报错中提示的,with参数里需要的是"url"参数,你可以尝试将connector.url改成url试试看会不会报错了。
> 在 2020年12月21日,13:44,肖越 <18242988...@163.com> 写道:
>
> 在脚本中定义了两个源数据 ddl,但是第二就总会报缺option的问题,pyflink小白,求大神解答?
> #DDL定义
> source_ddl2 = """CREATE TABLE ts_pf_sec_yldrate (id DECIMAL,pf_id VARCHAR,\
>
>symbol_id
Hi,可以看下KafkaTopicPartitionAssigner类的assign方式
是根据Topic名称哈希之后对并行度取余,加上分区值再次对并行度取余
最终的结果分配是存在不均匀
--
发件人:bradyMk
发送时间:2020年12月21日(星期一) 17:40
收件人:user-zh
主 题:请教一个flink消费多kafka topic如何进行数据分配的问题
Hi~想请教一下大家:
现在我用flink消费5个不同的kafka
通过yarn label可以实现
-邮件原件-
发件人: user-zh-return-10095-afweijian=163@flink.apache.org
代表 yujianbo
发送时间: 2020年12月21日 16:44
收件人: user-zh@flink.apache.org
主题: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点
各位大佬好:
请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点?
--
Sent from:
Hi~想请教一下大家:
现在我用flink消费5个不同的kafka topic,每个topic都有12个分区,所以我设置了60个并行度;
env.setParallelism(60)
我认为程序设置的并行度是和topic的总分区一一对应的;
但是,程序运行后,我发现只有14个task有从topic消费到数据,其余消费数据量都为0,且有几个是每秒几千条,有几个是每秒几百条。所以现在很疑惑,flink消费多kafka
topic到底是如何进行数据分配的呢?
-
Best Wishes
--
Sent from:
1.10 版本好像还没有支持,看了下 1.10 代码里创建 cm 的时候没有去读取 hadoop 配置
Yang Wang 于2020年12月19日周六 上午12:18写道:
> 你可以在Flink client端设置HADOOP_CONF_DIR环境变量即可,这样会自动ship
> hadoop的配置并且挂载给JobManager和TaskManager的
>
> Best,
> Yang
>
> liujian <13597820...@qq.com> 于2020年12月18日周五 下午5:26写道:
>
> > Hi:
> > 在使用Native Kubernetes
> >
flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。
需要执行msck repair table修复分区表后,hive才能读取到数据。
求助大佬,要如何解决。
--
kingdomad
[ERROR] Failed to execute goal
org.apache.maven.plugins:maven-compiler-plugin:3.8.0:testCompile
(default-testCompile) on project flink-parquet_2.11: Compilation failure:
Compilation failure:
[ERROR]
https://issues.apache.org/jira/browse/FLINK-20696
有一定概率发生,提交很多Job,Job结束后,会有个别Blob目录没有清理。我还没Debug出原因。
这个没办法做到吧。想做资源隔离的话,应该只需要分队列就行
在 2020-12-21 16:43:35,"yujianbo" <15205029...@163.com> 写道:
>各位大佬好:
> 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点?
>
>
>
>--
>Sent from: http://apache-flink.147419.n8.nabble.com/
这个问题应该问yarn吧。。。
发件人: yujianbo
发送时间: 2020-12-21 16:43
收件人: user-zh
主题: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点
各位大佬好:
请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
各位大佬好:
请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
Yang Wang你好:
我想表达的意思是:
Native Flink on K8s采用单Pod的申请资源的方式,和K8s自动伸缩机制有些冲突。
原因:
比如job比较多时,各node负载都比较高;而剩余job比较少时,每个node只有少量pod,但因为【Pods that are not backed
by a controller object】,没法驱逐资源利用率最低的node,导致整体利用率较低。
What types of pods can prevent CA from removing a node?
38 matches
Mail list logo