date:20201222

Flink catalog+hive问题

2020-12-22 文章 guaishushu1...@163.com

在用flink 
catalog+hive做元数据持久化的时候，发现hive的ACL权限没有起作用，麻烦问下知道的大佬，flink是会直接跳过hive的ACL权限吗？



guaishushu1...@163.com

Re:Re: pyflink 1.12 是不支持通过sql 直接向数据库获取数据的操作么？没看到相关接口

2020-12-22 文章肖越

您好，感谢您的回复。
是的，目前是通过connector定义了整张表的字段来获取的数据，
connector中是否有字段支持，设置sql语句直接获取数据库检索后返回的数据呢？
现在这种方式，如若数据库表字段变更，以后很难维护啊~







在 2020-12-23 14:36:20，"Wei Zhong"  写道：
>你好,
>
>pyflink需要通过声明jdbc connector的方式来从数据库中获取数据。
>
>> 在 2020年12月22日，17:40，肖越 <18242988...@163.com> 写道：
>> 
>> 例如：pandas.read_sql()的用法，直接返回源数据，pyflink小白，蹲大佬的答复。
>

Re: pyflink 1.12 是不支持通过sql 直接向数据库获取数据的操作么？没看到相关接口

2020-12-22 文章 Wei Zhong

你好,

pyflink需要通过声明jdbc connector的方式来从数据库中获取数据。

> 在 2020年12月22日，17:40，肖越 <18242988...@163.com> 写道：
> 
> 例如：pandas.read_sql()的用法，直接返回源数据，pyflink小白，蹲大佬的答复。

Re: pyflink1.12 进行多表关联后的结果类型是TableResult，如何转为Table类型

2020-12-22 文章 Wei Zhong

你好,

使用env.sql_update()执行select语句可以获得Table类型的结果。

> 在 2020年12月22日，13:25，肖越 <18242988...@163.com> 写道：
> 
> 通过sql进行左连接查询，sql语句为：
> sql = ''' Insert into print_sink select a.id, a.pf_id, b.symbol_id from  a \
> left join b on b.day_id = a.biz_date where a.ccy_type = 'AC' and \
> a.pf_id = '1030100122' and b.symbol_id = '2030004042' and a.biz_date 
> between '20160701' and '20170307' '''
> 
> 
> table_result = env.execute_sql(sql)
> 通过env.execute_sql()执行后的结果是 TableResult , 如何转成Table类型？
> 或者有哪些其他的方式，可以直接执行表的连接操作，返回结果是Table类型？
>

Re: Re: taskmanager.out配置滚动

2020-12-22 文章李杰

我们修改了flinkonyarn， 使得taskmanager.out 和 taskmanager.err /
jobmanager.err支持文件滚动。

zilong xiao  于2020年12月23日周三 下午2:05写道：

> 为啥1.11可以呢?
>
> hdxg1101300123  于2020年12月23日周三 下午1:51写道：
>
> > 1.11可以
> >
> >
> >
> > 发自vivo智能手机
> > > 之前在社区我提过一次redirect的方案，但其他人有一些concerns，可以参考一下
> > >
> > > https://github.com/apache/flink/pull/11839#pullrequestreview-399769862
> > >
> > > zilong xiao  于2020年12月22日周二 下午4:13写道：
> > >
> > > > 恩恩，这个场景是有的，目前看是可以通过重定向后实现，follow issue~
> > > >
> > > > 李杰  于2020年12月22日周二 下午3:58写道：
> > > >
> > > > > Hi，
> > > > > 这个功能我们之前做过，可以看下这里。
> > > > > https://issues.apache.org/jira/browse/FLINK-20713
> > > > >
> > > > > zilong xiao  于2020年12月3日周四 下午7:50写道：
> > > > >
> > > > > > 想问下社区的大佬，标准输出文件taskmanager.out可以配置成滚动的吗？
> > > > > >
> > > > >
> > > >
> >
>

算子并行度设置

2020-12-22 文章赵一旦

如果我设置了并行度为130，那么最大并行度会自动提升吗？ -- 应该是的，否则不可能有数据收到。

但我没看到源码在哪调整的最大并行度。

flink1.11 streaming和table混合使用提交到yarn会启动两个applicaion

2020-12-22 文章 kingdomad

消费kafka流，用tableEnv创建视图，再用tableEnv.executeSql执行insert语句写入hive表。
如果程序中出现了StreamExecutionEnvironment.execute，提交到yarn会启动两个applicaion。
如果把StreamExecutionEnvironment.execute注释掉，则只会有一个applicaion。
求助大佬们，
这是正常的吗？
flink这是把table的逻辑放在一个application上，streaming的逻辑放在另一个application上吗？













--

kingdomad

Re: Re: taskmanager.out配置滚动

2020-12-22 文章 zilong xiao

为啥1.11可以呢?

hdxg1101300123  于2020年12月23日周三 下午1:51写道：

> 1.11可以
>
>
>
> 发自vivo智能手机
> > 之前在社区我提过一次redirect的方案，但其他人有一些concerns，可以参考一下
> >
> > https://github.com/apache/flink/pull/11839#pullrequestreview-399769862
> >
> > zilong xiao  于2020年12月22日周二 下午4:13写道：
> >
> > > 恩恩，这个场景是有的，目前看是可以通过重定向后实现，follow issue~
> > >
> > > 李杰  于2020年12月22日周二 下午3:58写道：
> > >
> > > > Hi，
> > > > 这个功能我们之前做过，可以看下这里。
> > > > https://issues.apache.org/jira/browse/FLINK-20713
> > > >
> > > > zilong xiao  于2020年12月3日周四 下午7:50写道：
> > > >
> > > > > 想问下社区的大佬，标准输出文件taskmanager.out可以配置成滚动的吗？
> > > > >
> > > >
> > >
>

回复: Re: taskmanager.out配置滚动

2020-12-22 文章 hdxg1101300123

1.11可以



发自vivo智能手机
> 之前在社区我提过一次redirect的方案，但其他人有一些concerns，可以参考一下 
>
> https://github.com/apache/flink/pull/11839#pullrequestreview-399769862 
>
> zilong xiao  于2020年12月22日周二 下午4:13写道： 
>
> > 恩恩，这个场景是有的，目前看是可以通过重定向后实现，follow issue~ 
> > 
> > 李杰  于2020年12月22日周二 下午3:58写道： 
> > 
> > > Hi， 
> > > 这个功能我们之前做过，可以看下这里。 
> > > https://issues.apache.org/jira/browse/FLINK-20713 
> > > 
> > > zilong xiao  于2020年12月3日周四 下午7:50写道： 
> > > 
> > > > 想问下社区的大佬，标准输出文件taskmanager.out可以配置成滚动的吗？ 
> > > > 
> > > 
> >

Re: taskmanager.out配置滚动

2020-12-22 文章 Yang Wang

之前在社区我提过一次redirect的方案，但其他人有一些concerns，可以参考一下

https://github.com/apache/flink/pull/11839#pullrequestreview-399769862

zilong xiao  于2020年12月22日周二 下午4:13写道：

> 恩恩，这个场景是有的，目前看是可以通过重定向后实现，follow issue~
>
> 李杰  于2020年12月22日周二 下午3:58写道：
>
> > Hi，
> > 这个功能我们之前做过，可以看下这里。
> > https://issues.apache.org/jira/browse/FLINK-20713
> >
> > zilong xiao  于2020年12月3日周四 下午7:50写道：
> >
> > > 想问下社区的大佬，标准输出文件taskmanager.out可以配置成滚动的吗？
> > >
> >
>

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-22 文章 Yang Wang

在Yarn上将需要给Flink使用的机器单独划分到一个partition里面，使用node label可以实现

然后在提交Flink任务的时候使用yarn.application.node-label来指定就可以了。partition是可以保证排他的，不带这个label的调度不上来

Best,
Yang

r pp  于2020年12月23日周三 上午11:18写道：

> flink 提交到特定的node ，可以保证 其它的任务 不能提交到flink特定的node 上么？
>
> xiao cai  于2020年12月22日周二 上午10:28写道：
>
> > Hi
> > 可以考虑使用yarn的node label特性，将flink的任务提交到特定的node上
> >
> >
> >  Original Message
> > Sender: r pp
> > Recipient: user-zh
> > Date: Monday, Dec 21, 2020 21:25
> > Subject: Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点
> >
> >
> > 嗯，指定几台机子 用于使用flink 运行，为什么 不在yarn 为flink 专门制定 一个队列呢？需要 网络隔离 。。。内网速度多大？ <
> > afweij...@163.com> 于2020年12月21日周一 下午5:48写道： > 通过yarn label可以实现 > >
> > -邮件原件- > 发件人: user-zh-return-10095-afweijian=
> > 163@flink.apache.org >  > 163@flink.apache.org> 代表 yujianbo > 发送时间: 2020年12月21日 16:44 > 收件人:
> > user-zh@flink.apache.org > 主题: Flink on yarn
> 如何指定固定几台yarn节点当做flink任务的运行节点
> > > > 各位大佬好： > 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点？ > > > > -- >
> > Sent from: http://apache-flink.147419.n8.nabble.com/ >
>

flink1.11 streaming和table混合使用提交到yarn会启动两个applicaion

2020-12-22 文章 kingdomad

消费kafka流，用tableEnv创建视图，再用tableEnv.executeSql执行insert语句写入hive表。
如果程序中出现了StreamExecutionEnvironment.execute，提交到yarn会启动两个applicaion。
如果把StreamExecutionEnvironment.execute注释掉，则只会有一个applicaion。
求助大佬们，
这是正常的吗？
flink这是把table的逻辑放在一个application上，streaming的逻辑放在另一个application上吗？













--

kingdomad

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-22 文章 r pp

flink 提交到特定的node ，可以保证 其它的任务 不能提交到flink特定的node 上么？

xiao cai  于2020年12月22日周二 上午10:28写道：

> Hi
> 可以考虑使用yarn的node label特性，将flink的任务提交到特定的node上
>
>
>  Original Message
> Sender: r pp
> Recipient: user-zh
> Date: Monday, Dec 21, 2020 21:25
> Subject: Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点
>
>
> 嗯，指定几台机子 用于使用flink 运行，为什么 不在yarn 为flink 专门制定 一个队列呢？需要 网络隔离 。。。内网速度多大？ <
> afweij...@163.com> 于2020年12月21日周一 下午5:48写道： > 通过yarn label可以实现 > >
> -邮件原件- > 发件人: user-zh-return-10095-afweijian=
> 163@flink.apache.org >  163@flink.apache.org> 代表 yujianbo > 发送时间: 2020年12月21日 16:44 > 收件人:
> user-zh@flink.apache.org > 主题: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点
> > > 各位大佬好： > 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点？ > > > > -- >
> Sent from: http://apache-flink.147419.n8.nabble.com/ >

Re:回复：Re:Re: flink1.11.2写hive分区表，hive识别不到分区

2020-12-22 文章 kingdomad

是的。开启了checkpoint。
消费kafka，用tableEnv把stream注册成TemporaryView。
然后执行sql写入到hive的表中。













--

kingdomad







在 2020-12-23 09:22:48，"范瑞" <836961...@qq.com> 写道：
>Hello
>
>
>请问是使用 Sql吧？开启cp了吗？
>
>
>
>---原始邮件---
>发件人: "kingdomad"发送时间: 2020年12月23日(周三) 上午9:17
>收件人: "user-zh"主题: Re:Re: flink1.11.2写hive分区表，hive识别不到分区
>
>
>分区用的是记录中的字段，没有用到processing time或者event time去生成分区。
>发现只要给hive的表加上以下这三个属性就可以马上提交分区到metastore了。
>'sink.partition-commit.trigger'='process-time'
>'sink.partition-commit.delay'='0s'
>'sink.partition-commit.policy.kind'='metastore,success-file'
>
>
>
>
>
>
>
>
>
>
>
>
>
>--
>
>kingdomad
>
>
>
>
>
>
>
>在 2020-12-21 23:27:49，"赵一旦" 即使不是flink写入，其他方式写入也需要这样做的哈。
>
>r pp 
> 程序中，创建表后，执行命令。
>
> kingdomad 
> 
> 
>flink1.11.2写hive3.12的分区表，flink新创建的分区数据hive无法识别，在hdfs上能看到写入了文件，但是hive读取不了分区。
>  需要执行msck repair table修复分区表后，hive才能读取到数据。
>  求助大佬，要如何解决。
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
>  --
> 
>  kingdomad
> 
> 
>

回复：Re:Re: flink1.11.2写hive分区表，hive识别不到分区

2020-12-22 文章范瑞

Hello


请问是使用 Sql吧？开启cp了吗？



---原始邮件---
发件人: "kingdomad"

Re:Re: flink1.11.2写hive分区表，hive识别不到分区

2020-12-22 文章 kingdomad

分区用的是记录中的字段，没有用到processing time或者event time去生成分区。
发现只要给hive的表加上以下这三个属性就可以马上提交分区到metastore了。
'sink.partition-commit.trigger'='process-time'
'sink.partition-commit.delay'='0s'
'sink.partition-commit.policy.kind'='metastore,success-file'













--

kingdomad







在 2020-12-21 23:27:49，"赵一旦"  写道：
>即使不是flink写入，其他方式写入也需要这样做的哈。
>
>r pp  于2020年12月21日周一 下午9:28写道：
>
>> 程序中，创建表后，执行命令。
>>
>> kingdomad  于2020年12月21日周一 下午4:55写道：
>>
>> >
>> flink1.11.2写hive3.12的分区表，flink新创建的分区数据hive无法识别，在hdfs上能看到写入了文件，但是hive读取不了分区。
>> > 需要执行msck repair table修复分区表后，hive才能读取到数据。
>> > 求助大佬，要如何解决。
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> > --
>> >
>> > kingdomad
>> >
>> >
>>

Re: flink1.10 广播流更新卡住

2020-12-22 文章洪雪芬

从监控上看没有反压。广播流的数据量并不大，几百k，定时更新的间隔设的是1分钟。
> 
> 
>> 在 2020年12月22日，20:53，赵一旦  写道：
>> 
>> 有没有反压。
>> 
>> 洪雪芬  于2020年12月22日周二 下午7:11写道：
>> 
>>> 对的，广播流算子的并行度一直为1，下游算子的并行度为1则正常，大于1则出现广播流更新卡住的情况，无报错，定位不到问题。
>>> 
>>> 
>> 在 2020年12月22日，18:39，赵一旦  写道：
> 
> 并行度1就没问题吗？
> 
> 洪雪芬  于2020年12月22日周二 下午1:45写道：
> 
>> Hi!
>> 
>> 
>>> 在使用flink广播流实现配置定时更新的过程中，出现下游算子并行度大于1时，下游算子获取更新到的广播流卡住的情况，即广播流算子持续发送数据，但下游算子只接收到前一小部分数据，然后就没有接收到新数据的情况，但无报错日志。
> 但该问题在本地IDEA运行时无法复现，提交到集群上以yarn-cluster模式运行时则会出现。
> 大家有没有遇到过类似的情况？是什么原因导致这样的问题，有什么解决方案吗？
> 
>>>

Re: 请教关于KeyedState的恢复机制

2020-12-22 文章赵一旦

没有大神懂这个的吗？帮忙分析下。

赵一旦  于2020年12月22日周二 上午12:05写道：

> 目前来说，按照我讲的方式去实现应该不难。我怕的是flink在恢复keyedState的时候，无法适应我的这种partition机制。
>
> 现有的机制，restore的时候实际是 keyGroup 到window并行实例之间的一个重分配。
>
> 换成我的partition机制后，能否还正常restore呢？
>
> 赵一旦  于2020年12月22日周二 上午12:03写道：
>
>> 如题，目前对于OperatorState来说，API层面有2个接口，即CheckpointedFunction和ListCheckpointed
>> 。即UDF中有入口对restore做自定义。
>>
>> 问题（1）KeyedState的恢复则相对黑盒。想知道相关实现在哪。
>>
>> 引申问题（2），我的原始目的为。我期望实现
>> keyBy(...).timwWindow(x).xxx()这种统计。在保留keyBy的keySelector机制前提下（即window算子部分仍然会按照key分窗口统计），通过重写部分flink的api层代码方式，强制去除keyBy中加入的
>> KeyGroupStreamPartitioner
>> ，换成使用可传入的自定义Partitioner。目的呢是希望解决“数据倾斜”，但我不想通过双层keyBy解决，因为本身key数量很少（假设100），即使是双层，那么第一层需要将key起码扩大1000倍我感觉才能足够均衡。如果能仅仅扩大比如30倍（这个倍数可以考虑和下游window算子并发一致），然后在partition中实现类似rebalance的分发机制。
>> 当然，更高级的可能还可以做智能的，比如部分key扩大，部分key不扩大。
>>
>>
>> 描述比较乱，换言之，我就直接非KeyedStream情况下，使用dataStream.flatMap，然后flatMap中使用MapState统计。类似这种效果。当然我还是希望通过改造window实现，因为window部分还有watermark以及分窗机制，flatMap需要自己实现分窗。
>>
>>

Re: flink1.10 广播流更新卡住

2020-12-22 文章赵一旦

有没有反压。

洪雪芬  于2020年12月22日周二 下午7:11写道：

> 对的，广播流算子的并行度一直为1，下游算子的并行度为1则正常，大于1则出现广播流更新卡住的情况，无报错，定位不到问题。
>
>
> > 在 2020年12月22日，18:39，赵一旦  写道：
> >
> > 并行度1就没问题吗？
> >
> > 洪雪芬  于2020年12月22日周二 下午1:45写道：
> >
> >> Hi!
> >>
> >>
> 在使用flink广播流实现配置定时更新的过程中，出现下游算子并行度大于1时，下游算子获取更新到的广播流卡住的情况，即广播流算子持续发送数据，但下游算子只接收到前一小部分数据，然后就没有接收到新数据的情况，但无报错日志。
> >> 但该问题在本地IDEA运行时无法复现，提交到集群上以yarn-cluster模式运行时则会出现。
> >> 大家有没有遇到过类似的情况？是什么原因导致这样的问题，有什么解决方案吗？
> >>
>

Re: flink1.10.1/1.11.1 使用sql 进行group 和时间窗口操作后状态越来越大

2020-12-22 文章 Storm☀️

唐云大佬好，
我关闭了chk的增量模式之后，chkstate确实不会再无线膨胀了。这个是我配置的不准确，还是一个已知问题呢



--
Sent from: http://apache-flink.147419.n8.nabble.com/

??????flink-shaded-hadoop-2-uber????????????

2020-12-22 文章 superainbower

K8SHA??HDFS


??2020??12??22?? 13:43??liujian ??
Thanks,flink-confhistory 
server,??hdfs??,??web ui??,




----
??: 
   "user-zh"

https://ci.apache.org/projects/flink/flink-docs-master/deployment/advanced/historyserver.html

 Best,
 Yang

 liujian <13597820...@qq.comgt; ??2020??12??21?? 1:35??

 gt; 
??history-server,,,??,
 gt;
 gt;
 gt;
 gt;
 gt; 
--amp;nbsp;amp;nbsp;--
 gt; ??:
 
gt;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;
 "user-zh"
 
gt;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;
 <
 gt; danrtsey...@gmail.comamp;gt;;
 gt; :amp;nbsp;2020??12??21??(??) 10:15
 gt; 
??:amp;nbsp;"user-zh"https://github.com/apache/flink-docker/blob/dev-master/docker-entrypoint.sh
 gt

Re: flink1.10 广播流更新卡住

2020-12-22 文章洪雪芬

对的，广播流算子的并行度一直为1，下游算子的并行度为1则正常，大于1则出现广播流更新卡住的情况，无报错，定位不到问题。


> 在 2020年12月22日，18:39，赵一旦  写道：
> 
> 并行度1就没问题吗？
> 
> 洪雪芬  于2020年12月22日周二 下午1:45写道：
> 
>> Hi!
>> 
>> 在使用flink广播流实现配置定时更新的过程中，出现下游算子并行度大于1时，下游算子获取更新到的广播流卡住的情况，即广播流算子持续发送数据，但下游算子只接收到前一小部分数据，然后就没有接收到新数据的情况，但无报错日志。
>> 但该问题在本地IDEA运行时无法复现，提交到集群上以yarn-cluster模式运行时则会出现。
>> 大家有没有遇到过类似的情况？是什么原因导致这样的问题，有什么解决方案吗？
>>

?????? flink 1.11 interval join??????rocksdb????????????

2020-12-22 文章 867127831

??slotrocksdb 
block_cache_usage??usageblock_cache_capacity??



mem table size??


----
??: 
   "user-zh"

Re: flink1.10 广播流更新卡住

2020-12-22 文章赵一旦

并行度1就没问题吗？

洪雪芬  于2020年12月22日周二 下午1:45写道：

> Hi!
>
> 在使用flink广播流实现配置定时更新的过程中，出现下游算子并行度大于1时，下游算子获取更新到的广播流卡住的情况，即广播流算子持续发送数据，但下游算子只接收到前一小部分数据，然后就没有接收到新数据的情况，但无报错日志。
> 但该问题在本地IDEA运行时无法复现，提交到集群上以yarn-cluster模式运行时则会出现。
> 大家有没有遇到过类似的情况？是什么原因导致这样的问题，有什么解决方案吗？
>

Re: yarn application模式提交任务失败

2020-12-22 文章 datayangl

那如果是yarn模式该怎么使用这个参数呢 -yD?



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.10.1/1.11.1 使用sql 进行group 和时间窗口操作后状态越来越大

2020-12-22 文章 Storm☀️

"计算机的解决方案是 出现问题，大都是保护现场，等问题解决后，释放现场 "
 那么解决问题的方法是？生产上state还在不断膨胀。
简单一个问题，生产上发生OOM了，短时间内无法排查出原因，请问如何处理?



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 执行mvn构建错误

2020-12-22 文章 Storm☀️

看了下找不到的包是example相关的包（不影响core相关代码），可以从别处下载下来，然后添加到本地maven库内。



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 请教一下flink1.12可以指定时间清除state吗？

2020-12-22 文章 Storm☀️

增加一个定时器，可以指定时间做清理动作。可以参考flink中window trigger的相关代码和实现。



--
Sent from: http://apache-flink.147419.n8.nabble.com/

TableEnvironment中怎么添加参数，使参数能在TaskManagerServices中能获取到？

2020-12-22 文章 jy l

Hi：
我的程序是Flink Table/SQL开发的，我想要设置参数能在TaskManagerServices中生效，怎么设置？

我使用如下设置，在TaskManagerServices中并不能获取到我设置的值。
val settings = EnvironmentSettings.newInstance()
.inBatchMode()
.build()
val tEnv = TableEnvironment.create(settings)
tEnv.getConfig.getConfiguration.set(CoreOptions.CHECK_LEAKED_CLASSLOADER,
  java.lang.Boolean.FALSE)

我能怎么设置使其能在TaskManagerServices中能生效？


-
Thanks!

Flink 操作hive 一些疑问

2020-12-22 文章 Jacob

Dear all,

我目前有个Flink job，执行完所以业务逻辑后生成了一些业务数据，然后将这些数据以ORC格式写到hdfs上，并调用hive api
将orc文件load到Hive表，至此flink job的工作结束。

后面，其他Java定时程序做Mapreduce，对上一步写进hive的数据进行后续操作。

现在升级了Flink版本，Flink可以直接操作hive，不再依赖于Mapreduce。

但这样一来，是不是需要两个flink job ，一个用来生成业务数据，一个用来操作hive 来处理这些业务数据

因为两个job的执行环境不一样，如果不操作hive，是这样的操作环境 


StreamExecutionEnvironment env =
StreamExecutionEnvironment.getExecutionEnvironment();

env.execute("my job");
如果操作hive，就需要构造这样的操作的环境

   
EnvironmentSettings settings =
EnvironmentSettings.newInstance().inBatchMode().build();
TableEnvironment tableEnv = TableEnvironment.create(settings);
..
tableEnv.executeSql(hql);

有没有什么通用的方案，让这两个job合二为一呢？我想要的效果时，当生成完业务数据后，直接操作hive，取代mapreduce的工作。



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Flink1.10.1代码自定义rocksdb backend webui中还是yaml显示默认的配置

2020-12-22 文章 Storm☀️

flink1.10.1
在代码中通过如下方式指定backend
streamEnv.setStateBackend(new
RocksDBStateBackend("hdfs:///user/flink/flink-checkpoints", false));

问题：flink web ui jm中显示的依然为yaml中默认配置
实际上面代码中的配置已经生效



--
Sent from: http://apache-flink.147419.n8.nabble.com/

pyflink 1.12 是不支持通过sql 直接向数据库获取数据的操作么？没看到相关接口

2020-12-22 文章肖越

例如：pandas.read_sql()的用法，直接返回源数据，pyflink小白，蹲大佬的答复。

yarn.provided.lib.dirs在flink1.11 yarn提交不生效

2020-12-22 文章 datayangl




flink1.11 on yarn模式，我提前将flink
lib下的依赖及自定义函数jar上传到hdfs上，提交时使用yarn.provided.lib.dirs
指定hdfs的依赖路径。原本设想程序中使用反射去寻找自定义函数的类并且实例化，但是提交时报错，程序并没有找到自定义函数的路径

提交命令:/usr/hdp/flink1.11/bin/flink run -m yarn-cluster -d -ynm udf-test -yD
yarn.provided.lib.dirs=hdfs://ip:8020/flink-yarn/jars -c
com.ly.common.udf.demo.FlinkUDFDemo  /data/bigdata/jars/udf-test.jar

相关信息如下:
2020-12-22 08:41:11,157 INFO  org.apache.flink.yarn.cli.FlinkYarnSessionCli 
  
[] - Dynamic Property set:
yarn.provided.lib.dirs=hdfs://chaitin/flink-yarn/jars
2020-12-22 08:41:11,157 INFO  org.apache.flink.yarn.cli.FlinkYarnSessionCli 
  
[] - Dynamic Property set:
yarn.provided.lib.dirs=hdfs://chaitin/flink-yarn/jars
-- class path: /usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib


 The program finished with the following exception:

org.apache.flink.client.program.ProgramInvocationException: The main method
caused an error: object com.ly.third.udf.flink.SortKey not found.
at
org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:302)
at
org.apache.flink.client.program.PackagedProgram.invokeInteractiveModeForExecution(PackagedProgram.java:198)
at 
org.apache.flink.client.ClientUtils.executeProgram(ClientUtils.java:149)
at
org.apache.flink.client.cli.CliFrontend.executeProgram(CliFrontend.java:699)
at org.apache.flink.client.cli.CliFrontend.run(CliFrontend.java:232)
at
org.apache.flink.client.cli.CliFrontend.parseParameters(CliFrontend.java:916)
at
org.apache.flink.client.cli.CliFrontend.lambda$main$10(CliFrontend.java:992)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at
org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730)
at
org.apache.flink.runtime.security.contexts.HadoopSecurityContext.runSecured(HadoopSecurityContext.java:41)
at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:992)
Caused by: scala.ScalaReflectionException: object
com.ly.third.udf.flink.SortKey not found.
at 
scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:162)
at 
scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:22)
at
com.ly.common.udf.reflect.RegisterFlinkFunction$.loadFlinkFunction(RegisterFlinkFunction.scala:14)
at com.ly.common.udf.demo.FlinkUDFDemo$.main(FlinkUDFDemo.scala:27)
at com.ly.common.udf.demo.FlinkUDFDemo.main(FlinkUDFDemo.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at
sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at
sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at
org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:288)
... 11 more



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: taskmanager.out配置滚动

2020-12-22 文章 zilong xiao

恩恩，这个场景是有的，目前看是可以通过重定向后实现，follow issue~

李杰  于2020年12月22日周二 下午3:58写道：

> Hi，
> 这个功能我们之前做过，可以看下这里。
> https://issues.apache.org/jira/browse/FLINK-20713
>
> zilong xiao  于2020年12月3日周四 下午7:50写道：
>
> > 想问下社区的大佬，标准输出文件taskmanager.out可以配置成滚动的吗？
> >
>

Flink catalog+hive问题

Re:Re: pyflink 1.12 是不支持通过sql 直接向数据库获取数据的操作么？没看到相关接口

Re: pyflink 1.12 是不支持通过sql 直接向数据库获取数据的操作么？没看到相关接口

Re: pyflink1.12 进行多表关联后的结果类型是TableResult，如何转为Table类型

Re: Re: taskmanager.out配置滚动

算子并行度设置

flink1.11 streaming和table混合使用提交到yarn会启动两个applicaion

Re: Re: taskmanager.out配置滚动

回复: Re: taskmanager.out配置滚动

Re: taskmanager.out配置滚动

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

flink1.11 streaming和table混合使用提交到yarn会启动两个applicaion

Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

Re:回复：Re:Re: flink1.11.2写hive分区表，hive识别不到分区

回复：Re:Re: flink1.11.2写hive分区表，hive识别不到分区

Re:Re: flink1.11.2写hive分区表，hive识别不到分区

Re: flink1.10 广播流更新卡住

Re: 请教关于KeyedState的恢复机制

Re: flink1.10 广播流更新卡住

Re: flink1.10.1/1.11.1 使用sql 进行group 和时间窗口操作后状态越来越大

??????flink-shaded-hadoop-2-uber????????????

Re: flink1.10 广播流更新卡住

?????? flink 1.11 interval join??????rocksdb????????????

Re: flink1.10 广播流更新卡住

Re: yarn application模式提交任务失败

Re: flink1.10.1/1.11.1 使用sql 进行group 和时间窗口操作后状态越来越大

Re: 执行mvn构建错误

Re: 请教一下flink1.12可以指定时间清除state吗？

TableEnvironment中怎么添加参数，使参数能在TaskManagerServices中能获取到？

Flink 操作hive 一些疑问

Flink1.10.1代码自定义rocksdb backend webui中还是yaml显示默认的配置

pyflink 1.12 是不支持通过sql 直接向数据库获取数据的操作么？没看到相关接口

yarn.provided.lib.dirs在flink1.11 yarn提交不生效

Re: taskmanager.out配置滚动

34 matches

Site Navigation

Mail list logo

Footer information