Flink catalog+hive问题

2020-12-22 文章 guaishushu1...@163.com
在用flink 
catalog+hive做元数据持久化的时候,发现hive的ACL权限没有起作用,麻烦问下知道的大佬,flink是会直接跳过hive的ACL权限吗?



guaishushu1...@163.com


Re:Re: pyflink 1.12 是不支持 通过sql 直接向数据库获取数据的操作么? 没看到相关接口

2020-12-22 文章 肖越
您好,感谢您的回复。
是的,目前是通过connector定义了整张表的字段来获取的数据,
connector中是否有字段支持,设置sql语句直接获取数据库检索后返回的数据呢?
现在这种方式,如若数据库表字段变更,以后很难维护啊~







在 2020-12-23 14:36:20,"Wei Zhong"  写道:
>你好,
>
>pyflink需要通过声明jdbc connector的方式来从数据库中获取数据。
>
>> 在 2020年12月22日,17:40,肖越 <18242988...@163.com> 写道:
>> 
>> 例如:pandas.read_sql()的用法,直接返回源数据,pyflink小白,蹲大佬的答复。
>


Re: pyflink 1.12 是不支持 通过sql 直接向数据库获取数据的操作么? 没看到相关接口

2020-12-22 文章 Wei Zhong
你好,

pyflink需要通过声明jdbc connector的方式来从数据库中获取数据。

> 在 2020年12月22日,17:40,肖越 <18242988...@163.com> 写道:
> 
> 例如:pandas.read_sql()的用法,直接返回源数据,pyflink小白,蹲大佬的答复。



Re: pyflink1.12 进行多表关联后的结果类型是TableResult,如何转为Table类型

2020-12-22 文章 Wei Zhong
你好,

使用env.sql_update()执行select语句可以获得Table类型的结果。

> 在 2020年12月22日,13:25,肖越 <18242988...@163.com> 写道:
> 
> 通过sql进行左连接查询,sql语句为:
> sql = ''' Insert into print_sink select a.id, a.pf_id, b.symbol_id from  a \
> left join b on b.day_id = a.biz_date where a.ccy_type = 'AC' and \
> a.pf_id = '1030100122' and b.symbol_id = '2030004042' and a.biz_date 
> between '20160701' and '20170307' '''
> 
> 
> table_result = env.execute_sql(sql)
> 通过env.execute_sql()执行后的结果是 TableResult , 如何转成Table类型?
> 或者有哪些其他的方式,可以直接执行表的连接操作,返回结果是Table类型?
> 



Re: Re: taskmanager.out配置滚动

2020-12-22 文章 李杰
我们修改了flinkonyarn, 使得taskmanager.out 和 taskmanager.err /
jobmanager.err支持文件滚动。

zilong xiao  于2020年12月23日周三 下午2:05写道:

> 为啥1.11可以呢?
>
> hdxg1101300123  于2020年12月23日周三 下午1:51写道:
>
> > 1.11可以
> >
> >
> >
> > 发自vivo智能手机
> > > 之前在社区我提过一次redirect的方案,但其他人有一些concerns,可以参考一下
> > >
> > > https://github.com/apache/flink/pull/11839#pullrequestreview-399769862
> > >
> > > zilong xiao  于2020年12月22日周二 下午4:13写道:
> > >
> > > > 恩恩,这个场景是有的,目前看是可以通过重定向后实现,follow issue~
> > > >
> > > > 李杰  于2020年12月22日周二 下午3:58写道:
> > > >
> > > > > Hi,
> > > > > 这个功能我们之前做过,可以看下这里。
> > > > > https://issues.apache.org/jira/browse/FLINK-20713
> > > > >
> > > > > zilong xiao  于2020年12月3日周四 下午7:50写道:
> > > > >
> > > > > > 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗?
> > > > > >
> > > > >
> > > >
> >
>


算子并行度设置

2020-12-22 文章 赵一旦
如果我设置了并行度为130,那么最大并行度会自动提升吗? -- 应该是的,否则不可能有数据收到。

但我没看到源码在哪调整的最大并行度。


flink1.11 streaming和table混合使用提交到yarn会启动两个applicaion

2020-12-22 文章 kingdomad
消费kafka流,用tableEnv创建视图,再用tableEnv.executeSql执行insert语句写入hive表。
如果程序中出现了StreamExecutionEnvironment.execute,提交到yarn会启动两个applicaion。
如果把StreamExecutionEnvironment.execute注释掉,则只会有一个applicaion。
求助大佬们,
这是正常的吗?
flink这是把table的逻辑放在一个application上,streaming的逻辑放在另一个application上吗?













--

kingdomad






 

Re: Re: taskmanager.out配置滚动

2020-12-22 文章 zilong xiao
为啥1.11可以呢?

hdxg1101300123  于2020年12月23日周三 下午1:51写道:

> 1.11可以
>
>
>
> 发自vivo智能手机
> > 之前在社区我提过一次redirect的方案,但其他人有一些concerns,可以参考一下
> >
> > https://github.com/apache/flink/pull/11839#pullrequestreview-399769862
> >
> > zilong xiao  于2020年12月22日周二 下午4:13写道:
> >
> > > 恩恩,这个场景是有的,目前看是可以通过重定向后实现,follow issue~
> > >
> > > 李杰  于2020年12月22日周二 下午3:58写道:
> > >
> > > > Hi,
> > > > 这个功能我们之前做过,可以看下这里。
> > > > https://issues.apache.org/jira/browse/FLINK-20713
> > > >
> > > > zilong xiao  于2020年12月3日周四 下午7:50写道:
> > > >
> > > > > 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗?
> > > > >
> > > >
> > >
>


回复: Re: taskmanager.out配置滚动

2020-12-22 文章 hdxg1101300123
1.11可以



发自vivo智能手机
> 之前在社区我提过一次redirect的方案,但其他人有一些concerns,可以参考一下 
>
> https://github.com/apache/flink/pull/11839#pullrequestreview-399769862 
>
> zilong xiao  于2020年12月22日周二 下午4:13写道: 
>
> > 恩恩,这个场景是有的,目前看是可以通过重定向后实现,follow issue~ 
> > 
> > 李杰  于2020年12月22日周二 下午3:58写道: 
> > 
> > > Hi, 
> > > 这个功能我们之前做过,可以看下这里。 
> > > https://issues.apache.org/jira/browse/FLINK-20713 
> > > 
> > > zilong xiao  于2020年12月3日周四 下午7:50写道: 
> > > 
> > > > 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗? 
> > > > 
> > > 
> > 


Re: taskmanager.out配置滚动

2020-12-22 文章 Yang Wang
之前在社区我提过一次redirect的方案,但其他人有一些concerns,可以参考一下

https://github.com/apache/flink/pull/11839#pullrequestreview-399769862

zilong xiao  于2020年12月22日周二 下午4:13写道:

> 恩恩,这个场景是有的,目前看是可以通过重定向后实现,follow issue~
>
> 李杰  于2020年12月22日周二 下午3:58写道:
>
> > Hi,
> > 这个功能我们之前做过,可以看下这里。
> > https://issues.apache.org/jira/browse/FLINK-20713
> >
> > zilong xiao  于2020年12月3日周四 下午7:50写道:
> >
> > > 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗?
> > >
> >
>


Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-22 文章 Yang Wang
在Yarn上将需要给Flink使用的机器单独划分到一个partition里面,使用node label可以实现

然后在提交Flink任务的时候使用yarn.application.node-label来指定就可以了。partition是可以保证排他的,不带这个label的调度不上来

Best,
Yang

r pp  于2020年12月23日周三 上午11:18写道:

> flink 提交到特定的node ,可以保证 其它的任务 不能提交到flink特定的node 上么?
>
> xiao cai  于2020年12月22日周二 上午10:28写道:
>
> > Hi
> > 可以考虑使用yarn的node label特性,将flink的任务提交到特定的node上
> >
> >
> >  Original Message
> > Sender: r pp
> > Recipient: user-zh
> > Date: Monday, Dec 21, 2020 21:25
> > Subject: Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点
> >
> >
> > 嗯,指定几台机子 用于使用flink 运行,为什么 不在yarn 为flink 专门制定 一个队列呢?需要 网络隔离 。。。内网速度多大? <
> > afweij...@163.com> 于2020年12月21日周一 下午5:48写道: > 通过yarn label可以实现 > >
> > -邮件原件- > 发件人: user-zh-return-10095-afweijian=
> > 163@flink.apache.org >  > 163@flink.apache.org> 代表 yujianbo > 发送时间: 2020年12月21日 16:44 > 收件人:
> > user-zh@flink.apache.org > 主题: Flink on yarn
> 如何指定固定几台yarn节点当做flink任务的运行节点
> > > > 各位大佬好: > 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? > > > > -- >
> > Sent from: http://apache-flink.147419.n8.nabble.com/ >
>


flink1.11 streaming和table混合使用提交到yarn会启动两个applicaion

2020-12-22 文章 kingdomad
消费kafka流,用tableEnv创建视图,再用tableEnv.executeSql执行insert语句写入hive表。
如果程序中出现了StreamExecutionEnvironment.execute,提交到yarn会启动两个applicaion。
如果把StreamExecutionEnvironment.execute注释掉,则只会有一个applicaion。
求助大佬们,
这是正常的吗?
flink这是把table的逻辑放在一个application上,streaming的逻辑放在另一个application上吗?













--

kingdomad



Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-22 文章 r pp
flink 提交到特定的node ,可以保证 其它的任务 不能提交到flink特定的node 上么?

xiao cai  于2020年12月22日周二 上午10:28写道:

> Hi
> 可以考虑使用yarn的node label特性,将flink的任务提交到特定的node上
>
>
>  Original Message
> Sender: r pp
> Recipient: user-zh
> Date: Monday, Dec 21, 2020 21:25
> Subject: Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点
>
>
> 嗯,指定几台机子 用于使用flink 运行,为什么 不在yarn 为flink 专门制定 一个队列呢?需要 网络隔离 。。。内网速度多大? <
> afweij...@163.com> 于2020年12月21日周一 下午5:48写道: > 通过yarn label可以实现 > >
> -邮件原件- > 发件人: user-zh-return-10095-afweijian=
> 163@flink.apache.org >  163@flink.apache.org> 代表 yujianbo > 发送时间: 2020年12月21日 16:44 > 收件人:
> user-zh@flink.apache.org > 主题: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点
> > > 各位大佬好: > 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? > > > > -- >
> Sent from: http://apache-flink.147419.n8.nabble.com/ >


Re:回复:Re:Re: flink1.11.2写hive分区表,hive识别不到分区

2020-12-22 文章 kingdomad
是的。开启了checkpoint。
消费kafka,用tableEnv把stream注册成TemporaryView。
然后执行sql写入到hive的表中。













--

kingdomad







在 2020-12-23 09:22:48,"范瑞" <836961...@qq.com> 写道:
>Hello
>
>
>请问是使用 Sql吧?开启cp了吗?
>
>
>
>---原始邮件---
>发件人: "kingdomad"发送时间: 2020年12月23日(周三) 上午9:17
>收件人: "user-zh"主题: Re:Re: flink1.11.2写hive分区表,hive识别不到分区
>
>
>分区用的是记录中的字段,没有用到processing time或者event time去生成分区。
>发现只要给hive的表加上以下这三个属性就可以马上提交分区到metastore了。
>'sink.partition-commit.trigger'='process-time'
>'sink.partition-commit.delay'='0s'
>'sink.partition-commit.policy.kind'='metastore,success-file'
>
>
>
>
>
>
>
>
>
>
>
>
>
>--
>
>kingdomad
>
>
>
>
>
>
>
>在 2020-12-21 23:27:49,"赵一旦" 即使不是flink写入,其他方式写入也需要这样做的哈。
>
>r pp 
> 程序中,创建表后,执行命令。
>
> kingdomad 
> 
> 
>flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。
>  需要执行msck repair table修复分区表后,hive才能读取到数据。
>  求助大佬,要如何解决。
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
> 
>  --
> 
>  kingdomad
> 
> 
>


回复:Re:Re: flink1.11.2写hive分区表,hive识别不到分区

2020-12-22 文章 范瑞
Hello


请问是使用 Sql吧?开启cp了吗?



---原始邮件---
发件人: "kingdomad"

Re:Re: flink1.11.2写hive分区表,hive识别不到分区

2020-12-22 文章 kingdomad
分区用的是记录中的字段,没有用到processing time或者event time去生成分区。
发现只要给hive的表加上以下这三个属性就可以马上提交分区到metastore了。
'sink.partition-commit.trigger'='process-time'
'sink.partition-commit.delay'='0s'
'sink.partition-commit.policy.kind'='metastore,success-file'













--

kingdomad







在 2020-12-21 23:27:49,"赵一旦"  写道:
>即使不是flink写入,其他方式写入也需要这样做的哈。
>
>r pp  于2020年12月21日周一 下午9:28写道:
>
>> 程序中,创建表后,执行命令。
>>
>> kingdomad  于2020年12月21日周一 下午4:55写道:
>>
>> >
>> flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。
>> > 需要执行msck repair table修复分区表后,hive才能读取到数据。
>> > 求助大佬,要如何解决。
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> > --
>> >
>> > kingdomad
>> >
>> >
>>


Re: flink1.10 广播流更新卡住

2020-12-22 文章 洪雪芬
从监控上看没有反压。广播流的数据量并不大,几百k,定时更新的间隔设的是1分钟。
> 
> 
>> 在 2020年12月22日,20:53,赵一旦  写道:
>> 
>> 有没有反压。
>> 
>> 洪雪芬  于2020年12月22日周二 下午7:11写道:
>> 
>>> 对的,广播流算子的并行度一直为1,下游算子的并行度为1则正常,大于1则出现广播流更新卡住的情况,无报错,定位不到问题。
>>> 
>>> 
>> 在 2020年12月22日,18:39,赵一旦  写道:
> 
> 并行度1就没问题吗?
> 
> 洪雪芬  于2020年12月22日周二 下午1:45写道:
> 
>> Hi!
>> 
>> 
>>> 在使用flink广播流实现配置定时更新的过程中,出现下游算子并行度大于1时,下游算子获取更新到的广播流卡住的情况,即广播流算子持续发送数据,但下游算子只接收到前一小部分数据,然后就没有接收到新数据的情况,但无报错日志。
> 但该问题在本地IDEA运行时无法复现,提交到集群上以yarn-cluster模式运行时则会出现。
> 大家有没有遇到过类似的情况?是什么原因导致这样的问题,有什么解决方案吗?
> 
>>> 


Re: 请教关于KeyedState的恢复机制

2020-12-22 文章 赵一旦
没有大神懂这个的吗?帮忙分析下。

赵一旦  于2020年12月22日周二 上午12:05写道:

> 目前来说,按照我讲的方式去实现应该不难。我怕的是flink在恢复keyedState的时候,无法适应我的这种partition机制。
>
> 现有的机制,restore的时候实际是 keyGroup 到window并行实例之间的一个重分配。
>
> 换成我的partition机制后,能否还正常restore呢?
>
> 赵一旦  于2020年12月22日周二 上午12:03写道:
>
>> 如题,目前对于OperatorState来说,API层面有2个接口,即CheckpointedFunction和ListCheckpointed
>> 。即UDF中有入口对restore做自定义。
>>
>> 问题(1)KeyedState的恢复则相对黑盒。想知道相关实现在哪。
>>
>> 引申问题(2),我的原始目的为。我期望实现
>> keyBy(...).timwWindow(x).xxx()这种统计。在保留keyBy的keySelector机制前提下(即window算子部分仍然会按照key分窗口统计),通过重写部分flink的api层代码方式,强制去除keyBy中加入的
>> KeyGroupStreamPartitioner
>> ,换成使用可传入的自定义Partitioner。目的呢是希望解决“数据倾斜”,但我不想通过双层keyBy解决,因为本身key数量很少(假设100),即使是双层,那么第一层需要将key起码扩大1000倍我感觉才能足够均衡。如果能仅仅扩大比如30倍(这个倍数可以考虑和下游window算子并发一致),然后在partition中实现类似rebalance的分发机制。
>> 当然,更高级的可能还可以做智能的,比如部分key扩大,部分key不扩大。
>>
>>
>> 描述比较乱,换言之,我就直接非KeyedStream情况下,使用dataStream.flatMap,然后flatMap中使用MapState统计。类似这种效果。当然我还是希望通过改造window实现,因为window部分还有watermark以及分窗机制,flatMap需要自己实现分窗。
>>
>>


Re: flink1.10 广播流更新卡住

2020-12-22 文章 赵一旦
有没有反压。

洪雪芬  于2020年12月22日周二 下午7:11写道:

> 对的,广播流算子的并行度一直为1,下游算子的并行度为1则正常,大于1则出现广播流更新卡住的情况,无报错,定位不到问题。
>
>
> > 在 2020年12月22日,18:39,赵一旦  写道:
> >
> > 并行度1就没问题吗?
> >
> > 洪雪芬  于2020年12月22日周二 下午1:45写道:
> >
> >> Hi!
> >>
> >>
> 在使用flink广播流实现配置定时更新的过程中,出现下游算子并行度大于1时,下游算子获取更新到的广播流卡住的情况,即广播流算子持续发送数据,但下游算子只接收到前一小部分数据,然后就没有接收到新数据的情况,但无报错日志。
> >> 但该问题在本地IDEA运行时无法复现,提交到集群上以yarn-cluster模式运行时则会出现。
> >> 大家有没有遇到过类似的情况?是什么原因导致这样的问题,有什么解决方案吗?
> >>
>


Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

2020-12-22 文章 Storm☀️
唐云大佬好,
我关闭了chk的增量模式之后,chkstate确实不会再无线膨胀了。这个是我配置的不准确,还是一个已知问题呢



--
Sent from: http://apache-flink.147419.n8.nabble.com/

??????flink-shaded-hadoop-2-uber????????????

2020-12-22 文章 superainbower
K8SHA??HDFS


??2020??12??22?? 13:43??liujian ??
Thanks,flink-confhistory 
server,??hdfs??,??web ui??,




----
??: 
   "user-zh"

https://ci.apache.org/projects/flink/flink-docs-master/deployment/advanced/historyserver.html

 Best,
 Yang

 liujian <13597820...@qq.comgt; ??2020??12??21?? 1:35??

 gt; 
??history-server,,,??,
 gt;
 gt;
 gt;
 gt;
 gt; 
--amp;nbsp;amp;nbsp;--
 gt; ??:
 
gt;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;
 "user-zh"
 
gt;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;
 <
 gt; danrtsey...@gmail.comamp;gt;;
 gt; :amp;nbsp;2020??12??21??(??) 10:15
 gt; 
??:amp;nbsp;"user-zh"https://github.com/apache/flink-docker/blob/dev-master/docker-entrypoint.sh
 gt
 


Re: flink1.10 广播流更新卡住

2020-12-22 文章 洪雪芬
对的,广播流算子的并行度一直为1,下游算子的并行度为1则正常,大于1则出现广播流更新卡住的情况,无报错,定位不到问题。


> 在 2020年12月22日,18:39,赵一旦  写道:
> 
> 并行度1就没问题吗?
> 
> 洪雪芬  于2020年12月22日周二 下午1:45写道:
> 
>> Hi!
>> 
>> 在使用flink广播流实现配置定时更新的过程中,出现下游算子并行度大于1时,下游算子获取更新到的广播流卡住的情况,即广播流算子持续发送数据,但下游算子只接收到前一小部分数据,然后就没有接收到新数据的情况,但无报错日志。
>> 但该问题在本地IDEA运行时无法复现,提交到集群上以yarn-cluster模式运行时则会出现。
>> 大家有没有遇到过类似的情况?是什么原因导致这样的问题,有什么解决方案吗?
>> 


?????? flink 1.11 interval join??????rocksdb????????????

2020-12-22 文章 867127831
??slotrocksdb 
block_cache_usage??usageblock_cache_capacity??



mem table size??


----
??: 
   "user-zh"



Re: flink1.10 广播流更新卡住

2020-12-22 文章 赵一旦
并行度1就没问题吗?

洪雪芬  于2020年12月22日周二 下午1:45写道:

> Hi!
>
> 在使用flink广播流实现配置定时更新的过程中,出现下游算子并行度大于1时,下游算子获取更新到的广播流卡住的情况,即广播流算子持续发送数据,但下游算子只接收到前一小部分数据,然后就没有接收到新数据的情况,但无报错日志。
> 但该问题在本地IDEA运行时无法复现,提交到集群上以yarn-cluster模式运行时则会出现。
> 大家有没有遇到过类似的情况?是什么原因导致这样的问题,有什么解决方案吗?
>


Re: yarn application模式提交任务失败

2020-12-22 文章 datayangl
那如果是yarn模式该怎么使用这个参数呢 -yD?



--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

2020-12-22 文章 Storm☀️
"计算机的解决方案是 出现问题,大都是保护现场,等问题解决后,释放现场 "
 那么解决问题的方法是?生产上state还在不断膨胀。
简单一个问题,生产上发生OOM了,短时间内无法排查出原因,请问如何处理?



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 执行mvn构建错误

2020-12-22 文章 Storm☀️
看了下找不到的包是example相关的包(不影响core相关代码),可以从别处下载下来,然后添加到本地maven库内。



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 请教一下flink1.12可以指定时间清除state吗?

2020-12-22 文章 Storm☀️
增加一个定时器,可以指定时间做清理动作。可以参考flink中window trigger的相关代码和实现。



--
Sent from: http://apache-flink.147419.n8.nabble.com/

TableEnvironment中怎么添加参数,使参数能在TaskManagerServices中能获取到?

2020-12-22 文章 jy l
Hi:
我的程序是Flink Table/SQL开发的,我想要设置参数能在TaskManagerServices中生效,怎么设置?

我使用如下设置,在TaskManagerServices中并不能获取到我设置的值。
val settings = EnvironmentSettings.newInstance()
.inBatchMode()
.build()
val tEnv = TableEnvironment.create(settings)
tEnv.getConfig.getConfiguration.set(CoreOptions.CHECK_LEAKED_CLASSLOADER,
  java.lang.Boolean.FALSE)

我能怎么设置使其能在TaskManagerServices中能生效?


-
Thanks!


Flink 操作hive 一些疑问

2020-12-22 文章 Jacob
Dear all,

我目前有个Flink job,执行完所以业务逻辑后生成了一些业务数据,然后将这些数据以ORC格式写到hdfs上,并调用hive api
将orc文件load到Hive表,至此flink job的工作结束。

后面,其他Java定时程序做Mapreduce,对上一步写进hive的数据进行后续操作。

现在升级了Flink版本,Flink可以直接操作hive,不再依赖于Mapreduce。

但这样一来,是不是需要两个flink job ,一个用来生成业务数据,一个用来操作hive 来处理这些业务数据

因为两个job的执行环境不一样,如果不操作hive,是这样的操作环境 


StreamExecutionEnvironment env =
StreamExecutionEnvironment.getExecutionEnvironment();

env.execute("my job");
如果操作hive,就需要构造这样的操作的环境

   
EnvironmentSettings settings =
EnvironmentSettings.newInstance().inBatchMode().build();
TableEnvironment tableEnv = TableEnvironment.create(settings);
..
tableEnv.executeSql(hql);

有没有什么通用的方案,让这两个job合二为一呢?我想要的效果时,当生成完业务数据后,直接操作hive,取代mapreduce的工作。



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Flink1.10.1代码自定义rocksdb backend webui中还是yaml显示默认的配置

2020-12-22 文章 Storm☀️
flink1.10.1
在代码中通过如下方式指定backend
streamEnv.setStateBackend(new
RocksDBStateBackend("hdfs:///user/flink/flink-checkpoints", false));

问题:flink web ui jm中显示的依然为yaml中默认配置
实际上面代码中的配置已经生效



--
Sent from: http://apache-flink.147419.n8.nabble.com/


pyflink 1.12 是不支持 通过sql 直接向数据库获取数据的操作么? 没看到相关接口

2020-12-22 文章 肖越
例如:pandas.read_sql()的用法,直接返回源数据,pyflink小白,蹲大佬的答复。


yarn.provided.lib.dirs在flink1.11 yarn提交不生效

2020-12-22 文章 datayangl



flink1.11 on yarn模式,我提前将flink
lib下的依赖及自定义函数jar上传到hdfs上,提交时使用yarn.provided.lib.dirs
指定hdfs的依赖路径。原本设想程序中使用反射去寻找自定义函数的类并且实例化,但是提交时报错,程序并没有找到自定义函数的路径

提交命令:/usr/hdp/flink1.11/bin/flink run -m yarn-cluster -d -ynm udf-test -yD
yarn.provided.lib.dirs=hdfs://ip:8020/flink-yarn/jars -c
com.ly.common.udf.demo.FlinkUDFDemo  /data/bigdata/jars/udf-test.jar

相关信息如下:
2020-12-22 08:41:11,157 INFO  org.apache.flink.yarn.cli.FlinkYarnSessionCli 
  
[] - Dynamic Property set:
yarn.provided.lib.dirs=hdfs://chaitin/flink-yarn/jars
2020-12-22 08:41:11,157 INFO  org.apache.flink.yarn.cli.FlinkYarnSessionCli 
  
[] - Dynamic Property set:
yarn.provided.lib.dirs=hdfs://chaitin/flink-yarn/jars
-- class path: /usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib


 The program finished with the following exception:

org.apache.flink.client.program.ProgramInvocationException: The main method
caused an error: object com.ly.third.udf.flink.SortKey not found.
at
org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:302)
at
org.apache.flink.client.program.PackagedProgram.invokeInteractiveModeForExecution(PackagedProgram.java:198)
at 
org.apache.flink.client.ClientUtils.executeProgram(ClientUtils.java:149)
at
org.apache.flink.client.cli.CliFrontend.executeProgram(CliFrontend.java:699)
at org.apache.flink.client.cli.CliFrontend.run(CliFrontend.java:232)
at
org.apache.flink.client.cli.CliFrontend.parseParameters(CliFrontend.java:916)
at
org.apache.flink.client.cli.CliFrontend.lambda$main$10(CliFrontend.java:992)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at
org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730)
at
org.apache.flink.runtime.security.contexts.HadoopSecurityContext.runSecured(HadoopSecurityContext.java:41)
at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:992)
Caused by: scala.ScalaReflectionException: object
com.ly.third.udf.flink.SortKey not found.
at 
scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:162)
at 
scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:22)
at
com.ly.common.udf.reflect.RegisterFlinkFunction$.loadFlinkFunction(RegisterFlinkFunction.scala:14)
at com.ly.common.udf.demo.FlinkUDFDemo$.main(FlinkUDFDemo.scala:27)
at com.ly.common.udf.demo.FlinkUDFDemo.main(FlinkUDFDemo.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at
sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at
sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at
org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:288)
... 11 more



--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: taskmanager.out配置滚动

2020-12-22 文章 zilong xiao
恩恩,这个场景是有的,目前看是可以通过重定向后实现,follow issue~

李杰  于2020年12月22日周二 下午3:58写道:

> Hi,
> 这个功能我们之前做过,可以看下这里。
> https://issues.apache.org/jira/browse/FLINK-20713
>
> zilong xiao  于2020年12月3日周四 下午7:50写道:
>
> > 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗?
> >
>