Flink catalog+hive问题
在用flink catalog+hive做元数据持久化的时候,发现hive的ACL权限没有起作用,麻烦问下知道的大佬,flink是会直接跳过hive的ACL权限吗? guaishushu1...@163.com
Re:Re: pyflink 1.12 是不支持 通过sql 直接向数据库获取数据的操作么? 没看到相关接口
您好,感谢您的回复。 是的,目前是通过connector定义了整张表的字段来获取的数据, connector中是否有字段支持,设置sql语句直接获取数据库检索后返回的数据呢? 现在这种方式,如若数据库表字段变更,以后很难维护啊~ 在 2020-12-23 14:36:20,"Wei Zhong" 写道: >你好, > >pyflink需要通过声明jdbc connector的方式来从数据库中获取数据。 > >> 在 2020年12月22日,17:40,肖越 <18242988...@163.com> 写道: >> >> 例如:pandas.read_sql()的用法,直接返回源数据,pyflink小白,蹲大佬的答复。 >
Re: pyflink 1.12 是不支持 通过sql 直接向数据库获取数据的操作么? 没看到相关接口
你好, pyflink需要通过声明jdbc connector的方式来从数据库中获取数据。 > 在 2020年12月22日,17:40,肖越 <18242988...@163.com> 写道: > > 例如:pandas.read_sql()的用法,直接返回源数据,pyflink小白,蹲大佬的答复。
Re: pyflink1.12 进行多表关联后的结果类型是TableResult,如何转为Table类型
你好, 使用env.sql_update()执行select语句可以获得Table类型的结果。 > 在 2020年12月22日,13:25,肖越 <18242988...@163.com> 写道: > > 通过sql进行左连接查询,sql语句为: > sql = ''' Insert into print_sink select a.id, a.pf_id, b.symbol_id from a \ > left join b on b.day_id = a.biz_date where a.ccy_type = 'AC' and \ > a.pf_id = '1030100122' and b.symbol_id = '2030004042' and a.biz_date > between '20160701' and '20170307' ''' > > > table_result = env.execute_sql(sql) > 通过env.execute_sql()执行后的结果是 TableResult , 如何转成Table类型? > 或者有哪些其他的方式,可以直接执行表的连接操作,返回结果是Table类型? >
Re: Re: taskmanager.out配置滚动
我们修改了flinkonyarn, 使得taskmanager.out 和 taskmanager.err / jobmanager.err支持文件滚动。 zilong xiao 于2020年12月23日周三 下午2:05写道: > 为啥1.11可以呢? > > hdxg1101300123 于2020年12月23日周三 下午1:51写道: > > > 1.11可以 > > > > > > > > 发自vivo智能手机 > > > 之前在社区我提过一次redirect的方案,但其他人有一些concerns,可以参考一下 > > > > > > https://github.com/apache/flink/pull/11839#pullrequestreview-399769862 > > > > > > zilong xiao 于2020年12月22日周二 下午4:13写道: > > > > > > > 恩恩,这个场景是有的,目前看是可以通过重定向后实现,follow issue~ > > > > > > > > 李杰 于2020年12月22日周二 下午3:58写道: > > > > > > > > > Hi, > > > > > 这个功能我们之前做过,可以看下这里。 > > > > > https://issues.apache.org/jira/browse/FLINK-20713 > > > > > > > > > > zilong xiao 于2020年12月3日周四 下午7:50写道: > > > > > > > > > > > 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗? > > > > > > > > > > > > > > > > > >
算子并行度设置
如果我设置了并行度为130,那么最大并行度会自动提升吗? -- 应该是的,否则不可能有数据收到。 但我没看到源码在哪调整的最大并行度。
flink1.11 streaming和table混合使用提交到yarn会启动两个applicaion
消费kafka流,用tableEnv创建视图,再用tableEnv.executeSql执行insert语句写入hive表。 如果程序中出现了StreamExecutionEnvironment.execute,提交到yarn会启动两个applicaion。 如果把StreamExecutionEnvironment.execute注释掉,则只会有一个applicaion。 求助大佬们, 这是正常的吗? flink这是把table的逻辑放在一个application上,streaming的逻辑放在另一个application上吗? -- kingdomad
Re: Re: taskmanager.out配置滚动
为啥1.11可以呢? hdxg1101300123 于2020年12月23日周三 下午1:51写道: > 1.11可以 > > > > 发自vivo智能手机 > > 之前在社区我提过一次redirect的方案,但其他人有一些concerns,可以参考一下 > > > > https://github.com/apache/flink/pull/11839#pullrequestreview-399769862 > > > > zilong xiao 于2020年12月22日周二 下午4:13写道: > > > > > 恩恩,这个场景是有的,目前看是可以通过重定向后实现,follow issue~ > > > > > > 李杰 于2020年12月22日周二 下午3:58写道: > > > > > > > Hi, > > > > 这个功能我们之前做过,可以看下这里。 > > > > https://issues.apache.org/jira/browse/FLINK-20713 > > > > > > > > zilong xiao 于2020年12月3日周四 下午7:50写道: > > > > > > > > > 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗? > > > > > > > > > > > > >
回复: Re: taskmanager.out配置滚动
1.11可以 发自vivo智能手机 > 之前在社区我提过一次redirect的方案,但其他人有一些concerns,可以参考一下 > > https://github.com/apache/flink/pull/11839#pullrequestreview-399769862 > > zilong xiao 于2020年12月22日周二 下午4:13写道: > > > 恩恩,这个场景是有的,目前看是可以通过重定向后实现,follow issue~ > > > > 李杰 于2020年12月22日周二 下午3:58写道: > > > > > Hi, > > > 这个功能我们之前做过,可以看下这里。 > > > https://issues.apache.org/jira/browse/FLINK-20713 > > > > > > zilong xiao 于2020年12月3日周四 下午7:50写道: > > > > > > > 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗? > > > > > > > > >
Re: taskmanager.out配置滚动
之前在社区我提过一次redirect的方案,但其他人有一些concerns,可以参考一下 https://github.com/apache/flink/pull/11839#pullrequestreview-399769862 zilong xiao 于2020年12月22日周二 下午4:13写道: > 恩恩,这个场景是有的,目前看是可以通过重定向后实现,follow issue~ > > 李杰 于2020年12月22日周二 下午3:58写道: > > > Hi, > > 这个功能我们之前做过,可以看下这里。 > > https://issues.apache.org/jira/browse/FLINK-20713 > > > > zilong xiao 于2020年12月3日周四 下午7:50写道: > > > > > 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗? > > > > > >
Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点
在Yarn上将需要给Flink使用的机器单独划分到一个partition里面,使用node label可以实现 然后在提交Flink任务的时候使用yarn.application.node-label来指定就可以了。partition是可以保证排他的,不带这个label的调度不上来 Best, Yang r pp 于2020年12月23日周三 上午11:18写道: > flink 提交到特定的node ,可以保证 其它的任务 不能提交到flink特定的node 上么? > > xiao cai 于2020年12月22日周二 上午10:28写道: > > > Hi > > 可以考虑使用yarn的node label特性,将flink的任务提交到特定的node上 > > > > > > Original Message > > Sender: r pp > > Recipient: user-zh > > Date: Monday, Dec 21, 2020 21:25 > > Subject: Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点 > > > > > > 嗯,指定几台机子 用于使用flink 运行,为什么 不在yarn 为flink 专门制定 一个队列呢?需要 网络隔离 。。。内网速度多大? < > > afweij...@163.com> 于2020年12月21日周一 下午5:48写道: > 通过yarn label可以实现 > > > > -邮件原件- > 发件人: user-zh-return-10095-afweijian= > > 163@flink.apache.org > > 163@flink.apache.org> 代表 yujianbo > 发送时间: 2020年12月21日 16:44 > 收件人: > > user-zh@flink.apache.org > 主题: Flink on yarn > 如何指定固定几台yarn节点当做flink任务的运行节点 > > > > 各位大佬好: > 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? > > > > -- > > > Sent from: http://apache-flink.147419.n8.nabble.com/ > >
flink1.11 streaming和table混合使用提交到yarn会启动两个applicaion
消费kafka流,用tableEnv创建视图,再用tableEnv.executeSql执行insert语句写入hive表。 如果程序中出现了StreamExecutionEnvironment.execute,提交到yarn会启动两个applicaion。 如果把StreamExecutionEnvironment.execute注释掉,则只会有一个applicaion。 求助大佬们, 这是正常的吗? flink这是把table的逻辑放在一个application上,streaming的逻辑放在另一个application上吗? -- kingdomad
Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点
flink 提交到特定的node ,可以保证 其它的任务 不能提交到flink特定的node 上么? xiao cai 于2020年12月22日周二 上午10:28写道: > Hi > 可以考虑使用yarn的node label特性,将flink的任务提交到特定的node上 > > > Original Message > Sender: r pp > Recipient: user-zh > Date: Monday, Dec 21, 2020 21:25 > Subject: Re: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点 > > > 嗯,指定几台机子 用于使用flink 运行,为什么 不在yarn 为flink 专门制定 一个队列呢?需要 网络隔离 。。。内网速度多大? < > afweij...@163.com> 于2020年12月21日周一 下午5:48写道: > 通过yarn label可以实现 > > > -邮件原件- > 发件人: user-zh-return-10095-afweijian= > 163@flink.apache.org > 163@flink.apache.org> 代表 yujianbo > 发送时间: 2020年12月21日 16:44 > 收件人: > user-zh@flink.apache.org > 主题: Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点 > > > 各位大佬好: > 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? > > > > -- > > Sent from: http://apache-flink.147419.n8.nabble.com/ >
Re:回复:Re:Re: flink1.11.2写hive分区表,hive识别不到分区
是的。开启了checkpoint。 消费kafka,用tableEnv把stream注册成TemporaryView。 然后执行sql写入到hive的表中。 -- kingdomad 在 2020-12-23 09:22:48,"范瑞" <836961...@qq.com> 写道: >Hello > > >请问是使用 Sql吧?开启cp了吗? > > > >---原始邮件--- >发件人: "kingdomad"发送时间: 2020年12月23日(周三) 上午9:17 >收件人: "user-zh"主题: Re:Re: flink1.11.2写hive分区表,hive识别不到分区 > > >分区用的是记录中的字段,没有用到processing time或者event time去生成分区。 >发现只要给hive的表加上以下这三个属性就可以马上提交分区到metastore了。 >'sink.partition-commit.trigger'='process-time' >'sink.partition-commit.delay'='0s' >'sink.partition-commit.policy.kind'='metastore,success-file' > > > > > > > > > > > > > >-- > >kingdomad > > > > > > > >在 2020-12-21 23:27:49,"赵一旦" 即使不是flink写入,其他方式写入也需要这样做的哈。 > >r pp > 程序中,创建表后,执行命令。 > > kingdomad > > >flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。 > 需要执行msck repair table修复分区表后,hive才能读取到数据。 > 求助大佬,要如何解决。 > > > > > > > > > > > > > > > > > -- > > kingdomad > > >
回复:Re:Re: flink1.11.2写hive分区表,hive识别不到分区
Hello 请问是使用 Sql吧?开启cp了吗? ---原始邮件--- 发件人: "kingdomad"
Re:Re: flink1.11.2写hive分区表,hive识别不到分区
分区用的是记录中的字段,没有用到processing time或者event time去生成分区。 发现只要给hive的表加上以下这三个属性就可以马上提交分区到metastore了。 'sink.partition-commit.trigger'='process-time' 'sink.partition-commit.delay'='0s' 'sink.partition-commit.policy.kind'='metastore,success-file' -- kingdomad 在 2020-12-21 23:27:49,"赵一旦" 写道: >即使不是flink写入,其他方式写入也需要这样做的哈。 > >r pp 于2020年12月21日周一 下午9:28写道: > >> 程序中,创建表后,执行命令。 >> >> kingdomad 于2020年12月21日周一 下午4:55写道: >> >> > >> flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。 >> > 需要执行msck repair table修复分区表后,hive才能读取到数据。 >> > 求助大佬,要如何解决。 >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > -- >> > >> > kingdomad >> > >> > >>
Re: flink1.10 广播流更新卡住
从监控上看没有反压。广播流的数据量并不大,几百k,定时更新的间隔设的是1分钟。 > > >> 在 2020年12月22日,20:53,赵一旦 写道: >> >> 有没有反压。 >> >> 洪雪芬 于2020年12月22日周二 下午7:11写道: >> >>> 对的,广播流算子的并行度一直为1,下游算子的并行度为1则正常,大于1则出现广播流更新卡住的情况,无报错,定位不到问题。 >>> >>> >> 在 2020年12月22日,18:39,赵一旦 写道: > > 并行度1就没问题吗? > > 洪雪芬 于2020年12月22日周二 下午1:45写道: > >> Hi! >> >> >>> 在使用flink广播流实现配置定时更新的过程中,出现下游算子并行度大于1时,下游算子获取更新到的广播流卡住的情况,即广播流算子持续发送数据,但下游算子只接收到前一小部分数据,然后就没有接收到新数据的情况,但无报错日志。 > 但该问题在本地IDEA运行时无法复现,提交到集群上以yarn-cluster模式运行时则会出现。 > 大家有没有遇到过类似的情况?是什么原因导致这样的问题,有什么解决方案吗? > >>>
Re: 请教关于KeyedState的恢复机制
没有大神懂这个的吗?帮忙分析下。 赵一旦 于2020年12月22日周二 上午12:05写道: > 目前来说,按照我讲的方式去实现应该不难。我怕的是flink在恢复keyedState的时候,无法适应我的这种partition机制。 > > 现有的机制,restore的时候实际是 keyGroup 到window并行实例之间的一个重分配。 > > 换成我的partition机制后,能否还正常restore呢? > > 赵一旦 于2020年12月22日周二 上午12:03写道: > >> 如题,目前对于OperatorState来说,API层面有2个接口,即CheckpointedFunction和ListCheckpointed >> 。即UDF中有入口对restore做自定义。 >> >> 问题(1)KeyedState的恢复则相对黑盒。想知道相关实现在哪。 >> >> 引申问题(2),我的原始目的为。我期望实现 >> keyBy(...).timwWindow(x).xxx()这种统计。在保留keyBy的keySelector机制前提下(即window算子部分仍然会按照key分窗口统计),通过重写部分flink的api层代码方式,强制去除keyBy中加入的 >> KeyGroupStreamPartitioner >> ,换成使用可传入的自定义Partitioner。目的呢是希望解决“数据倾斜”,但我不想通过双层keyBy解决,因为本身key数量很少(假设100),即使是双层,那么第一层需要将key起码扩大1000倍我感觉才能足够均衡。如果能仅仅扩大比如30倍(这个倍数可以考虑和下游window算子并发一致),然后在partition中实现类似rebalance的分发机制。 >> 当然,更高级的可能还可以做智能的,比如部分key扩大,部分key不扩大。 >> >> >> 描述比较乱,换言之,我就直接非KeyedStream情况下,使用dataStream.flatMap,然后flatMap中使用MapState统计。类似这种效果。当然我还是希望通过改造window实现,因为window部分还有watermark以及分窗机制,flatMap需要自己实现分窗。 >> >>
Re: flink1.10 广播流更新卡住
有没有反压。 洪雪芬 于2020年12月22日周二 下午7:11写道: > 对的,广播流算子的并行度一直为1,下游算子的并行度为1则正常,大于1则出现广播流更新卡住的情况,无报错,定位不到问题。 > > > > 在 2020年12月22日,18:39,赵一旦 写道: > > > > 并行度1就没问题吗? > > > > 洪雪芬 于2020年12月22日周二 下午1:45写道: > > > >> Hi! > >> > >> > 在使用flink广播流实现配置定时更新的过程中,出现下游算子并行度大于1时,下游算子获取更新到的广播流卡住的情况,即广播流算子持续发送数据,但下游算子只接收到前一小部分数据,然后就没有接收到新数据的情况,但无报错日志。 > >> 但该问题在本地IDEA运行时无法复现,提交到集群上以yarn-cluster模式运行时则会出现。 > >> 大家有没有遇到过类似的情况?是什么原因导致这样的问题,有什么解决方案吗? > >> >
Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
唐云大佬好, 我关闭了chk的增量模式之后,chkstate确实不会再无线膨胀了。这个是我配置的不准确,还是一个已知问题呢 -- Sent from: http://apache-flink.147419.n8.nabble.com/
??????flink-shaded-hadoop-2-uber????????????
K8SHA??HDFS ??2020??12??22?? 13:43??liujian ?? Thanks,flink-confhistory server,??hdfs??,??web ui??, ---- ??: "user-zh" https://ci.apache.org/projects/flink/flink-docs-master/deployment/advanced/historyserver.html Best, Yang liujian <13597820...@qq.comgt; ??2020??12??21?? 1:35?? gt; ??history-server,,,??, gt; gt; gt; gt; gt; --amp;nbsp;amp;nbsp;-- gt; ??: gt;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp; "user-zh" gt;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp; < gt; danrtsey...@gmail.comamp;gt;; gt; :amp;nbsp;2020??12??21??(??) 10:15 gt; ??:amp;nbsp;"user-zh"https://github.com/apache/flink-docker/blob/dev-master/docker-entrypoint.sh gt
Re: flink1.10 广播流更新卡住
对的,广播流算子的并行度一直为1,下游算子的并行度为1则正常,大于1则出现广播流更新卡住的情况,无报错,定位不到问题。 > 在 2020年12月22日,18:39,赵一旦 写道: > > 并行度1就没问题吗? > > 洪雪芬 于2020年12月22日周二 下午1:45写道: > >> Hi! >> >> 在使用flink广播流实现配置定时更新的过程中,出现下游算子并行度大于1时,下游算子获取更新到的广播流卡住的情况,即广播流算子持续发送数据,但下游算子只接收到前一小部分数据,然后就没有接收到新数据的情况,但无报错日志。 >> 但该问题在本地IDEA运行时无法复现,提交到集群上以yarn-cluster模式运行时则会出现。 >> 大家有没有遇到过类似的情况?是什么原因导致这样的问题,有什么解决方案吗? >>
?????? flink 1.11 interval join??????rocksdb????????????
??slotrocksdb block_cache_usage??usageblock_cache_capacity?? mem table size?? ---- ??: "user-zh"
Re: flink1.10 广播流更新卡住
并行度1就没问题吗? 洪雪芬 于2020年12月22日周二 下午1:45写道: > Hi! > > 在使用flink广播流实现配置定时更新的过程中,出现下游算子并行度大于1时,下游算子获取更新到的广播流卡住的情况,即广播流算子持续发送数据,但下游算子只接收到前一小部分数据,然后就没有接收到新数据的情况,但无报错日志。 > 但该问题在本地IDEA运行时无法复现,提交到集群上以yarn-cluster模式运行时则会出现。 > 大家有没有遇到过类似的情况?是什么原因导致这样的问题,有什么解决方案吗? >
Re: yarn application模式提交任务失败
那如果是yarn模式该怎么使用这个参数呢 -yD? -- Sent from: http://apache-flink.147419.n8.nabble.com/
Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
"计算机的解决方案是 出现问题,大都是保护现场,等问题解决后,释放现场 " 那么解决问题的方法是?生产上state还在不断膨胀。 简单一个问题,生产上发生OOM了,短时间内无法排查出原因,请问如何处理? -- Sent from: http://apache-flink.147419.n8.nabble.com/
Re: 执行mvn构建错误
看了下找不到的包是example相关的包(不影响core相关代码),可以从别处下载下来,然后添加到本地maven库内。 -- Sent from: http://apache-flink.147419.n8.nabble.com/
Re: 请教一下flink1.12可以指定时间清除state吗?
增加一个定时器,可以指定时间做清理动作。可以参考flink中window trigger的相关代码和实现。 -- Sent from: http://apache-flink.147419.n8.nabble.com/
TableEnvironment中怎么添加参数,使参数能在TaskManagerServices中能获取到?
Hi: 我的程序是Flink Table/SQL开发的,我想要设置参数能在TaskManagerServices中生效,怎么设置? 我使用如下设置,在TaskManagerServices中并不能获取到我设置的值。 val settings = EnvironmentSettings.newInstance() .inBatchMode() .build() val tEnv = TableEnvironment.create(settings) tEnv.getConfig.getConfiguration.set(CoreOptions.CHECK_LEAKED_CLASSLOADER, java.lang.Boolean.FALSE) 我能怎么设置使其能在TaskManagerServices中能生效? - Thanks!
Flink 操作hive 一些疑问
Dear all, 我目前有个Flink job,执行完所以业务逻辑后生成了一些业务数据,然后将这些数据以ORC格式写到hdfs上,并调用hive api 将orc文件load到Hive表,至此flink job的工作结束。 后面,其他Java定时程序做Mapreduce,对上一步写进hive的数据进行后续操作。 现在升级了Flink版本,Flink可以直接操作hive,不再依赖于Mapreduce。 但这样一来,是不是需要两个flink job ,一个用来生成业务数据,一个用来操作hive 来处理这些业务数据 因为两个job的执行环境不一样,如果不操作hive,是这样的操作环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.execute("my job"); 如果操作hive,就需要构造这样的操作的环境 EnvironmentSettings settings = EnvironmentSettings.newInstance().inBatchMode().build(); TableEnvironment tableEnv = TableEnvironment.create(settings); .. tableEnv.executeSql(hql); 有没有什么通用的方案,让这两个job合二为一呢?我想要的效果时,当生成完业务数据后,直接操作hive,取代mapreduce的工作。 - Thanks! Jacob -- Sent from: http://apache-flink.147419.n8.nabble.com/
Flink1.10.1代码自定义rocksdb backend webui中还是yaml显示默认的配置
flink1.10.1 在代码中通过如下方式指定backend streamEnv.setStateBackend(new RocksDBStateBackend("hdfs:///user/flink/flink-checkpoints", false)); 问题:flink web ui jm中显示的依然为yaml中默认配置 实际上面代码中的配置已经生效 -- Sent from: http://apache-flink.147419.n8.nabble.com/
pyflink 1.12 是不支持 通过sql 直接向数据库获取数据的操作么? 没看到相关接口
例如:pandas.read_sql()的用法,直接返回源数据,pyflink小白,蹲大佬的答复。
yarn.provided.lib.dirs在flink1.11 yarn提交不生效
flink1.11 on yarn模式,我提前将flink lib下的依赖及自定义函数jar上传到hdfs上,提交时使用yarn.provided.lib.dirs 指定hdfs的依赖路径。原本设想程序中使用反射去寻找自定义函数的类并且实例化,但是提交时报错,程序并没有找到自定义函数的路径 提交命令:/usr/hdp/flink1.11/bin/flink run -m yarn-cluster -d -ynm udf-test -yD yarn.provided.lib.dirs=hdfs://ip:8020/flink-yarn/jars -c com.ly.common.udf.demo.FlinkUDFDemo /data/bigdata/jars/udf-test.jar 相关信息如下: 2020-12-22 08:41:11,157 INFO org.apache.flink.yarn.cli.FlinkYarnSessionCli [] - Dynamic Property set: yarn.provided.lib.dirs=hdfs://chaitin/flink-yarn/jars 2020-12-22 08:41:11,157 INFO org.apache.flink.yarn.cli.FlinkYarnSessionCli [] - Dynamic Property set: yarn.provided.lib.dirs=hdfs://chaitin/flink-yarn/jars -- class path: /usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib The program finished with the following exception: org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: object com.ly.third.udf.flink.SortKey not found. at org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:302) at org.apache.flink.client.program.PackagedProgram.invokeInteractiveModeForExecution(PackagedProgram.java:198) at org.apache.flink.client.ClientUtils.executeProgram(ClientUtils.java:149) at org.apache.flink.client.cli.CliFrontend.executeProgram(CliFrontend.java:699) at org.apache.flink.client.cli.CliFrontend.run(CliFrontend.java:232) at org.apache.flink.client.cli.CliFrontend.parseParameters(CliFrontend.java:916) at org.apache.flink.client.cli.CliFrontend.lambda$main$10(CliFrontend.java:992) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730) at org.apache.flink.runtime.security.contexts.HadoopSecurityContext.runSecured(HadoopSecurityContext.java:41) at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:992) Caused by: scala.ScalaReflectionException: object com.ly.third.udf.flink.SortKey not found. at scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:162) at scala.reflect.internal.Mirrors$RootsBase.staticModule(Mirrors.scala:22) at com.ly.common.udf.reflect.RegisterFlinkFunction$.loadFlinkFunction(RegisterFlinkFunction.scala:14) at com.ly.common.udf.demo.FlinkUDFDemo$.main(FlinkUDFDemo.scala:27) at com.ly.common.udf.demo.FlinkUDFDemo.main(FlinkUDFDemo.scala) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:288) ... 11 more -- Sent from: http://apache-flink.147419.n8.nabble.com/
Re: taskmanager.out配置滚动
恩恩,这个场景是有的,目前看是可以通过重定向后实现,follow issue~ 李杰 于2020年12月22日周二 下午3:58写道: > Hi, > 这个功能我们之前做过,可以看下这里。 > https://issues.apache.org/jira/browse/FLINK-20713 > > zilong xiao 于2020年12月3日周四 下午7:50写道: > > > 想问下社区的大佬,标准输出文件taskmanager.out可以配置成滚动的吗? > > >