date:20191209

Re: Re: Flink实时数仓落Hive一般用哪种方式好？

2019-12-09 文章 JingsongLee

Hi hjxhainan, 如果你要取消订阅。请发送邮件到user-zh-unsubscr...@flink.apache.org Best, Jingsong Lee -- From:hjxhai...@163.com Send Time:2019年12月10日(星期二) 10:52 To:user-zh ; JingsongLee ; 陈帅 Subject:Re: Re: Flink实时数仓落Hive一般用哪种方式好？怎么退出邮件订阅

?????? Flink??????????Hive??????????????????

2019-12-09 文章 hiliuxg

https://github.com/hiliuxg/flink-orc-sink hdfs orcexectly once ---- ??: "jingwen jingwen"https://issues.apache.org/jira/browse/FLINK-14249 Best, Jingsong Lee

Re: Flink实时数仓落Hive一般用哪种方式好？

2019-12-09 文章 jingwen jingwen

hbase具备很好的支持随机，实时读取/写入的性能支持，同流计算引擎结合是一个比较好的选择实时计算直接hdfs，会存在很多性能问题陈帅于2019年12月10日周二上午8:21写道： > 1. 相比Parquet，目前StreamingFileSink支持ORC的难点在哪里呢？ > 2. BulkWriter是不是攒微批写文件的？ > > JingsongLee 于2019年12月9日周一下午3:24写道： > > > Hi 帅， > > - 目前可以通过改写StreamingFileSink的方式来支持Parquet。 > >

HDFS_DELEGATION_TOKEN????????????

2019-12-09 文章 hss

hadoop??Kerberos Flink on Yarn ??Per-jobHDFS_DELEGATION_TOKEN?? checkpoint ?? 2019-12-02 00:00:00.283 ERROR org.apache.flink.yarn.YarnResourceManager - Could not start TaskManager in

Re: Re: Flink实时数仓落Hive一般用哪种方式好？

2019-12-09 文章 hjxhai...@163.com

怎么退出邮件订阅 hjxhai...@163.com 发件人： JingsongLee 发送时间： 2019-12-10 10:48 收件人：陈帅; user-zh@flink.apache.org 主题： Re: Flink实时数仓落Hive一般用哪种方式好？ Hi 陈帅， 1.BulkWriter.Factory接口不适合ORC, 正如yue ma所说，你需要一些改动 2.StreamingFileSink整个机制都是基于做checkpoint才会真正move文件的，不知道你所想的streaming写是什么，以及对你的业务场景有什么要求吗？ Best,

Re: Flink RetractStream如何转成AppendStream?

2019-12-09 文章 JingsongLee

参考下lucas.wu的例子？ Best, Jingsong Lee -- From:陈帅 Send Time:2019年12月10日(星期二) 08:25 To:user-zh@flink.apache.org ; JingsongLee Subject:Re: Flink RetractStream如何转成AppendStream?

Re: Flink实时数仓落Hive一般用哪种方式好？

2019-12-09 文章 JingsongLee

Hi 陈帅， 1.BulkWriter.Factory接口不适合ORC, 正如yue ma所说，你需要一些改动 2.StreamingFileSink整个机制都是基于做checkpoint才会真正move文件的，不知道你所想的streaming写是什么，以及对你的业务场景有什么要求吗？ Best, Jingsong Lee -- From:陈帅 Send Time:2019年12月10日(星期二) 08:21

回复：yarn-session模式通过python api消费kafka数据报错

2019-12-09 文章改改

hi wei zhang, 非常感谢，终于跑起来了，感谢你这么耐心的指导初学者。我当时从编译的源码中拷贝的时flink-sql-connector-kafka 而不是flink-sql-connector-kafka-0.11，所以版本不必配。再次感谢，祝工作顺利。 -- 发件人：Wei Zhong 发送时间：2019年12月10日(星期二) 10:23 收件人：改改抄　送：user-zh 主　题：Re:

Re: yarn-session模式通过python api消费kafka数据报错

2019-12-09 文章 Wei Zhong

Hi 改改，看现在的报错，可能是kafka版本不匹配，你需要放入lib目录的kafka connector 需要是0.11版本的，即flink-sql-connector-kafka-0.11_2.11-1.9.1.jar > 在 2019年12月10日，10:06，改改写道： > > HI Wei Zhong , > 感谢您的回复，flink的lib目录下已经放了kafka connector的jar包的，我的flink/lib目录下文件目录如下： > > <5600791664319709.png> > >

Re: Re: Flink State 过期清除 TTL 问题

2019-12-09 文章 wangl...@geekplus.com.cn

Hi 唐云，我的集群已经升到了 1.8.2, cleanupFullSnapshot 和 cleanupInRocksdbCompactFilter 都试验了下。但 cancel -s 停止后，生成的 savepoint 目录还是没有变小。过程是这样的： cancel -s 停止，savepoint 目录大小为 100M 代码变更，把原来的 setUpdateType 变为 cleanupFullSnapshot 新的代码从 1 的 savepoint 目录恢复新的代码运行一天左右，再 cancel -s，新的 savepoint 目录变大会不会是每次 flink

回复：yarn-session模式通过python api消费kafka数据报错

2019-12-09 文章改改

HI Wei Zhong , 感谢您的回复，flink的lib目录下已经放了kafka connector的jar包的，我的flink/lib目录下文件目录如下：另外我的集群环境如下： java ：1.8.0_231 flink: 1.9.1 Python 3.6.9 Hadoop 3.1.1.3.1.4.0-315 昨天试了下用python3.6 执行，依然是报错的，报错如下： [root@hdp02 data_team_workspace]# /opt/flink-1.9.1/bin/flink run -py

Re: yarn-session模式通过python api消费kafka数据报错

2019-12-09 文章 Wei Zhong

Hi 改改，只看这个报错的话信息量太少不能确定，不过一个可能性比较大的原因是kafka connector的jar包没有放到lib目录下，能否检查一下你的flink的lib目录下是否存在kafka connector的jar包？ > 在 2019年12月6日，14:36，改改写道： > > > [root@hdp02 bin]# ./flink run -yid application_1575352295616_0014 -py > /opt/tumble_window.py > 2019-12-06 14:15:48,262 INFO

Re: Flink RetractStream如何转成AppendStream?

2019-12-09 文章陈帅

"你可以先把RetractStream转成DataStream，这样就出现了Tuple的stream，然后你再写个MapFunc过滤，最后通过DataStream写入Kafka中。" ==> 我想知道通过Flink SQL方式要如何实现这种转换？ JingsongLee 于2019年12月9日周一下午3:17写道： > Hi 帅， > > 你可以先把RetractStream转成DataStream，这样就出现了Tuple Row>的stream，然后你再写个MapFunc过滤，最后通过DataStream写入Kafka中。 > > Best, > Jingsong Lee > >

Re: Flink实时数仓落Hive一般用哪种方式好？

2019-12-09 文章陈帅

1. 相比Parquet，目前StreamingFileSink支持ORC的难点在哪里呢？ 2. BulkWriter是不是攒微批写文件的？ JingsongLee 于2019年12月9日周一下午3:24写道： > Hi 帅， > - 目前可以通过改写StreamingFileSink的方式来支持Parquet。 > (但是目前StreamingFileSink支持ORC比较难) > - BulkWriter和批处理没有关系，它只是StreamingFileSink的一种概念。 > - 如果sync hive分区，这需要自定义了，目前StreamingFileSink没有现成的。

Re: Flink实时数仓落Hive一般用哪种方式好？

2019-12-09 文章 yue ma

可以用改写StreamingfileSink的方式去直接写orc文件不过这种方式的分区需要手动添加陈帅于2019年12月8日周日上午10:04写道： > 有人说直接写到HBase，再在Hive关联Hbase表 > 但是我想直接写文件到HDFS，再通过Hive外表加载，不过有几个问题不明白： > > 1. 如果用行式格式实时写没有问题，StreamingFileSink也支持，但是如果我想用列式格式（如Parquet或ORC) > 写的话，目前来看没有现成的Streaming > Writer，官方提供的都是 >

Re: Re: Flink实时数仓落Hive一般用哪种方式好？

?????? Flink??????????Hive??????????????????

Re: Flink实时数仓落Hive一般用哪种方式好？

HDFS_DELEGATION_TOKEN????????????

Re: Re: Flink实时数仓落Hive一般用哪种方式好？

Re: Flink RetractStream如何转成AppendStream?

Re: Flink实时数仓落Hive一般用哪种方式好？

回复：yarn-session模式通过python api消费kafka数据报错

Re: yarn-session模式通过python api消费kafka数据报错

Re: Re: Flink State 过期清除 TTL 问题

回复：yarn-session模式通过python api消费kafka数据报错

Re: yarn-session模式通过python api消费kafka数据报错

Re: Flink RetractStream如何转成AppendStream?

Re: Flink实时数仓落Hive一般用哪种方式好？

Re: Flink实时数仓落Hive一般用哪种方式好？

15 matches

Site Navigation

Mail list logo

Footer information