Re: Re: Flink实时数仓落Hive一般用哪种方式好?

2019-12-09 文章 JingsongLee
Hi hjxhainan, 如果你要取消订阅。 请发送邮件到user-zh-unsubscr...@flink.apache.org Best, Jingsong Lee -- From:hjxhai...@163.com Send Time:2019年12月10日(星期二) 10:52 To:user-zh ; JingsongLee ; 陈帅 Subject:Re: Re: Flink实时数仓落Hive一般用哪种方式好? 怎么退出邮件订阅

?????? Flink??????????Hive??????????????????

2019-12-09 文章 hiliuxg
https://github.com/hiliuxg/flink-orc-sink hdfs orcexectly once ---- ??: "jingwen jingwen"https://issues.apache.org/jira/browse/FLINK-14249 Best, Jingsong Lee

Re: Flink实时数仓落Hive一般用哪种方式好?

2019-12-09 文章 jingwen jingwen
hbase具备很好的支持随机,实时读取/写入的性能支持,同流计算引擎结合是一个比较好的选择 实时计算直接hdfs,会存在很多性能问题 陈帅 于2019年12月10日周二 上午8:21写道: > 1. 相比Parquet,目前StreamingFileSink支持ORC的难点在哪里呢? > 2. BulkWriter是不是攒微批写文件的? > > JingsongLee 于2019年12月9日周一 下午3:24写道: > > > Hi 帅, > > - 目前可以通过改写StreamingFileSink的方式来支持Parquet。 > >

HDFS_DELEGATION_TOKEN????????????

2019-12-09 文章 hss
hadoop??Kerberos Flink on Yarn ??Per-jobHDFS_DELEGATION_TOKEN?? checkpoint ?? 2019-12-02 00:00:00.283 ERROR org.apache.flink.yarn.YarnResourceManager - Could not start TaskManager in

Re: Re: Flink实时数仓落Hive一般用哪种方式好?

2019-12-09 文章 hjxhai...@163.com
怎么退出邮件订阅 hjxhai...@163.com 发件人: JingsongLee 发送时间: 2019-12-10 10:48 收件人: 陈帅; user-zh@flink.apache.org 主题: Re: Flink实时数仓落Hive一般用哪种方式好? Hi 陈帅, 1.BulkWriter.Factory接口不适合ORC, 正如yue ma所说,你需要一些改动 2.StreamingFileSink整个机制都是基于做checkpoint才会真正move文件的,不知道你所想的streaming写是什么,以及对你的业务场景有什么要求吗? Best,

Re: Flink RetractStream如何转成AppendStream?

2019-12-09 文章 JingsongLee
参考下lucas.wu的例子? Best, Jingsong Lee -- From:陈帅 Send Time:2019年12月10日(星期二) 08:25 To:user-zh@flink.apache.org ; JingsongLee Subject:Re: Flink RetractStream如何转成AppendStream?

Re: Flink实时数仓落Hive一般用哪种方式好?

2019-12-09 文章 JingsongLee
Hi 陈帅, 1.BulkWriter.Factory接口不适合ORC, 正如yue ma所说,你需要一些改动 2.StreamingFileSink整个机制都是基于做checkpoint才会真正move文件的,不知道你所想的streaming写是什么,以及对你的业务场景有什么要求吗? Best, Jingsong Lee -- From:陈帅 Send Time:2019年12月10日(星期二) 08:21

回复:yarn-session模式通过python api消费kafka数据报错

2019-12-09 文章 改改
hi wei zhang, 非常感谢,终于跑起来了,感谢你这么耐心的指导初学者。 我当时从编译的源码中拷贝的时flink-sql-connector-kafka 而不是flink-sql-connector-kafka-0.11,所以版本不必配。 再次感谢,祝工作顺利。 -- 发件人:Wei Zhong 发送时间:2019年12月10日(星期二) 10:23 收件人:改改 抄 送:user-zh 主 题:Re:

Re: yarn-session模式通过python api消费kafka数据报错

2019-12-09 文章 Wei Zhong
Hi 改改, 看现在的报错,可能是kafka版本不匹配,你需要放入lib目录的kafka connector 需要是0.11版本的,即flink-sql-connector-kafka-0.11_2.11-1.9.1.jar > 在 2019年12月10日,10:06,改改 写道: > > HI Wei Zhong , > 感谢您的回复,flink的lib目录下已经放了kafka connector的jar包的,我的flink/lib目录下文件目录如下: > > <5600791664319709.png> > >

Re: Re: Flink State 过期清除 TTL 问题

2019-12-09 文章 wangl...@geekplus.com.cn
Hi 唐云, 我的集群已经升到了 1.8.2, cleanupFullSnapshot 和 cleanupInRocksdbCompactFilter 都试验了下。 但 cancel -s 停止后, 生成的 savepoint 目录还是没有变小。过程是这样的: cancel -s 停止,savepoint 目录大小为 100M 代码变更,把原来的 setUpdateType 变为 cleanupFullSnapshot 新的代码从 1 的 savepoint 目录恢复 新的代码运行一天左右,再 cancel -s, 新的 savepoint 目录变大 会不会是 每次 flink

回复:yarn-session模式通过python api消费kafka数据报错

2019-12-09 文章 改改
HI Wei Zhong , 感谢您的回复,flink的lib目录下已经放了kafka connector的jar包的,我的flink/lib目录下文件目录如下: 另外我的集群环境如下: java :1.8.0_231 flink: 1.9.1 Python 3.6.9 Hadoop 3.1.1.3.1.4.0-315 昨天试了下用python3.6 执行,依然是报错的,报错如下: [root@hdp02 data_team_workspace]# /opt/flink-1.9.1/bin/flink run -py

Re: yarn-session模式通过python api消费kafka数据报错

2019-12-09 文章 Wei Zhong
Hi 改改, 只看这个报错的话信息量太少不能确定,不过一个可能性比较大的原因是kafka connector的jar包没有放到lib目录下,能否检查一下你的flink的lib目录下是否存在kafka connector的jar包? > 在 2019年12月6日,14:36,改改 写道: > > > [root@hdp02 bin]# ./flink run -yid application_1575352295616_0014 -py > /opt/tumble_window.py > 2019-12-06 14:15:48,262 INFO

Re: Flink RetractStream如何转成AppendStream?

2019-12-09 文章 陈帅
"你可以先把RetractStream转成DataStream,这样就出现了Tuple的stream,然后你再写个MapFunc过滤,最后通过DataStream写入Kafka中。" ==> 我想知道通过Flink SQL方式要如何实现这种转换? JingsongLee 于2019年12月9日周一 下午3:17写道: > Hi 帅, > > 你可以先把RetractStream转成DataStream,这样就出现了Tuple Row>的stream,然后你再写个MapFunc过滤,最后通过DataStream写入Kafka中。 > > Best, > Jingsong Lee > >

Re: Flink实时数仓落Hive一般用哪种方式好?

2019-12-09 文章 陈帅
1. 相比Parquet,目前StreamingFileSink支持ORC的难点在哪里呢? 2. BulkWriter是不是攒微批写文件的? JingsongLee 于2019年12月9日周一 下午3:24写道: > Hi 帅, > - 目前可以通过改写StreamingFileSink的方式来支持Parquet。 > (但是目前StreamingFileSink支持ORC比较难) > - BulkWriter和批处理没有关系,它只是StreamingFileSink的一种概念。 > - 如果sync hive分区,这需要自定义了,目前StreamingFileSink没有现成的。

Re: Flink实时数仓落Hive一般用哪种方式好?

2019-12-09 文章 yue ma
可以用改写StreamingfileSink的方式去直接写orc文件 不过这种方式的分区需要手动添加 陈帅 于2019年12月8日周日 上午10:04写道: > 有人说直接写到HBase,再在Hive关联Hbase表 > 但是我想直接写文件到HDFS,再通过Hive外表加载,不过有几个问题不明白: > > 1. 如果用行式格式实时写没有问题,StreamingFileSink也支持,但是如果我想用列式格式(如Parquet或ORC) > 写的话,目前来看没有现成的Streaming > Writer,官方提供的都是 >