Flink Weekly | 每周社区动态更新 - 2020/03/18

2020-03-17 文章 LakeShen
大家好,本文为 Flink Weekly 的第九期,由沈磊(LakeShen)整理,主要内容包括:近期社区开发进展,邮件问题答疑以及 Flink 中文社区相关技术博客的分享。 社区开发进展 [Table API & SQL] Jingsong Li 发起 FLIP-115 的讨论,主要在 Flink Table 支持 FileSystem Connector,FLIP-115 主要内容包括: 1. 在 Flink Table 中支持 FileSystem Table Factory,同时支持csv/parquet/orc/json/avro 格式。 2. 支持在流应用或者 Flink

Re: Streaming File Sink的使用问题

2020-03-17 文章 Yun Gao
从报错来看,GenericRecord可能不能被序列化;感觉目前可以先用一个自定义的数据类型来传输 -- From:58683632 <58683...@qq.com> Send Time:2020 Mar. 17 (Tue.) 13:33 To:user-zh Subject:Streaming File Sink的使用问题 Streaming File Sink使用parquet avro格式进行bulk write,代码如下:final

Re:Re: 使用Flink sql insert 数据 to hive 之乱码问题

2020-03-17 文章 吕先生
Hi, 在Hive 和 Flink 中执行 select * from temp_h1 均正常。在Flink sql中,查询异常:(将temp_h2 在hdfs 上的文件,又以附件的形式上传了一次) 在 2020-03-17 17:05:21,"Jingsong Li" 写道: >Hi, > >- SinkConversionToRow是Flink内部的数据结构转化结果,和结果正确性应该无关,具体看sink的。 >- 似乎只有log一个附件,没看到乱码文件。 >- 在Flink中试下“select * from temp_h1”看下结果? >-

Re: 使用Flink sql insert 数据 to hive 之乱码问题

2020-03-17 文章 Jingsong Li
Hi, - SinkConversionToRow是Flink内部的数据结构转化结果,和结果正确性应该无关,具体看sink的。 - 似乎只有log一个附件,没看到乱码文件。 - 在Flink中试下“select * from temp_h1”看下结果? - 在Hive中试下“select * from temp_h1”看下结果? - 在Hive中试下“select * from temp_h2”看下结果? Best, Jingsong Lee On Tue, Mar 17, 2020 at 4:25 PM 吕先生 wrote: > 各位大佬,大家好! > >

使用Flink sql insert 数据 to hive 之乱码问题

2020-03-17 文章 吕先生
各位大佬,大家好! 帮看一下这个问题:我使用flink sql 基于Hive 进行批计算(目的是替换spark sql 的批计算),具体是从hive 中读数据,然后insert 回hive 的表,然后select 看数据时,出现乱码。 软件版本:hadoop2.9.1和hadoop2.8.5、hive-2.3.3和hive-2.3.4、flink1.10.0、zeppelin0.9.0、Flink SQL gateway 0.1 切换了多个hadoop、hive版本(各版本软件均来自官方下载),以及测试了Flink Sql Cli、Zeppelin、Flink SQL

Re: Question about RocksDBStateBackend Compaction Filter state cleanup

2020-03-17 文章 Andrey Zagrebin
Hi Lake, When the Flink doc mentions a state entry in RocksDB, we mean one key/value pair stored by user code over any keyed state API (keyed context in keyed operators obtained e.g. from keyBy() transformation). In case of map or list, the doc means map key/value and list element. -

Re: 读取ORC文件的VectorizedRowBatch的最佳batchSize设置建议

2020-03-17 文章 Jingsong Li
Hi, 1.10没有convert成Row,只是提供一个row的view;之前是convert成Row,这个差别对性能影响很大。 Best, Jingsong Lee On Tue, Mar 17, 2020 at 3:31 PM jun su wrote: > hi Jingsong Li, > > 感谢回复,理解了你的意思. > 这个问题是我在看flink-1.10有关orc的代码时发现的 , 我注意到flink-1.10的release notes中有提到: > 向量化读取ORC. 但是我对比老版本的代码, 一直是采用VectorizedRowBatch的方式, >

Re: Question about RocksDBStateBackend Compaction Filter state cleanup

2020-03-17 文章 Yun Tang
Hi Lake Flink leverage RocksDB's background compaction mechanism to filter out-of-TTL entries (by comparing with current timestamp provided from RocksDB's time_provider) to not let them stay in newly compacted data. This would iterator over data entries with FlinkCompactionFilter::FilterV2

Re: 读取ORC文件的VectorizedRowBatch的最佳batchSize设置建议

2020-03-17 文章 jun su
hi Jingsong Li, 感谢回复,理解了你的意思. 这个问题是我在看flink-1.10有关orc的代码时发现的 , 我注意到flink-1.10的release notes中有提到: 向量化读取ORC. 但是我对比老版本的代码, 一直是采用VectorizedRowBatch的方式, flink-1.10只是对不同版本的hive做了适配, 我也看到有关代码也是你的pull request, 不知道是否是这样? Jingsong Li 于2020年3月17日周二 下午12:04写道: > Hi, > >

Question about RocksDBStateBackend Compaction Filter state cleanup

2020-03-17 文章 LakeShen
Hi community , I see the flink RocksDBStateBackend state cleanup,now the code like this : StateTtlConfig ttlConfig = StateTtlConfig .newBuilder(Time.seconds(1)) .cleanupInRocksdbCompactFilter(1000) .build(); > The default background cleanup for RocksDB backend queries the current