大家好,本文为 Flink Weekly 的第九期,由沈磊(LakeShen)整理,主要内容包括:近期社区开发进展,邮件问题答疑以及 Flink
中文社区相关技术博客的分享。
社区开发进展
[Table API & SQL] Jingsong Li 发起 FLIP-115 的讨论,主要在 Flink Table 支持 FileSystem
Connector,FLIP-115 主要内容包括:
1. 在 Flink Table 中支持 FileSystem Table Factory,同时支持csv/parquet/orc/json/avro
格式。
2. 支持在流应用或者 Flink
从报错来看,GenericRecord可能不能被序列化;感觉目前可以先用一个自定义的数据类型来传输
--
From:58683632 <58683...@qq.com>
Send Time:2020 Mar. 17 (Tue.) 13:33
To:user-zh
Subject:Streaming File Sink的使用问题
Streaming File Sink使用parquet avro格式进行bulk write,代码如下:final
Hi,
在Hive 和 Flink 中执行 select * from temp_h1 均正常。在Flink sql中,查询异常:(将temp_h2 在hdfs
上的文件,又以附件的形式上传了一次)
在 2020-03-17 17:05:21,"Jingsong Li" 写道:
>Hi,
>
>- SinkConversionToRow是Flink内部的数据结构转化结果,和结果正确性应该无关,具体看sink的。
>- 似乎只有log一个附件,没看到乱码文件。
>- 在Flink中试下“select * from temp_h1”看下结果?
>-
Hi,
- SinkConversionToRow是Flink内部的数据结构转化结果,和结果正确性应该无关,具体看sink的。
- 似乎只有log一个附件,没看到乱码文件。
- 在Flink中试下“select * from temp_h1”看下结果?
- 在Hive中试下“select * from temp_h1”看下结果?
- 在Hive中试下“select * from temp_h2”看下结果?
Best,
Jingsong Lee
On Tue, Mar 17, 2020 at 4:25 PM 吕先生 wrote:
> 各位大佬,大家好!
>
>
各位大佬,大家好!
帮看一下这个问题:我使用flink sql 基于Hive 进行批计算(目的是替换spark sql 的批计算),具体是从hive 中读数据,然后insert
回hive 的表,然后select 看数据时,出现乱码。
软件版本:hadoop2.9.1和hadoop2.8.5、hive-2.3.3和hive-2.3.4、flink1.10.0、zeppelin0.9.0、Flink
SQL gateway 0.1
切换了多个hadoop、hive版本(各版本软件均来自官方下载),以及测试了Flink Sql Cli、Zeppelin、Flink SQL
Hi Lake,
When the Flink doc mentions a state entry in RocksDB, we mean one key/value
pair stored by user code over any keyed state API
(keyed context in keyed operators obtained e.g. from keyBy()
transformation).
In case of map or list, the doc means map key/value and list element.
-
Hi,
1.10没有convert成Row,只是提供一个row的view;之前是convert成Row,这个差别对性能影响很大。
Best,
Jingsong Lee
On Tue, Mar 17, 2020 at 3:31 PM jun su wrote:
> hi Jingsong Li,
>
> 感谢回复,理解了你的意思.
> 这个问题是我在看flink-1.10有关orc的代码时发现的 , 我注意到flink-1.10的release notes中有提到:
> 向量化读取ORC. 但是我对比老版本的代码, 一直是采用VectorizedRowBatch的方式,
>
Hi Lake
Flink leverage RocksDB's background compaction mechanism to filter out-of-TTL
entries (by comparing with current timestamp provided from RocksDB's
time_provider) to not let them stay in newly compacted data.
This would iterator over data entries with FlinkCompactionFilter::FilterV2
hi Jingsong Li,
感谢回复,理解了你的意思.
这个问题是我在看flink-1.10有关orc的代码时发现的 , 我注意到flink-1.10的release notes中有提到:
向量化读取ORC. 但是我对比老版本的代码, 一直是采用VectorizedRowBatch的方式,
flink-1.10只是对不同版本的hive做了适配, 我也看到有关代码也是你的pull request, 不知道是否是这样?
Jingsong Li 于2020年3月17日周二 下午12:04写道:
> Hi,
>
>
Hi community ,
I see the flink RocksDBStateBackend state cleanup,now the code like this :
StateTtlConfig ttlConfig = StateTtlConfig
.newBuilder(Time.seconds(1))
.cleanupInRocksdbCompactFilter(1000)
.build();
> The default background cleanup for RocksDB backend queries the current
10 matches
Mail list logo