可以考虑在写之前按照hashtid keyBy下吗?

Best,
Jingsong

On Wed, Sep 16, 2020 at 9:36 AM wangenbao <[email protected]> wrote:

> 求教各位大佬:
> 有遇到如下问题的吗?
>
> 1、我首先通过TableAPI读取Kafka中PB格式数据,转换成POJO对象,然后注册成View;
> 2、然后Insert into到三分区(日,小时,hashtid)的Hive表(Parquet格式Snappy压缩)中;
> 3、数据的分区相对分散些就会出现OOM问题,具体表现为
> parquet.hadoop.MemoryManager: Total allocation exceeds 50.00%
> (2,102,394,880
> bytes) of heap memory
> Scaling row group sizes to 13.62% for 115 writers
> 随后就会出现java.lang.OutOfMemoryError: Java heap space
>
> 我认为是Parquet的Writer数比较多,不知道大佬遇见过类似问题吗,该如何解决啊
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/



-- 
Best, Jingsong Lee

回复