Re: Hive 大数据量时运行mapreduce报错

Bowen Li Sun, 17 Mar 2019 22:11:38 -0700

Hi,

这是Flink用户群，只能解答Flink-Hive结合的相关问题，建议你试用下Blink读写Hive。


Hive-MapReduce问题请移步Hive或Hadoop社区

Bowen

On Wed, Mar 13, 2019 at 9:18 PM sam peng <[email protected]> wrote:

> 请教大家一个hive的问题，先谢过大家。
>
> 我的机器是32G内存，单点部署，每天落盘大约12G数据到hdfs中。
>
> 需求是对最近七天数据进行去重后inner join关联一直小表.一直失败。
>
> 目前测试将7天数据按分区导入Hive表中，大约70G。select count(*) 直接失败。
>
>
> Nademanager 大小为26G, map内存设置为2g.
> 为了控制map数量，防止mapper 占尽内存我设置
> set mapreduce.input.fileinputformat.split.minsize=10000000;
> 和
> set mapred.map.tasks=10; 均无效
>
> Yarn-site配置：
> yarn.nodemanager.resource.memory-mb 26840
> yarn.scheduler.maximum-allocation-mb 2096
> yarn.scheduler.minimum-allocation-mb 512
> yarn.nodemanager.vmem-pmem-ratio 1.1
>
> Mapred-site.xml 配置
> mapreduce.reduce.java.opts -Xmx2048
> mapreduce.map.java.opts  -Xmx1024
> mapreduce.reduce.memory.mb 2560
> mapreduce.map.memory.mb 1536
>
> 想请教一下大家：
> 1. 数据量大后为何我控制mapper数量仍无法达到预期
> 2. 假设我想用32G 的内存 （26G给nodemanager是因为节点有flume和kafka采集数据） ，处理72G的数据，可以怎么配置？
>
> 叩谢。
>
>
>
>
>

Re: Hive 大数据量时运行mapreduce报错

回复