Hi, 这是Flink用户群,只能解答Flink-Hive结合的相关问题,建议你试用下Blink读写Hive。
Hive-MapReduce问题请移步Hive或Hadoop社区 Bowen On Wed, Mar 13, 2019 at 9:18 PM sam peng <[email protected]> wrote: > 请教大家一个hive的问题,先谢过大家。 > > 我的机器是32G内存,单点部署,每天落盘大约12G数据到hdfs中。 > > 需求是对最近七天数据进行去重后inner join关联一直小表.一直失败。 > > 目前测试将7天数据按分区导入Hive表中,大约70G。select count(*) 直接失败。 > > > Nademanager 大小为26G, map内存设置为2g. > 为了控制map数量,防止mapper 占尽内存我设置 > set mapreduce.input.fileinputformat.split.minsize=10000000; > 和 > set mapred.map.tasks=10; 均无效 > > Yarn-site配置: > yarn.nodemanager.resource.memory-mb 26840 > yarn.scheduler.maximum-allocation-mb 2096 > yarn.scheduler.minimum-allocation-mb 512 > yarn.nodemanager.vmem-pmem-ratio 1.1 > > Mapred-site.xml 配置 > mapreduce.reduce.java.opts -Xmx2048 > mapreduce.map.java.opts -Xmx1024 > mapreduce.reduce.memory.mb 2560 > mapreduce.map.memory.mb 1536 > > 想请教一下大家: > 1. 数据量大后为何我控制mapper数量仍无法达到预期 > 2. 假设我想用32G 的内存 (26G给nodemanager是因为节点有flume和kafka采集数据) ,处理72G的数据,可以怎么配置? > > 叩谢。 > > > > >
