我们每小时会做一次etl(抽取字段,并做一次细粒度的group by),每次运行要10来分钟吧



梁猛 
中国移动广东公司 网管维护中心 网管支撑室 
电话:13802880779
邮箱: [email protected][email protected]
地址:广东省广州市珠江新城珠江西路11号 广东全球通大厦北3楼 
邮编:510623 
 
发件人: 李刚
发送时间: 2015-08-12 15:32
收件人: dev
主题: Re: kylin 性能问题
你们这60亿条记录,不进行ETL吗?直接将这60亿导入hive里?
 
你们每天跑的定时是怎么做的呢?开发定时程序调用的脚本吗?
 
 
发件人: liangmeng
发送时间: 2015-08-12 15:18
收件人: dev
主题: Re: kylin 性能问题
3000w太小case了,我给你一个我们的案例吧:
50节点
每天60亿条
5张维表,8个维度
其中有一个维度数据是千万级的,其他维度都是几万到几十万级别
跑一天数据大概200分钟吧;
主要耗时在:
1、从hive表抽取数据,这一步因为我们限制了hive只能使用整个集群的10%资源,所以相对较慢,用了大概1小时;
2、cube最后生成hbase的hfile,用了大概1个多小时
其他的汇聚时间差不多也是1小时多点吧;
梁猛 
中国移动广东公司 网管维护中心 网管支撑室 
电话:13802880779
邮箱: [email protected][email protected]
地址:广东省广州市珠江新城珠江西路11号 广东全球通大厦北3楼 
邮编:510623 
发件人: 李刚
发送时间: 2015-08-12 14:19
收件人: dev
主题: kylin 性能问题
你好 
你们有测试过kylin的性能吗?我们有每天3000w条记录,需要进行合并,生成魔方,供前端查询使用,生成完数据时间应该不能很长,大概在3小时内,请问kylin 
能胜任吗?你们实测的记录是什么样的?

Reply via email to