Re: Re: kylin 性能问题

liangmeng Wed, 12 Aug 2015 01:48:06 -0700

我们每小时会做一次etl（抽取字段，并做一次细粒度的group by），每次运行要10来分钟吧




梁猛 
中国移动广东公司 网管维护中心 网管支撑室 
电话：13802880779
邮箱: [email protected]  ，[email protected]
地址：广东省广州市珠江新城珠江西路11号 广东全球通大厦北3楼 
邮编：510623 
 
发件人： 李刚
发送时间： 2015-08-12 15:32
收件人： dev
主题： Re: kylin 性能问题
你们这60亿条记录，不进行ETL吗？直接将这60亿导入hive里？
 
你们每天跑的定时是怎么做的呢？开发定时程序调用的脚本吗？
 
 
发件人： liangmeng
发送时间： 2015-08-12 15:18
收件人： dev
主题： Re: kylin 性能问题
3000w太小case了，我给你一个我们的案例吧：
50节点
每天60亿条
5张维表，8个维度
其中有一个维度数据是千万级的，其他维度都是几万到几十万级别
跑一天数据大概200分钟吧；
主要耗时在：
1、从hive表抽取数据，这一步因为我们限制了hive只能使用整个集群的10%资源，所以相对较慢，用了大概1小时；
2、cube最后生成hbase的hfile，用了大概1个多小时
其他的汇聚时间差不多也是1小时多点吧；
梁猛 
中国移动广东公司 网管维护中心 网管支撑室 
电话：13802880779
邮箱: [email protected]  ，[email protected]
地址：广东省广州市珠江新城珠江西路11号 广东全球通大厦北3楼 
邮编：510623 
发件人： 李刚
发送时间： 2015-08-12 14:19
收件人： dev
主题： kylin 性能问题
你好 
你们有测试过kylin的性能吗？我们有每天3000w条记录，需要进行合并，生成魔方，供前端查询使用，生成完数据时间应该不能很长，大概在3小时内，请问kylin 
能胜任吗？你们实测的记录是什么样的？

Re: Re: kylin 性能问题

Reply via email to