我们每小时会做一次etl(抽取字段,并做一次细粒度的group by),每次运行要10来分钟吧
梁猛 中国移动广东公司 网管维护中心 网管支撑室 电话:13802880779 邮箱: [email protected] ,[email protected] 地址:广东省广州市珠江新城珠江西路11号 广东全球通大厦北3楼 邮编:510623 发件人: 李刚 发送时间: 2015-08-12 15:32 收件人: dev 主题: Re: kylin 性能问题 你们这60亿条记录,不进行ETL吗?直接将这60亿导入hive里? 你们每天跑的定时是怎么做的呢?开发定时程序调用的脚本吗? 发件人: liangmeng 发送时间: 2015-08-12 15:18 收件人: dev 主题: Re: kylin 性能问题 3000w太小case了,我给你一个我们的案例吧: 50节点 每天60亿条 5张维表,8个维度 其中有一个维度数据是千万级的,其他维度都是几万到几十万级别 跑一天数据大概200分钟吧; 主要耗时在: 1、从hive表抽取数据,这一步因为我们限制了hive只能使用整个集群的10%资源,所以相对较慢,用了大概1小时; 2、cube最后生成hbase的hfile,用了大概1个多小时 其他的汇聚时间差不多也是1小时多点吧; 梁猛 中国移动广东公司 网管维护中心 网管支撑室 电话:13802880779 邮箱: [email protected] ,[email protected] 地址:广东省广州市珠江新城珠江西路11号 广东全球通大厦北3楼 邮编:510623 发件人: 李刚 发送时间: 2015-08-12 14:19 收件人: dev 主题: kylin 性能问题 你好 你们有测试过kylin的性能吗?我们有每天3000w条记录,需要进行合并,生成魔方,供前端查询使用,生成完数据时间应该不能很长,大概在3小时内,请问kylin 能胜任吗?你们实测的记录是什么样的?
