hello,I have a discussion with chengliang and caiqiang. I hope to get everyone's help to improve load efficiency.现在测试集群的配置如下:11个节点,每个节点的配置为:132G内存,2个cpu(每个cpu 8核),12个磁盘(每个磁盘2.7T). 每天的数据大概有150T,按照产线集群和测试集群的性能来看,测试集群要达到每秒50万条记录.
数据的查询效率要求不高,重要的是在一天内能把数据存进去,数据库表大概有112个字段(DICTIONARY_EXCLUDE这个正在测试中),希望了解的是根据我们这个大数据量,有哪些性能参数可以供我们调整来提高入库效率, 包括hadoop spark的参数,怎么配置集群让其load效率更高等等. 如果有描述不具体的地方可以回邮件给我,谢谢大家!!
