hivehivesql : hive.groupby.skewindata 和hive.map.aggr 组合的坑 hive.map.aggr=true;在map中会做部分聚集操作,效率更高但需要更多的内存。 hive.groupby.skewindata=true:数据倾斜时负载均衡,当选项设定为true,生成的查询计划会有两个MRJob。第一个MRJob 中, Map的输出结果集合会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是……继续阅读 » wangting 6年前 (2018-04-20) 2543浏览 4个赞