1200字范文 > Hive优化总结

Hive优化总结

时间：2020-02-08 16:03:48

相关推荐

Hive优化总结

一、SQL本身的优化

1、只select需要的列，避免select *

2、where条件写在子查询中，先过滤再关联

3、关联条件写在on中，而不是where中

4、数据量大时，用group by代替count distinct

5、数据量小时，用in代替join

6、避免笛卡尔积

7、join时大表放后面，使用相同的连接键

7、严格格式

Hive.mapred.mode，分 nonstrict，strict，默认是nonstrict，
如果设置为strict，对三种情况限制：
（1）分区表必须加分区。
（2）order by 必须使用limit
（3）存在笛卡尔积

二、数据倾斜的处理

数据倾斜的现象：
1、任务进度长时间维持在99%（或100%）;
2、查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。
3、本地读写数据量很大。
导致数据倾斜的原因：
1、空值问题
2、数据类型不一致
3、业务数据本身的问题

1、小表关联大表，开启mapjoin

（1）设置参数

set hive.auto.convert.join=true;

hive.mapjoin.smalltable.filesize=25000000 即25M

（2）手动指定

select /+ mapjoin(A)/ f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=0802)

2、加盐打散

（1）空值0值或关联不上的，用随机数

from a join b

on if(a.key=’’, rand()-1, a.key)=b.key

–rand() 0-1之间的小数

（2）都是有用的key，则加随机数后缀

group by concat(key, cast(round(rand()*10) as int))

缺点是分成10份是提前写好的，数据变更大时，还是会跑得慢。

3、开启combiner，即map端聚合

set hive.map.aggr=true；

4、开启负载均衡，会生成两个MRJob

set hive.groupby.skewindata=true;

第一个 MR Job 中，Map 的输出结果集合会随机分布到Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group ByKey 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce中），最后完成最终的聚合操作。