1200字范文 > 读《MySQL性能调优与架构设计》笔记之ORDER BY GROUP BY 和DI STI NCT 优化

读《MySQL性能调优与架构设计》笔记之ORDER BY GROUP BY 和DI STI NCT 优化

时间：2020-10-08 13:55:43

1.1.ORDERBY的实现与优化

在MySQL中，ORDERBY的实现有如下两种类型：

◆一种是通过有序索引而直接取得有序的数据，这样不用进行任何排序操作即可得到满足客户端要求的有序数据返回给客户端；

◆另外一种则需要通过MySQL的排序算法将存储引擎中返回的数据进行排序然后再将排序后的数据返回给客户端。

下面我们就针对这两种实现方式做一个简单的分析。首先分析一下第一种不用排序的实现方式。同样还是通过示例来说话吧：

>EXPLAIN

->SELECTm.id,m.subject,c.content

->FROMgroup_messagem,group_message_contentc

->WHEREm.group_id=1ANDm.id=c.group_msg_id

->ORDERBYm.user_id\G

************************1.row***************************

id:1

select_type:SIMPLE

table:m

type:ref

possible_keys:PRIMARY,idx_group_message_gid_uid

key:idx_group_message_gid_uid

key_len:4

ref:const

rows:4

Extra:Usingwhere

************************2.row***************************

id:1

select_type:SIMPLE

table:c

type:ref

possible_keys:group_message_content_msg_id

key:group_message_content_msg_id

key_len:4

ref:example.m.id

rows:11

Extra:

看看上面的这个Query语句，明明有ORDERBYuser_id，为什么在执行计划中却没有排序操作呢？其实这里正是因为MySQLQueryOptimizer选择了一个有序的索引来进行访问表中的数据（idx_group_message_gid_uid），这样，我们通过group_id的条件得到的数据已经是按照group_id和user_id进行排序的了。而虽然我们的排序条件仅仅只有一个user_id，但是我们的WHERE条件决定了返回数据的group_id全部一样，也就是说不管有没有根据group_id来进行排序，返回的结果集都是完全一样的。我们可以通过如下的图示来描述整个执行过程：

图中的TableA和TableB分别为上面Query中的group_message和gruop_message_content这两个表。这种利用索引实现数据排序的方法是MySQL中实现结果集排序的最佳做法，可以完全避免因为排序计算所带来的资源消耗。所以，在我们优化Query语句中的ORDERBY的时候，尽可能利用已有的索引来避免实际的排序计算，可以很大幅度的提升ORDERBY操作的性能。在有些Query的优化过程中，即使为了避免实际的排序操作而调整索引字段的顺序，甚至是增加索引字段也是值得的。当然，在调整索引之前，同时还需要评估调整该索引对其他Query所带来的影响，平衡整体得失。

如果没有索引利用的时候，MySQL又如何来实现排序呢？这时候MySQL无法避免需要通过相关的排序算法来将存储引擎返回的数据进行排序运算了。下面我们再针对这种实现方式进行相应的分析。

在MySQL第二种排序实现方式中，必须进行相应的排序算法来实现数据的排序。MySQL目前可以通过两种算法来实现数据的排序操作。

1.取出满足过滤条件的用于排序条件的字段以及可以直接定位到行数据的行指针信息，在SortBuffer中进行实际的排序操作，然后利用排好序之后的数据根据行指针信息返回表中取得客户端请求的其他字段的数据，再返回给客户端；

2.根据过滤条件一次取出排序字段以及客户端请求的所有其他字段的数据，并将不需要排序的字段存放在一块内存区域中，然后在SortBuffer中将排序字段和行指针信息进行排序，最后再利用排序后的行指针与存放在内存区域中和其他字段一起的行指针信息进行匹配合并结果集，再按照顺序返回给客户端。

上面第一种排序算法是MySQL一直以来就有的排序算法，而第二种则是从MySQL4.1版本才开始增加的改进版排序算法。第二种算法与第一种相比较，主要优势就是减少了数据的二次访问。在排序之后不需要再一次回到表中取数据，节省了IO操作。当然，第二种算法会消耗更多的内存，正是一种典型的通过内存空间换取时间的优化方式。下面我们同样通过一个实例来看看当MySQL不得不使用排序算法的时候的执行计划，仅仅只是更改一下排序字段：

>explain

->selectm.id,m.subject,c.content

->FROMgroup_messagem,group_message_contentc

->WHEREm.group_id=1ANDm.id=c.group_msg_id

->ORDERBYm.subject\G

************************1.row***************************

id:1

select_type:SIMPLE

table:m

type:ref

possible_keys:PRIMARY,idx_group_message_gid_uid

key:idx_group_message_gid_uid

key_len:4

ref:const

rows:4

Extra:Usingwhere;Usingfilesort

************************2.row***************************

id:1

select_type:SIMPLE

table:c

type:ref

possible_keys:group_message_content_msg_id

key:group_message_content_msg_id

key_len:4

ref:example.m.id

rows:11

Extra:

Extra信息中，多了一个“Usingfilesort”的信息，实际上这就是MySQLQueryOptimizer在告诉我们，他需要进行排序操作才能按照客户端的要求返回有序的数据。执行图示如下：

这里我们看到了，MySQL在取得第一个表的数据之后，先根据排序条件将数据进行了一次filesort，也就是排序操作。然后再利用排序后的结果集作为驱动结果集来通过NestedLoopJoin访问第二个表。当然，大家不要误解，这个filesort并不是说通过磁盘文件进行排序，仅仅只是告诉我们进行了一个排序操作。

上面，我们看到了排序结果集来源仅仅只是单个表的比较简单的filesort操作。而在我们实际应用中，很多时候我们的业务要求可能并不是这样，可能需要排序的字段同时存在于两个表中，或者MySQL在经过一次Join之后才进行排序操作。这样的排序在MySQL中并不能简单的里利用SortBuffer进行排序，而是必须先通过一个临时表将之前Join的结果集存放入临时表之后在将临时表的数据取到SortBuffer中进行操作。下面我们通过再次更改排序要求来示例这样的执行计划，当我们选择通过group_message_content表上面的content字段来进行排序之后：

>explain

->selectm.id,m.subject,c.content

->FROMgroup_messagem,group_message_contentc

->WHEREm.group_id=1ANDm.id=c.group_msg_id

->ORDERBYc.content\G

************************1.row***************************

id:1

select_type:SIMPLE

table:m

type:ref

possible_keys:PRIMARY,idx_group_message_gid_uid

key:idx_group_message_gid_uid

key_len:4

ref:const

rows:4

Extra:Usingtemporary;Usingfilesort

***********************2.row***************************

id:1

select_type:SIMPLE

table:c

type:ref

possible_keys:group_message_content_msg_id

key:group_message_content_msg_id

key_len:4

ref:example.m.id

rows:11

Extra:

这时候的执行计划中出现了“Usingtemporary”，正是因为我们的排序操作需要在两个表Join之后才能进行，下图展示了这个Query的执行过程：

首先是TableA和TableB进行Join，然后结果集进入临时表，再进行filesort，最后得到有序的结果集数据返回给客户端。当我们无法避免排序操作的时候，我们又该如何来优化呢？

1.加大max_length_for_sort_data参数的设置；

在MySQL中，决定使用第一种老式的排序算法还是新的改进算法的依据是通过参数max_length_for_sort_data来决定的。当我们所有返回字段的最大长度小于这个参数值的时候，MySQL就会选择改进后的排序算法，反之，则选择老式的算法。所以，如果我们有充足的内存让MySQL存放需要返回的非排序字段的时候，可以加大这个参数的值来让MySQL选择使用改进版的排序算法。

2.去掉不必要的返回字段；

当我们的内存并不是很充裕的时候，我们不能简单的通过强行加大上面的参数来强迫MySQL去使用改进版的排序算法，因为如果那样可能会造成MySQL不得不将数据分成很多段然后进行排序，这样的结果可能会得不偿失。在这种情况下，我们就需要去掉不必要的返回字段，让我们的返回结果长度适应max_length_for_sort_data参数的限制。

3.增大sort_buffer_size参数设置；

增大sort_buffer_size并不是为了让MySQL可以选择改进版的排序算法，而是为了让MySQL可以尽量减少在排序过程中对需要排序的数据进行分段，因为这样会造成MySQL不得不使用临时表来进行交换排序。

1.2.GROUPBY的实现与优化

由于GROUPBY实际上也同样需要进行排序操作，而且与ORDERBY相比，GROUPBY主要只是多了排序之后的分组操作。当然，如果在分组的时候还使用了其他的一些聚合函数，那么还需要一些聚合函数的计算。所以，在GROUPBY的实现过程中，与ORDERBY一样也可以利用到索引。

在MySQL中，GROUPBY的实现同样有多种（三种）方式，其中有两种方式会利用现有的索引信息来完成GROUPBY，另外一种为完全无法使用索引的场景下使用。下面我们分别针对这三种实现方式做一个分析。

1.使用松散（Loose）索引扫描实现GROUPBY

何谓松散索引扫描实现GROUPBY呢？实际上就是当MySQL完全利用索引扫描来实现GROUPBY的时候，并不需要扫描所有满足条件的索引键即可完成操作得出结果。

下面我们通过一个示例来描述松散索引扫描实现GROUPBY，在示例之前我们需要首先调整一下group_message表的索引，将gmt_create字段添加到group_id和user_id字段的索引中：

>createindexidx_gid_uid_gc

->ongroup_message(group_id,user_id,gmt_create);

>dropindexidx_group_message_gid_uidongroup_message;

然后再看如下Query的执行计划：

>EXPLAIN

->SELECTuser_id,max(gmt_create)

->FROMgroup_message

->WHEREgroup_id<10

->GROUPBYgroup_id,user_id\G

************************1.row***************************

id:1

select_type:SIMPLE

table:group_message

type:range

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:8

ref:NULL

rows:4

Extra:Usingwhere;Usingindexforgroup-by

1rowinset(0.00sec)

我们看到在执行计划的Extra信息中有信息显示“Usingindexforgroup-by”，实际上这就是告诉我们，MySQLQueryOptimizer通过使用松散索引扫描来实现了我们所需要的GROUPBY操作。

下面这张图片描绘了扫描过程的大概实现：

要利用到松散索引扫描实现GROUPBY，需要至少满足以下几个条件：

◆GROUPBY条件字段必须在同一个索引中最前面的连续位置；

◆在使用GROUPBY的同时，只能使用MAX和MIN这两个聚合函数；

◆如果引用到了该索引中GROUPBY条件之外的字段条件的时候，必须以常量形式存在；

2.使用紧凑（Tight）索引扫描实现GROUPBY

........

3.使用临时表实现GROUPBY

MySQL在进行GROUPBY操作的时候要想利用索引，必须满足GROUPBY的字段必须同时存放于同一个索引中，且该索引是一个有序索引（如Hash索引就不能满足要求）。而且，并不只是如此，是否能够利用索引来实现GROUPBY还与使用的聚合函数也有关系。

前面两种GROUPBY的实现方式都是在有可以利用的索引的时候使用的，当MySQLQueryOptimizer无法找到合适的索引可以利用的时候，就不得不先读取需要的数据，然后通过临时表来完成GROUPBY操作。

>EXPLAIN

->SELECTmax(gmt_create)

->FROMgroup_message

->WHEREgroup_id>1andgroup_id<10

->GROUPBYuser_id\G

************************1.row***************************

id:1

select_type:SIMPLE

table:group_message

type:range

possible_keys:idx_group_message_gid_uid,idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4

ref:NULL

rows:32

Extra:Usingwhere;Usingindex;Usingtemporary;Usingfilesort

这次的执行计划非常明显的告诉我们MySQL通过索引找到了我们需要的数据，然后创建了临时表，又进行了排序操作，才得到我们需要的GROUPBY结果。整个执行过程大概如下图所展示：

当MySQLQueryOptimizer发现仅仅通过索引扫描并不能直接得到GROUPBY的结果之后，他就不得不选择通过使用临时表然后再排序的方式来实现GROUPBY了。在这样示例中即是这样的情况。group_id并不是一个常量条件，而是一个范围，而且GROUPBY字段为user_id。所以MySQL无法根据索引的顺序来帮助GROUPBY的实现，只能先通过索引范围扫描得到需要的数据，然后将数据存入临时表，然后再进行排序和分组操作来完成GROUPBY。

对于上面三种MySQL处理GROUPBY的方式，我们可以针对性的得出如下两种优化思路：

1.尽可能让MySQL可以利用索引来完成GROUPBY操作，当然最好是松散索引扫描的方式最佳。

在系统允许的情况下，我们可以通过调整索引或者调整Query这两种方式来达到目的；

2.当无法使用索引完成GROUPBY的时候，由于要使用到临时表且需要filesort，所以我们必须要有足够的sort_buffer_size来供MySQL排序的时候使用，而且尽量不要进行大结果集的GROUPBY操作，因为如果超出系统设置的临时表大小的时候会出现将临时表数据copy到磁盘上面再进行操作，这时候的排序分组操作性能将是成数量级的下降；

至于如何利用好这两种思路，还需要大家在自己的实际应用场景中不断的尝试并测试效果，最终才能得到较佳的方案。此外，在优化GROUPBY的时候还有一个小技巧可以让我们在有些无法利用到索引的情况下避免filesort操作，也就是在整个语句最后添加一个以null排序（ORDERBYnull）的子句。

orderbynull用途是强制对查询结果禁用排序。通过explain检查查询语句时候，如果看到Extra列中有Usingfilesort，这是对性能有一定影响的，特别是使用了groupby时，就算你没有显示的指定orderby，mysql会默认按照分组字段进行排序。某些情况下是没有必要使用排序的，例如在处理表报数据的时候（把原始表数据统计后插入到一个用于报表查询的表），则完全可以可以使用orderbynull来取消排序。

1.3.DISTINCT的实现与优化

DISTINCT实际上和GROUPBY的操作非常相似，只不过是在GROUPBY之后的每组中只取出一条记录而已。所以，DISTINCT的实现和GROUPBY的实现也基本差不多，没有太大的区别。同样可以通过松散索引扫描或者是紧凑索引扫描来实现，当然，在无法仅仅使用索引即能完成DISTINCT的时候，MySQL只能通过临时表来完成。但是，和GROUPBY有一点差别的是，DISTINCT并不需要进行排序。也就是说，在仅仅只是DISTINCT操作的Query如果无法仅仅利用索引完成操作的时候，MySQL会利用临时表来做一次数据的“缓存”，但是不会对临时表中的数据进行filesort操作。当然，如果我们在进行DISTINCT的时候还使用了GROUPBY并进行了分组，并使用了类似于MAX之类的聚合函数操作，就无法避免filesort了。

下面我们就通过几个简单的Query示例来展示一下DISTINCT的实现。

首先看看通过松散索引扫描完成DISTINCT的操作：

>EXPLAINSELECTDISTINCTgroup_idFROMgroup_message\G

************************1.row***************************

id:1

SELECT_type:SIMPLE

table:group_message

type:range

possible_keys:NULL

key:idx_gid_uid_gc

key_len:4

ref:NULL

rows:10

Extra:Usingindexforgroup-by

1rowinset(0.00sec)

我们可以很清晰的看到，执行计划中的Extra信息为“Usingindexforgroup-by”，这代表什么意思？为什么我没有进行GROUPBY操作的时候，执行计划中会告诉我这里通过索引进行了GROUPBY呢？其实这就是于DISTINCT的实现原理相关的，在实现DISTINCT的过程中，同样也是需要分组的，然后再从每组数据中取出一条返回给客户端。而这里的Extra信息就告诉我们，MySQL利用松散索引扫描就完成了整个操作。当然，如果MySQLQueryOptimizer要是能够做的再人性化一点将这里的信息换成“Usingindexfordistinct”那就更好更容易让人理解了。

2.我们再来看看通过紧凑索引扫描的示例：

>EXPLAINSELECTDISTINCTuser_idFROMgroup_message

->WHEREgroup_id=2\G

************************1.row***************************

id:1

SELECT_type:SIMPLE

table:group_message

type:ref

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4

ref:const

rows:4

Extra:UsingWHERE;Usingindex

1rowinset(0.00sec)

这里的显示和通过紧凑索引扫描实现GROUPBY也完全一样。实际上，这个Query的实现过程中，MySQL会让存储引擎扫描group_id=2的所有索引键，得出所有的user_id，然后利用索引的已排序特性，每更换一个user_id的索引键值的时候保留一条信息，即可在扫描完所有gruop_id=2的索引键的时候完成整个DISTINCT操作。

3.下面我们在看看无法单独使用索引即可完成DISTINCT的时候会是怎样：

>EXPLAINSELECTDISTINCTuser_idFROMgroup_message

->WHEREgroup_id>1ANDgroup_id<10\G

************************1.row***************************

id:1

SELECT_type:SIMPLE

table:group_message

type:range

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4

ref:NULL

rows:32

Extra:UsingWHERE;Usingindex;Usingtemporary

1rowinset(0.00sec)

当MySQL无法仅仅依赖索引即可完成DISTINCT操作的时候，就不得不使用临时表来进行相应的操作了。但是我们可以看到，在MySQL利用临时表来完成DISTINCT的时候，和处理GROUPBY有一点区别，就是少了filesort。实际上，在MySQL的分组算法中，并不一定非要排序才能完成分组操作的，

这一点在上面的GROUPBY优化小技巧中我已经提到过了。实际上这里MySQL正是在没有排序的情况下实现分组最后完成DISTINCT操作的，所以少了filesort这个排序操作。

4.最后再和GROUPBY结合试试看：

>EXPLAINSELECTDISTINCTmax(user_id)FROMgroup_message

->WHEREgroup_id>1ANDgroup_id<10

->GROUPBYgroup_id\G

************************1.row***************************

id:1

SELECT_type:SIMPLE

table:group_message

type:range

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc