SQL 语句执行缓慢原因分析

Sun, 05 Sep 2021 16:17:00 +0800

概述

SQL 查询性能优化是软件开发的核心技能之一。本文系统性地分析了 SQL 执行缓慢的各种原因，并提供了相应的诊断方法和解决方案。

分类讨论

SQL 执行缓慢可分为两种基本情况：

偶发性缓慢：大多数情况正常，偶尔出现性能问题
持续性缓慢：在数据量不变的情况下，一直执行缓慢

针对这两种情况，我们来分析下可能是哪些原因导致的。

针对偶尔很慢的情况

一条 SQL 大多数情况正常，偶尔才能出现很慢的情况，我觉得这条 SQL 语句的书写本身是没什么问题，而是其他原因导致。

数据库在刷新脏页

当我们要往数据库插入一条数据、或者要更新一条数据的时候，我们知道数据库会在缓冲池中把对应字段的数据更新，但是更新之后，这些更新的字段并不会马上同步持久化到磁盘中去，而是把这些更新的记录写入到 redo log 中去。等到空闲的时候，在通过 redo log 里的记录把最新的数据同步到磁盘中去。

不过，redo log 里的容量是有限的。如果数据库一直很忙，更新又很频繁，这个时候 redo log 很快就会被写满，就没办法等到空闲的时候再把数据同步到磁盘，只能暂停其他操作，全身心来把数据同步到磁盘中去。而这个时候，就会导致我们平时正常的 SQL 语句突然执行的很慢。

机制说明

数据库使用缓冲池（Buffer Pool）在内存中缓存数据页
数据修改先在内存中完成，异步写入磁盘（Write-Ahead Logging）
Redo Log 确保事务持久性，但容量有限

性能影响场景

Redo Log 写满时，必须强制刷脏页到磁盘
缓冲池空间不足，需要淘汰脏页
数据库正常关闭或检查点（Checkpoint）触发

监控与诊断

-- 查看InnoDB状态（包含缓冲池信息）
SHOW ENGINE INNODB STATUS;

-- 监控脏页比例
SHOW GLOBAL STATUS LIKE 'Innodb_buffer_pool_pages_dirty';

锁竞争问题

这个就比较容易想到了。我们要执行的这条语句，刚好这条语句涉及到的表，别人在用，并且加锁。或者表没有加锁，但要使用到的某个一行被加锁。我们拿不到锁，只能慢慢等待别人释放锁。

如果要判断是否真的在等待锁，我们可以用 show processlist 这个命令来查看当前的状态。

锁类型分析

锁类型	范围	影响	诊断方法
表级锁	整个表	高并发下严重影响性能	`SHOW PROCESSLIST`
行级锁	单行记录	影响特定数据操作	`SHOW ENGINE INNODB STATUS`
元数据锁	表结构变更	DDL 操作阻塞查询	`performance_schema.metadata_locks`
间隙锁	索引范围	防止幻读，可能过度锁定	分析事务隔离级别

监控与诊断

-- 查看当前连接和锁状态
SHOW PROCESSLIST;

-- 查看InnoDB锁信息（MySQL 5.7+）
SELECT * FROM performance_schema.data_locks;
SELECT * FROM performance_schema.data_lock_waits;

-- 查看等待锁的线程
SELECT * FROM sys.innodb_lock_waits;

其他偶发因素

还有一些其他原因和数据库内部机制，以及所在的的网络、物理机有关，本文不做详细讨论。

系统资源瓶颈

CPU 瞬时峰值
内存交换 (SWAP) 发生
磁盘 I/O 瓶颈
网络波动

数据库内部机制

自适应哈希索引 (Adaptive Hash Index) 重建
变更缓冲区 (Change Buffer) 合并
统计信息自动更新

针对一直都这么慢的情况

下来我们来访分析下第二种情况，我觉得第二种情况的分析才是最重要的。

如果在数据量一样大的情况下，这条 SQL 语句每次都执行的这么慢，那就就要好好考虑下你的 SQL 书写了，下面我们来分析下哪些原因会导致我们的 SQL 语句执行的很不理想。

我们先来假设我们有一个表，表里有下面两个字段,分别是主键 id，和两个普通字段 c 和 d。

mysql> CREATE TABLE `t` (
  `id` int(11) NOT NULL,
  `c` int(11) DEFAULT NULL,
  `d` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB;

没用到索引

没有用上索引，我觉得这个原因是很多人都能想到的，例如你要查询这条语句

select * from t where 100 < c and c < 100000;

字段没有索引

刚好你的 c 字段上没有索引，那么抱歉，只能走全表扫描了，你就体验不会索引带来的乐趣了，所以，这回导致这条查询语句很慢。

解决方案：

-- 分析查询模式后添加索引
ALTER TABLE t ADD INDEX idx_c (c);
ALTER TABLE t ADD INDEX idx_c_d (c, d); -- 复合索引

没有用索引

好吧，这个时候你给 c 这个字段加上了索引，然后又查询了一条语句

select * from t where c - 1 = 1000;

我想问这样在查询的时候会用索引查询吗？

答是不会，如果我们在字段的左边做了运算，那么很抱歉，在查询的时候，就不会用上索引了，所以要注意这种字段上有索引，但由于自己的疏忽，导致系统没有使用索引的情况。

正确的查询应该如下

select * from t where c = 1000 + 1;

有人可能会说，右边有运算就能用上索引？难道数据库就不会自动帮我们优化一下，自动把 c - 1=1000 自动转换为 c = 1000+1。

不好意思，确实不会帮你，所以，你要注意了。

如果我们在查询的时候，对字段进行了函数操作，也是会导致没有用上索引的，例如：

select * from t where pow(c) = 1000;

这里我只是做一个例子，实际上可能并没有 pow(c) 这个函数。其实这个和上面在左边做运算也是很类似的。

所以呢，一条语句执行都很慢的时候，可能是该语句没有用上索引了，不过具体是啥原因导致没有用上索引的呢，你就要会分析了，我上面列举的三个原因，应该是出现的比较多的。

常见索引失效情况

失效模式	示例	解决方案
左侧运算	`WHERE c - 1 = 1000`	重写为 `WHERE c = 1000 + 1`
函数操作	`WHERE DATE(create_time) = '2023-01-01'`	使用范围查询 `WHERE create_time >= '2023-01-01' AND create_time < '2023-01-02'`
隐式类型转换	`WHERE string_col = 123`	保持类型一致 `WHERE string_col = '123'`
OR 条件不当	`WHERE c = 100 OR d = 200`	使用 UNION 或分别索引
模糊查询前缀	`WHERE name LIKE '%abc'`	避免前导通配符

索引设计原则

高选择性字段优先建索引
考虑复合索引的字段顺序
避免过度索引（写操作开销）
覆盖索引减少回表

数据库选错索引

我们在进行查询操作的时候，例如：

select * from t where 100 < c and c < 100000;

我们知道，主键索引和非主键索引是有区别的，主键索引存放的值是整行字段的数据，而非主键索引上存放的值不是整行字段的数据，而且存放主键字段的值。

也就是说，我们如果走 c 这个字段的索引的话，最后会查询到对应主键的值，然后，再根据主键的值走主键索引，查询到整行数据返回。

就算你在 c 字段上有索引，系统也并不一定会走 c 这个字段上的索引，而是有可能会直接扫描扫描全表，找出所有符合 100 < c and c < 100000 的数据。

系统在执行这条语句的时候，会进行预测：究竟是走 c 索引扫描的行数少，还是直接扫描全表扫描的行数少呢？显然，扫描行数越少当然越好了，因为扫描行数越少，意味着 I/O 操作的次数越少。

如果是扫描全表的话，那么扫描的次数就是这个表的总行数了，假设为 n；而如果走索引 c 的话，我们通过索引 c 找到主键之后，还得再通过主键索引来找我们整行的数据，也就是说，需要走两次索引。而且，我们也不知道符合 100 c < and c < 10000 这个条件的数据有多少行，万一这个表是全部数据都符合呢？这个时候意味着，走 c 索引不仅扫描的行数是 n，同时还得每行数据走两次索引。

所以系统是有可能走全表扫描而不走索引的。那系统是怎么判断呢？

索引判断原则

判断来源于系统的预测，也就是说，如果要走 c 字段索引的话，系统会预测走 c 字段索引大概需要扫描多少行。如果预测到要扫描的行数很多，它可能就不走索引而直接扫描全表了。

系统是通过索引的区分度来判断的，一个索引上不同的值越多，意味着出现相同数值的索引越少，意味着索引的区分度越高。我们也把区分度称之为基数，即区分度越高，基数越大。所以呢，基数越大，意味着符合 100 < c and c < 10000 这个条件的行数越少。

所以呢，一个索引的基数越大，意味着走索引查询越有优势。

那么问题来了，怎么知道这个索引的基数呢？

系统当然是不会遍历全部来获得一个索引的基数的，代价太大了，索引系统是通过遍历部分数据，也就是通过采样的方式，来预测索引的基数的。

扯了这么多，重点的来了，居然是采样，那就有可能出现失误的情况，也就是说，c 这个索引的基数实际上是很大的，但是采样的时候，却很不幸，把这个索引的基数预测成很小。例如你采样的那一部分数据刚好基数很小，然后就误以为索引的基数很小。然后就呵呵，系统就不走 c 索引了，直接走全部扫描。

所以呢，说了这么多，得出结论：由于统计的失误，导致系统没有走索引，而是走了全表扫描，而这，也是导致我们 SQL 语句执行的很慢的原因。

这里我声明一下，系统判断是否走索引，扫描行数的预测其实只是原因之一，这条查询语句是否需要使用使用临时表、是否需要排序等也是会影响系统的选择的。

影响因素：

索引选择性
预计需要回表的次数
临时表、排序开销
历史执行统计（MySQL 8.0+）

解决方案

不过呢，我们有时候也可以通过强制走索引的方式来查询，例如：

SELECT * FROM t FORCE INDEX(idx_c) WHERE c > 100 AND c < 100000;

我们也可以通过

SHOW INDEX FROM t;

来查询索引的基数和实际是否符合，如果和实际很不符合的话，我们可以重新来统计索引的基数，可以用这条命令

ANALYZE TABLE t;

来重新统计分析。

既然会预测错索引的基数，这也意味着，当我们的查询语句有多个索引的时候，系统有可能也会选错索引，这也可能是 SQL 执行的很慢的一个原因。

系统化诊断流程

上述问题应该怎么发现呢？我列举了一些常用的手段。

性能分析工具

EXPLAIN

通过查看执行计划，提前避免问题。

EXPLAIN FORMAT=JSON SELECT * FROM t WHERE c > 100;

关键指标关注：

type：访问类型（const, ref, range, index, ALL）
key：实际使用的索引
rows：预估扫描行数
Extra：额外信息（Using where, Using temporary, Using filesort）

性能监控（Performance Schema）

-- 开启语句监控
UPDATE performance_schema.setup_consumers SET ENABLED = 'YES' 
WHERE NAME LIKE 'events_statements%';

-- 查看慢查询统计
SELECT * FROM performance_schema.events_statements_summary_by_digest 
ORDER BY SUM_TIMER_WAIT DESC LIMIT 10;

慢查询日志分析

# my.cnf 配置
slow_query_log = 1
slow_query_log_file = /var/log/mysql/slow.log
long_query_time = 1
log_queries_not_using_indexes = 1

高级优化策略

架构层面优化

读写分离
分库分表
缓存策略（Redis, Memcached）
数据归档和历史表

数据库参数调优

# InnoDB缓冲池（通常设为物理内存的70-80%）
innodb_buffer_pool_size = 16G

# 日志文件大小
innodb_log_file_size = 2G

# 并发连接控制
max_connections = 500
thread_cache_size = 50

应用层优化

连接池配置
批量操作减少网络往返
预处理语句避免重复解析
适当的数据缓存

总结

SQL 性能优化是一个系统性的工程，需要从多个维度进行分析和解决。本文提供的分析框架和优化策略覆盖了从基础到高级的各个层面，可以作为日常性能优化的参考指南。

核心要点：

建立系统化的诊断流程
索引是最高效的优化手段
统计信息的准确性至关重要
监控和预防优于事后补救
优化需要综合考虑成本和收益

建议定期进行数据库健康检查，建立性能基线，以便快速识别和解决性能问题。

SQL on 张天赐的小世界

SQL 语句执行缓慢原因分析

概述

分类讨论

针对偶尔很慢的情况

数据库在刷新脏页

机制说明

性能影响场景

监控与诊断

锁竞争问题

锁类型分析

监控与诊断

其他偶发因素

系统资源瓶颈

数据库内部机制

针对一直都这么慢的情况

没用到索引

字段没有索引

没有用索引

常见索引失效情况

索引设计原则

数据库选错索引

索引判断原则

解决方案

系统化诊断流程

性能分析工具

EXPLAIN

性能监控（Performance Schema）

慢查询日志分析

高级优化策略

架构层面优化

数据库参数调优

应用层优化

总结