MySQL实践篇-普通索引和唯一索引

2020-02-05 数据库 MySQL 0 评论字数统计: 1.8k(字) 阅读时长: 6(分)

普通索引和唯一索引，应该怎么选?

🌰：
假设维护一个市民系统，每个人都有一个唯一的身份证号，而且业务代码已经保证了不会写入两个重复的身份证号码。如果市民系统需要按照身份证号查姓名，就会执行类似这样的SQL语句：

1 2	select name from CUser where id_card = 'xxxxxxxyyyyyyzzzzz';

由于身份证号字段太大，不适合当作主键，这样其他索引创建会非常占内存。

查询过程

对于普通索引来说，查找到满足条件的第一个记录(5,500)后，需要查找下一个记录，直到碰到第一个不满足条件的记录。
对于唯一索引来说，由于索引定义了唯一性，查找到第一个满足条件的记录后，就会停止继续检索。

更新过程

为了说明普通索引和唯一索引对更新语句性能的影响这个问题，先介绍一下change buffer。

当需要更新一个数据页时，如果数据页在内存中就直接更新，而如果这个数据页还没有在内存中的话，在不影响数据一致性的前提下，InnoDB会将这些更新操作缓存在change buffer中，这样就不需要从磁盘中读入这个数据页了。在下次查询需要访问这个数据页的时候，将数据页读入内存，然后执行change buffer中与这个页有关的操作。通过这个种方式就能保证这个数据逻辑的正确性。

说明：虽然名字叫change buffer，实际上它是可以持久化的数据。也就是说，change buffer在内存中的拷贝，也会被写入磁盘上。

将change buffer中操作应用到原数据页，得到的最新结果的过程称为merge。除了访问这个数据页会触发，merge外，系统有后台线程会定期merge。在数据库正常关闭的过程中，也会执行merge操作。

如果能够将更新操作先记录在change buffer，减少读磁盘，语句的执行速度会得到明显的提升。而且，数据读入内存是需要占用buffer pool的。所以这种方式还能够避免占用内存，提高内存利用率。

什么情况下可以使用change buffer呢？

对于唯一索引来说，所有的更新操作都先判断这个操作是否违反唯一性约束。所以需要先判断唯一索引的值是否在表中存在，就需要先将数据页读入内存判断。如果都已经读入内存了，那直接更新内存会更快，就没必要使用change buffer了。

因此唯一索引的更新就不能使用change buffer，实际上页只有普通索引可以使用。

change buffer用的是buffer pool里的内存，因此不能无限增大。change buffer的大小，可以通过参数innodb_change+buffer_max_size来动态设置，这个参数设置好为50的时候，表示change buffer的大小最多只能占用buffer pool的50%。

如果要在表中插入一行新记录的话，InnoDB的处理流程是怎样的。

第一种情况：这个记录要更新的目标页在内存中。

对于唯一索引来说，找到对应的位置，判断有没有冲突，插入这个值，语句执行结束；
对于普通索引来说，找到对应的位置，插入这个值，语句执行结束。

第二种情况：这个记录要更新的目标页不再内存中。

对于唯一索引来说，需要将数据页读入内存，判断没有冲突，插入这个值，语句执行结束；
对于普通索引来说，则是将更新记录在change buffer，语句执行就结束了。

将数据从磁盘读入内存设计随机IO的访问，是数据库里面成本最高的操作之一。change buffer 因为减少了磁盘的随机访问，所以对更新性能的提升会很明显。

change buffer的使用场景

通过分析已经直到使用change buffer对更新过程的加速作用，也清楚了change buffer只限于用在普通索引的场景下，而不适合用于唯一索引。
普通索引的所有场景，使用change buffer都可以起到加速作用吗？

因为merge的时候是真正进行数据更新的时刻，而change buffer的主要目的就是将记录的变更动作缓存下来，所以在一个数据页做merge之前，change buffer记录的变更越多越好。

因此，对于写多读少的业务来说，页面在写完以后马上就被访问到的概率比较小。此时change buffer 的使用效果最好。常见的是就是账单、日志类的系统。

假设一个业务的更新模式是写入之后马上就做查询，那么即使满足了条件，将更新先记录change buffer，但之后由于马上需要访问这个数据页，会立即触发merge过程。这样随机访问IO的次数不会减少，反而增加了change buffer的维护代价。

索引选择和实践

普通索引和唯一索引，在查询能力上没差别，主要是考虑是对更新性能的影响。所以，建议尽量选择普通索引。

如果所有的更新后面，都马上伴随着对这个记录的查询，那么应该关闭change buffer。而其他的情况下，change buffer都能提升更新性能。

change buffer 和redo log

🌰：

1 2	mysql> insert into t(id,k) values(id1,k1),(id2,k2);

假设当前k索引树的状态，查找到位置后，k1所在的数据页在内存(InnoDB buffer pool)中，k2所在数据页不在内存中。如图

内存，redo log(ib_log_fileX)、数据表空间(t.ibd)、系统表空间(ibdata1)。

这条更新语句做如下操作：

Page1在内存中，直接更新内存；
Page2没在内存中，就在内存的change buffer区域，记录下“我要往Page2插入一行”这个信息
将上述两个动作计入redo log中。

之后读请求，要怎么处理？

select * from t where k in（k1，k2）。

从图中可以看到：

读Page1的时候，直接从内存返回。
要读Page2的时候，需要把Page2从磁盘读入内存中，然后应用change buffer离main的操作日志，生成一个正确版本并返回结果。

redo log主要节省的是随机写磁盘的IO消耗(转成顺序写)，而change buffer主要节省的则是随机读磁盘的IO消耗。

merge 的执行过程：

从磁盘读入数据页到内存；
从change buffer 里找到这个数据页的change buffer记录，依次应用，得到新版数据页；
写redo log。这个redo log包含了数据的变更和change buffer的变更。

本文链接： https://vincentxin-scott.github.io/2020/02/05/%E6%95%B0%E6%8D%AE%E5%BA%93/MySQL/mysql%EF%BD%9C07%E6%99%AE%E9%80%9A%E7%B4%A2%E5%BC%95%E5%92%8C%E5%94%AF%E4%B8%80%E7%B4%A2%E5%BC%95/
版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Vincent Xin从零开始的程序猿之路

努力变瘦的胖子。