MySQL中的MVCC介绍

版本链

对于 InnoDB 存储引擎来说,聚簇索引中都包含两个必要的隐藏列(row_id并不是必要的,我们创建的表中有主键或者非 NULL 的 unique 时都不会包含 row_id)

  • trx_id 每一次事务对某条聚簇索引记录进行改动时,都会把该事务的id赋值给 trx_id 隐藏列。
  • roll_pointer 每次对某条聚簇索引记录进行改动时,都会把旧的版本写入到 undo 日志,然后这个隐藏列就相当于一个指针,可以通过该指针来找到修改前的信息。

每次对记录进行改动时,都会记录一条 undo 日志,每条 undo 日志都会有一个 roll_pointer,对于 insert 操作来说对应的 undo 日志没有该属性,应为该记录没有更早的版本。
可以将这些 undo 日志都连起来,串成一个链表,如下图所示


该记录每次更新后,都会将旧值放到一条 undo 日志中,就算是该记录中的一个旧版本,随着更新次数的增多,所有的版本都会被 roll_pointer 属性连接成一个链表,我们把这个链表称为版本链。
版本链的头节点就是当前记录最新的值。每个版本还会包含生成该版本对应的事务id。

ReadView

对于使用 Read Uncommitted(读未提交)的隔离级别来说,由于可以读到未提交事务修改过的记录,所以直接读取记录的最新版本就好了。
对于使用 Serializable(串行化)使用加索的方式来实现的。
对于使用 Read Committed(读已提交)和 Repeatable Read (可重复读) 隔离级别的事务来说,都必须保证读到已经提交了的事务修改过的记录。
本质就是说假如另一个事务已经修改了记录但是尚未提交,是不能直接读取最新版本的记录的,那我们如何判断版本链中的哪个版本是当前事务可见的。因此 InnoDB 提出了一个 ReadView 的概念,在 ReadView 中主要包含4个比较重要的内容:

  • m_ids 表示在生成 ReadView 时当前系统中活跃的读写事务的事务id列表
  • min_trx_id 表示在生成 ReadView 时当前系统中活跃的读写事务中最小的事务id,也就是 m_ids 中最小的值
  • max_trx_id 表示生成 ReadView 时系统中应该分配给下一个事务的id值

    max_trx_id 并不是 m_ids 中的最大值,事务id是递增分配的。比如现在有id为1,2,3这三个事务,之后id为3的事务提交了。那一个新的读事务在生成 ReadView 时,m_ids就包括1和2,min_trx_id 的值就是1,max_trx_id的值就是4

  • creator_trx_id 表示生成该 ReadView 的事务的事务id

只有执行 insert、delete、update 这些语句时才会为事务分配事务id,否则在一个只读事务中的事务id值都默认为0。

有了这个 ReadView,这样在访问某条记录时,只需要按照下边的步骤判断记录的某个版本是否可见:

  1. 如果被访问版本的 trx_id 属性值与 ReadView 中的 creator_trx_id 值相同,意味着当前事务在访问它自己修改过的记录,所以该版本可以被当前事务访问。
  2. 如果被访问版本的 trx_id 属性值小于 ReadView 中的 min_trx_id 值,表明生成该版本的事务在当前事务生成ReadView前已经提交,所以该版本可以被当前事务访问。
  3. 如果被访问版本的 trx_id 属性值大于或等于 ReadView 中的 max_trx_id 值,表明生成该版本的事务在当前事务生成 ReadView 后才开启,所以该版本不可以被当前事务访问。
  4. 如果被访问版本的 trx_id 属性值在 ReadView 的 min_trx_id 和 max_trx_id 之间,那就需要判断一下 trx_id 属性值是不是在 m_ids 列表中,如果在则说明创建 ReadView 时生成该版本的事务还是活跃的,该版本不可以被访问;如果不在则说明创建 ReadView 时生成该版本的事务已经被提交,该版本可以被访问。

对于Read Committed(读已提交)和 Repeatable Read (可重复读)这两种隔离级别来说区别就是它们生成 ReadView 的时机不同。

  1. Read Committed(读已提交)在每次读取数据前都生成一个 ReadView。
  2. Repeatable Read (可重复读)在第一次读取数据时生成一个ReadView,之后的查询操作都重复使用这个 ReadView 。

从上述中可以看出来,所谓的 MVCC (Multi-Version Concurrency Control ,多版本并发控制)指的就是在使用Read Committed、Repeatable Read 这两种隔离级别的事务在执行普通的 select 操作时访问记录的版本链的过程。

MySQL在 Repeatable Read (可重复读)隔离级别实际上就已经解决了幻读问题,一个事务在执行过程中只有第一次执行 select 操作才会生成一个 ReadView,之后的 select 操作都复用这个ReadView,这样也就避免了不可重复读和幻读的问题。