InnoDB表

原创于 2024-12-13 18:59:16 发布 · 707 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#InnoDB #MySQL

InnoDB存储引擎专栏收录该内容

6 篇文章

订阅专栏

索引组织表

在 InnoDB 存储引擎中，表都是根据主键顺序组织存放的，这种存储方式的表称为索引组织表（index organized table）。在InnoDB存储引擎表中，每张表都有个主键（Primary Key），如果在创建表时没有显式地定义主键，则 InnoDB 存储引警会按如下方式选择或创建主键：

首先判断表中是否有非空的唯一索引（Unique NOT NULL），如果有，则该列即为主键。
如果不符合上述条件，InnoDB 存储引擎自动创建一个 6 字节大小的指针。

注：当表中有多个非空唯一索引时，InnoDB 存储引擎将选择建表时第一个定义的非空唯一索引为主键。这里需要非常注意的是，主键的选择根据的是定义索引的顺序，而不是建表时列的顺序。

CREATE TABLE z (
    a INT NOT NULL,
    b INT NULL,
    c INT NOT NULL,
    d INT NOT NULL,
    UNIQUE KEY (b),
    UNIQUE KEY (d), UNIQUE KEY (c));
 
INSERT INTO z SELECT 1, 2, 3, 4;
INSERT INTO z SELECT 5, 6, 7, 8;
INSERT INTO z SELECT 9, 10, 11, 12;

上述示例创建了一张表z，有 a、b、c、d 四个列。b、c、d 三列上都有唯一索引，不同的是 b 列允许 NULL 值。由于没有显式地定义主键，因此会选择非空的唯一索引，可以通过下面的 SQL 语句判断表的主键值：

mysql> SELECT a, b, c, d, _rowid FROM z;
+---+------+----+----+--------+
| a | b    | c  | d  | _rowid |
+---+------+----+----+--------+
| 1 |    2 |  3 |  4 |      4 |
| 5 |    6 |  7 |  8 |      8 |
| 9 |   10 | 11 | 12 |     12 |
+---+------+----+----+--------+
3 rows in set (0.00 sec)

_rowid 可以显示表的主键，因此通过上述查询可以找到表 z 的主键。此外，虽然 c、d 列都是非空唯一索引，都可以作为主键的候选，但是在定义的过程中，由于 d 列首先定义为唯一索引，故 InnoDB 存储引擎将其视为主键。

另外需要注意的是，_rowid 只能用于查看单个列为主键的情况，对于多列组成的主键就显得无能为力了，如：

CREATE TABLE a (
    a INT,
    b INT,
    PRIMARY KEY(a,b)
)ENGINE=InnoDB;

INSERT INTO a SELECT 1, 1;

SELECT a, _rowid FROM a;

mysql> SELECT a, _rowid FROM a;
ERROR 1054 (42S22): Unknown column '_rowid' in 'field list'

InnoDB 逻辑存储结构

从 InnoDB 存储引擎的逻辑存储构看，所有数据都被逻辑地存放在一个空间中，称之为表空间（tablespace）。表空间又由段（segment）、区（extent）、页（page）组成。页在一些文档中有时也称为块（block），InnoDB 存储引擎的逻辑存储结构大致图 4-1 所示。

表空间

表空间可以看做是 InnoDB 存储引擎逻辑结构的最高层，所有的数据都存放在表空间中。默认情况下，InnoDB 存储引擎有一个共享表空间 idbdata1，即所有数据都存放在这个表空间内。如果用户启用了参数 innodb_file_per_table，则每张表内的数据可以单独放到一个表空间内。

如果启用了 innodb_file_per_table 参数，需要注意的是每张表的表空间内存放的只是数据、索引和插入缓冲 Bitmap 页，其他类的数据，如回滚（undo）信息，插入缓冲索引页、系统事务信息，二次写缓冲（Double write buffer）等还是存放在原来的共享表空间内。这同时也说明了另一个问题，即使在启用了参数 innodb_file_per_table 之后，共享表空间还是会不断地增加其大小。

段

上图显示了表空间是由各个段组成的，常见的段有数据段、索引段、回滚段等。因为前面已经介绍过了 InnoDB 存储引擎表是索引组织的（index organized），因此数据即索引，索引即数据。那么数据段即为 B+ 树的叶子节点（图 4-1 的 Leaf node segment），索引段即为 B+ 树的非叶子引节点（图 4-1 的 Non-leaf node segment）。回滚段较为特殊，将会在后面的章节进行单独的介绍。

在 InnoDB 存储引擎中，对段的管理都是由引擎自身所完成，DBA 不能也没有必要对其进行控制。这和 Oracle 数据库中的自动段空间管理（ASSM）类似，从一定程度上简化了 DBA 对于段的管理。

区

区是由连续页组成的空间，在任何情况下每个区的大小都为 1MB。为了保证区中页的连续性，InnoDB 存储引擎一次从磁盘申请 4~5 个区。在默认情况下，InnoDB 存储引擎页的大小为 16KB，即一个区中一共有 64 个连续的页。

InnoDB 1.0.x 版本开始引人压缩页，即每个页的大小可以通过参数 KEY BLOCK SIZE 设置为 2K、4K、8K，因此每个区对应页的数量就应该为 512、256、128。

InnoDB 1.2.x 版本新增了参数 innodb_page_size，通过该参数可以将默认页的大小设置为 4K、8K，但是页中的数据库不是压缩。这时区中页的数量同样也为 256、128。总之，不论页的大小怎么变化，区的大小总是为 1M。

页

同大多数数据库一样，InnoDB 有页（Page）的概念（也可以称为块），页是 InnoDB 磁盘管理的最小单位。在 InnoDB 存储引擎中，默认每个页的大小为 16KB。而从 InnoDB 1.2.x 版本开始，可以通过参数 innodb_page_size 将页的大小设置为 4K、8K、16K。若设置完成，则所有表中页的大小都为 innodb_page_size，不可以对其再次进行修改。除非通过 mysqldump 导入和导出操作来产生新的库。

在 InnoDB 存储引擎中，常见的页类型有：

数据页（B-tree Node）
undo 页（undo Log Page）
系统页（SystemPage）
事务数据页（Transaction system Page）
插入缓冲位图页（Insert Buffer Bitmap）
插入缓冲空闲列表页（Insert Buffer Free List）
未压缩的二进制大对象页（Uncompressed BLOB Page）
压缩的二进制大对象页（compressed BLOB Page）

行

InnoDB 存储引擎是面向列的（row-oriented），也就说数据是按行进行存放的。每个页存放的行记录也是有硬性定义的，最多允许存放 16KB / 2 - 200 行的记录，即 7992 行记录。这里提到了row-oriented 的数据库，也就是说，存在有 column-oriented 的数据库。MySQL infobright 存储引擎就是按列来存放数据的，这对于数据仓库下的分析类 SQL 语句的执行及数据压缩非常有帮助。类似的数据库还有 Sybase IQ、Google Big Table。

注意：16KB / 2 - 200 = 16 * 1024 / 2 - 200 = 7992

InnoDB 数据页结构

页是 InnoDB 存储引擎管理数据的最小磁盘单位，页类型为 B-tree Node 的页存放的即是表中行的实际数据了。下面将从底层具体介绍 InnoDB 数据页的内部存储结构。InnoDB 数据页由以下 7 部分组成，如图 4-6 所示。

File Header（38 字节）：文件头，描述通用的状态信息；
Page Header（56 字节）：页头，描述页特有的状态信息；
Infimun 和 Supremum Records：虚拟记录，标识页的最小记录和最大记录；
User Records：用户记录，即行记录；
Free Space：页中剩余的空闲链表，记录删除后，其空间会加入到空闲链表中；
Page Directory：页目录，存放 slot，每个 slot 存放记录在页中的偏移量；
File Trailer：文件结尾信息，checksum，用于检查页的完整性；

其中，File Header、Page Header、File Trailer 的大小是固定的，分别为 38、56、8 字节，这些空间用来标记该页的一些信息，如 Checksum，数据页所在 B+ 数索引的层数等。User Records、Free Space、Page Directory 这些部分为实际的行记录存储空间，因此大小是动态的。在接下来的各个小节中将具体分析各个组成部分。

下面主要介绍 Infimun 和 Supremum Records、User Records、Free Space、Page Directory。

Infimun 和 Supremum Records

在 InnoDB 存储引擎中，每个数据页中有两个虚拟的行记录，用来限定记录的边界。Infimum 记录是比该页中任何主键值都要小的值，Supremum 指比任何可能大的值还要大的值。这两个值在页创建时被建立，并且在任何情况下不不会被删除。在 Compact 行格式和 Redundant 行格式下，两者占用的字节数各不相同。图 4-7 显示了 Infimum 和 Supremum 记录。