MYSQL 的内部数据存储一直没有很好的文档. 自己有空研究了一下. [@more@] 1.用单字段来分析行数据: 1.1 建立测试数据 drop table if exists heyf_5 ; create table heyf_5 (name varchar(50)) type myisam DEFAULT CHARSET=latin1; insert into heyf_5 value

MYSQL 的内部数据存储一直没有很好的文档. 自己有空研究了一下.[@more@]

1.用单字段来分析行数据:

1.1 建立测试数据
drop table if exists heyf_5 ;
create table heyf_5 (name varchar(50)) type myisam DEFAULT CHARSET=latin1;
insert into heyf_5 values ('a'),('b'),('c');

[root@alisoft-test1 test]# system hexdump /opt/mysql/data/test/heyf_5.MYD
--------------------------------------------------
0000000 0003 0d03 01fe 0061 0000 0000 0000 0000
0000010 0000 0000 0003 0d03 01fe 0062 0000 0000
0000020 0000 0000 0000 0000 0003 0d03 01fe 0063
0000030 0000 0000 0000 0000 0000 0000
000003c


1.2 开始分析数据

ROW1: 0003 0d03 01fe 0061 0000 0000 0000 0000 0000 0000
ROW2: 0003 0d03 01fe 0062 0000 0000 0000 0000 0000 0000
ROW3: 0003 0d03 01fe 0063 0000 0000 0000 0000 0000 0000
------------------------------

我们拿第一行数据来分析:
由于数据存储在硬盘里时,双字节是低位先存储,高位后存储.所以我们读数据的时候要反过来一下:

ROW1: 03 00 03 0d fe 01 61 00 ...

其中:
---------------------------------------------
03 : start of header - Block type, see mi_dynrec.c, _mi_get_block_info()
00 03 : actual length (varchar存储的空间为; 实际字符长度+2)
0d : usused length
fe : flags (0 表示不为空,1表示为空)
01 : 该行中该字段实际数据的长度(变长字段才有)
61 : 实际存储的数据值: 'a'
00 : 未使用的空间(包括到下一行前的所有00)
---------------------------------------------

1.3 我们验证上面的假设:

update heyf_5 set name='aaaaaa' where name='a';
update heyf_5 set name= null where name='b';
[root@alisoft-test1 test]# system hexdump /opt/mysql/data/test/heyf_5.MYD
-------------------------------------------------
0000000 0003 0808 06fe 6161 6161 6161 0000 0000
0000010 0000 0000 0003 0e02 00ff 0000 0000 0000
0000020 0000 0000 0000 0000 0003 0d03 01fe 0063
0000030 0000 0000 0000 0000 0000 0000


取出第1行数据:
0003 0808 06fe 6161 6161 6161 0000 0000 0000 0000
转换一下:
03 00 08 08 fe 06 61 61 61 61 61 61 00 00 00 00 00 00 00 00

其中:
------------------------------------
03 : start of header - Block type
00 08 : 实际字符长度 = 6+2 B
08 : 未使用的空间: 8 B
fe : flags (0 表示不为null,1表示为null)
06 : 该行中该字段实际数据的长度6
61 61 : 实际存储的值: 'aa'
00 : 未使用的空间(刚好8个)


取出第2行数据:
0003 0e02 00ff 0000 0000 0000 0000 0000 0000 0000
转换一下:
03 00 02 0e ff 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

其中:
------------------------------------
03 : start of header - Block type
00 02 : 实际字符长度 = 0+2 B
0e : 未使用的空间: 14 B
ff : --> 1111 1111 因为只有一个字段,标志用最后1位为表示,是1表示为NULL
00 : 该行中该字段实际数据的长度 0
00 ... : 未使用的空间(刚好14个)


1.4 行链接的情况分析

从上面看, 在行初始化时,系统给VARCHAR字段预留了14个字节的空间.
如果我们的字段值在14个字符范围内,就不会溢出. 下面我们来看一下溢出(就是需要行链接)的情况:

update heyf_5 set name='bbbbbaaaaabbbbbaaaaa' where name is null;
update heyf_5 set name='cccccdddddcccccdddddzzzzzee' where name='c';
system hexdump /opt/mysql/data/test/heyf_5.MYD
---------------------------------------------
0000000 0003 0808 06fe 6161 6161 6161 0000 0000
0000010 0000 0000 0005 0016 0007 0000 0000 0000
0000020 fe3c 6214 6262 6262 0005 001b 0007 0000
0000030 0000 0000 fe50 6319 6363 6363 0009 010f
0000040 6161 6161 6261 6262 6262 6161 6161 0061
0000050 0009 0216 6464 6464 6364 6363 6363 6464
0000060 6464 7a64 7a7a 7a7a 6565 0000

我们上面更新的是第二行和第三行的数据:
ROW2: 0005 0016 0007 0000 0000 0000 fe3c 6214 6262 6262
ROW3: 0005 001d 0007 0000 0000 0000 fe50 631b 6363 6363

同时我们看到,在地址3C后面有其它数据:
0000030 0009 010f
0000040 6161 6161 6261 6262 6262 6161 6161 0061
0000050 0009 010f 6464 6464 6364 6363 6363 6464
0000060 6464 0064
这个我们回头来分析:


我们先把行的数据转一下:
ROW2:05 00 16 00 07 00 00 00 00 00 00 00 3c fe 14 62 62 62 62 62
ROW3:05 00 1d 00 07 00 00 00 00 00 00 00 50 fe 1b 63 63 63 63 63

ROW2数据,其中:
--------------------------------------------------------
05 : 只要发生行链接type就会变成05
00 16 : 实际字符长度 = 20+2= 22
00 : 未使用的空间: 0 B
07 00 00 00 00 00 00 00 3c :
在这间多出了这么5个字节的地址,这个地址其实就是该行数据的链接地址
ROW2为3C, ROW3为50

fe : flags (0 表示不为null,1表示为null)
14 : 该行中该字段实际数据的长度:20
5个62/63 : 实际存储的值: 'bbbbb'/'ccccc'
---------------------------------------------------------

在这里我们看到ROW2的数据只有'bbbbb',那么其他数据在哪里呢?
MYSQL会根据类型知道需要链接,而链接地址正是:07 00 00 00 00 00 00 00 3c

我们从3C开始读链接块数据:
0009 010f 6161 6161 6261 6262 6262 6161 6161 0061
转换一下:
09 00 0f 01 61 61 61 61 61 62 62 62 62 62 61 61 61 61 61 00

其中:
--------------------------------------------------------
09 : 还是类型: 代表这是链接数据
00 0f : 该段实际字符长度 = 15
01 : 空闲的空间字符数
61 61 61 61 61 62 62 62 62 62 61 61 61 61 61 : 具体的值
00 : 空闲的空间
---------------------------------------------------------


同理我们来看看ROW3的链接数据: (从50开始)
0009 0216 6464 6464 6364 6363 6363 6464 6464 7a64 7a7a 7a7a 6565 0000
转换一下:
09 00 16 02 'dddddcccccdddddzzzzzee' 00 00

其中:
--------------------------------------------------------
09 : 还是类型: 代表这是链接数据
00 16 : 该段实际字符长度 = 22
02 : 未使用的空间: 2 B
... : 是具体的值和00
---------------------------------------------------------

2.用多个字段来分析行数据:

drop table if exists heyf_5 ;
create table heyf_5 (id int ,name varchar(50),id1 int ) type myisam ;
insert into heyf_5 values (100,'aaa',3),(2,'bb',12),(3,'c',4);
system hexdump /opt/mysql/data/test/heyf_5.MYD
==================================================
0000000 0003 020e f800 0064 0000 6103 6161 0003
0000010 0000 0000 0003 030d f800 0002 0000 6202
0000020 0c62 0000 0000 0000 0003 040c f800 0003
0000030 0000 6301 0004 0000 0000 0000
==================================================

ROW1: 0003 020e f800 0001 0000 6103 6161 0003 0000 0000
转换成:
03 00 0e 02 00 f8 01 00 00 00 03 61 61 61 03 00 00 00 00 00

其中:
-----------------------------------------
03 : type
00 0e : 13 = 4(int)+[ 3+2 (varchar)] + 4(int)
02 : 空闲空间2个
00 f8 : 1111 1000 --> 表示三个字段,并不为NULL
下面为具体的数据:
01 00 00 00 : INT 4B 值为1
03 61 61 61 : 因为是变长,03表示这个值的长度,后面跟具体的值
03 00 00 00 : INT 4B 值为3
-----------------------------------------

3.小结:

3.1 如果是一个新行:

每行至少分配14个字节+头6个=20个B,如果超过14个B,按实际需要分配.
行数据的格式为:
---------------------------------------------
03 (LEN:1B): start of header - Block type, see mi_dynrec.c, _mi_get_block_info()
00 03 (LEN:2B): actual length (varchar存储的空间为; 实际字符长度+2)
0d (LEN:1B): 分配给该行的空间中,未使用的字节数
00 fe (LEN:XB): flags (0 表示不为空,1表示为空) (这里是一个字节还是两个字节,根据.FRM定义取得)

--数据部分:
--第一个字段:
01 (LEN:XB): 如果是变长类型,在每个字段数据开始前会有1-N个字段来表明该字段数据的实际长度,
如果是固定长度类型的数据,则没有这个标识.
DATA (LEN:XB): 实际存储的值: 'a',长度根据第二个标识定.
--第二个字段:
...
--第三个字段:
...
00 (LEN:XB): 未使用的空间(长度根据第三个标识定)
---------------------------------------------


3.2 如果是一个被更新过并且产生了链接的行:

3.2.1 行数据的格式为:
--------------------------------------------------------
05 (LEN:1B): 只要发生行链接type就会变成05
00 16 (LEN:1B): 实际字符长度 = 20+2= 22
00 (LEN:1B): 未使用的空间: 0 B
07 00 00 00 00 00 00 00 3c (LEN:9B): 行数据的链接地址
fe (LEN:XB): flags (0 表示不为null,1表示为null)

-- 数据部分:
--第一个字段:
14 (LEN:XB): 如果是变长类型,在每个字段数据开始前会有1-N个字段来表明该字段数据的实际长度,
如果是固定长度类型的数据,则没有这个标识.
DATA (LEN:XB): 实际存储的值: 'a',长度根据第二个标识定.
--第二个字段:
...
---------------------------------------------------------

3.2.2 并且,链接部分的数据格式为:
--------------------------------------------------------
09 : 类型: 代表这是链接数据
00 16 : 该段实际字符长度
02 : 分配给链接行的空间中,未使用的空间: 2 B
-- 数据部分:
第一个字段:
14 (LEN:XB): 如果是变长类型,在每个字段数据开始前会有1-N个字段来表明该字段数据的实际长度,
如果是固定长度类型的数据,则没有这个标识.
DATA (LEN:XB): 实际存储的值: 'a',长度根据第二个标识定.
第二个字段:
...
00 : 未使用的空间
XXX : 下一行
---------------------------------------------------------

3.3 被删除的行:
如果该行被删除了,那么该行的TYPE=00,然后数据部分都会被置为FF;

09-15 00:35