1.用tune2fs查看block size大小:

1
2
tune2fs -l /dev/sda1 |grep "Block size"
Block size: 1024

2.用stat查看block size大小:

1
2
stat /boot/|grep "IO Block"
Size: 1024 Blocks: 2 IO Block: 1024 目录

3.用dumpe2fs查看block size大小:

1
2
dumpe2fs /dev/sda1 |grep "Block size"
Block size: 1024

Cache和Buffer是两个不同的概念,简单的说,Cache是加速“读”,而buffer是缓冲“写”,前者解决读的问题,保存从磁盘上读出的数据,后者是解决写的问题,保存即将要写入到磁盘上的数据。在很多情况下,这两个名词并没有严格区分,常常把读写混合类型称为buffer cache,本文后续的论述中,统一称为cache。

Oracle中的log buffer是解决redo写入的问题,而data buffer cache则解决data block的读写问题。对于Oracle来说,如果IO没有在SGA中命中,都会发生物理IO,Oracle并不关心底层存储的类型,可能是一套存储系统,可能是本地磁盘,可能是RAID 10,也可能是RAID 5,可能是文件系统,也可能是裸设备,或是ASM。总之,Oracle把底层的存储系统称为存储子系统。

在存储系统中,cache几乎无处不在(在后面的论述中,我们统称为cache),文件系统有cache,存储有cache,RAID控制器上有cache,磁盘上也有cache。为了提高性能,Oracle的一个写操作,很有可能写在存储的cache上就返回了,如果这时存储系统发生问题,Oracle如何来保证数据一致性的问题。

首先先说明一下oracle体系结构里面会出现缓存的地方:

1、oracle缓存(包括PGA/SGA);

2、OS缓存(其实这个一直都有点歧义,我个人感觉应该是说文件系统的缓存,所以说如果是裸设备的话就会没有OS缓存这个说法);

3、存储缓存;

4、硬盘缓存;(如果使用的是存储,硬盘缓存通常都是关掉的。存储的电池,一般只保护存储CACHE,不对硬盘缓存提供保护。如果没使用存储,我们之前的做法,是禁掉硬盘缓存。)

5、cpu一二级缓存。

Oracle的Buffer Cache和操作系统的Cache Buffer谁更有效率。其实无论谁,都很有效率,但为什么通常建议绕过OS 文件系统的CACHE呢,这是因为数据库的Buffer Cache是针对数据库设计的,OS 文件系统层CACHE是通用型的,所以在有些情况下,OS层CACHE不如Oracle Buffer Cache表现更好。

一般读流程:

CPU------一二级缓存(如有)-----SGA-----OS(如有)------存储coache-----硬盘coache------存储物理

一般写写流程:

CPU-----SGA-----存储coache-----存储物理

相关CACHE L1、L2 CACHE的,在Oracle中不必关心,因为无法观察。如果对这一块感兴趣,推荐一本书《深入理解计算机系统》,有比较详细的CPU 一、二级CACHE原理。还有就是,硬盘CACHE大部分是关闭的,如果没关,建议关闭,否则有可能丢失数据。

Oracle数据库最重要的特性是:Write ahead logging,在data block在写入前,必须保证首先写入redo log,在事务commit时,同时必须保证redo log被写入。Oracle为了保证数据的一致性,对于redo log采用了direct IO,Direct IO会跳过了OS上文件系统的cache这一层。但是,OS管不了存储这一层,虽然跳过了文件系统的cache,但是依然可能写在存储的cache上。

一般的存储都有cache,为了提高性能,写操作在cache上完成就返回给OS了,我们称这种写操作为writeback,为了保证掉电时cache中的内容不会丢失,存储都有电池保护,这些电池可以供存储在掉电后工作一定时间,保证cache中的数据被刷入磁盘,不会丢失。不同于UPS,电池能够支撑的时间很短,一般都在30分钟以内,只要保证cache中的数据被写入就可以了。存储可以关闭写cache,这时所有的写操作必须写入到磁盘才返回,我们称这种写操作为writethrouogh,当存储发现某些部件不正常时,存储会自动关闭写cache,这时写性能会下降。

RAID卡上也有cache,目前一般是256MB或者更大,同样是通过电池来保护的,不同于存储的是,这个电池并不保证数据可以被写入到磁盘上,而是为cache供电以保护数据不丢失,一般可以支撑几天的时间。还有些RAID卡上有flashcache,掉电后可以将cache中的内容写入到flash cache中,保证数据不丢失。如果你的数据库没有存储,而是放在普通PC机的本地硬盘之上的,一定要确认主机中的RAID卡是否有电池,很多硬件提供商默认是不配置电池的。当然,RAID卡上的cache同样可以选择关闭。

磁盘上的cache,一般是16MB-64MB,很多存储厂商都明确表示,存储中磁盘的cache是禁用的,这也是可以理解的,为了保证数据可靠性,而存储本身又提供了非常大的cache,相比较而言,磁盘上的cache就不再那么重要。SCSI指令中有一个FUA(Force Unit Access)的参数,设置这个参数时,写操作必须在磁盘上完成才可以返回,相当于禁用了磁盘的写cache。虽然没有查证到资料,但是我个人认为一旦磁盘被接入到RAID控制器中,写cache就会被禁用,这也是为了数据可靠性的考虑,我相信存储厂商应该会考虑这个问题。

至此,我们可以看到Oracle的一个物理IO是经历了一系列的cache之后,最终被写入到磁盘上。cache虽然可以提高性能,但是也要考虑掉电保护的问题。关于数据的一致性,是由Oracle数据库,操作系统和存储子系统共同来保证的。

本文根据网络资料整理

05-20 20:21