600字范文 > Redis基本数据类型String——数据结构解析

Redis基本数据类型String——数据结构解析

时间：2019-08-17 07:19:11

String

Redis没有直接使用C语言的传统的字符串表示，而是自己构建了一种名为简单动态字符串(simple dynamic string，SDS)的抽象类型。

下面我将解释为什么Redis要自己构建SDS而不是直接用C语言的String，原因其实很简单，一切都是为了提升Redis操作的性能。

SDS的定义

这里我先给出SDS的定义，下面我会对它特有的属性进行解析，大家在看的时候可以思考以下几点，为什么需要这个属性?

这个属性有什么用?没有这个属性会怎么样?在之后的数据结构解析中，希望大家也能带着相似的问题去思考Redis的设计。

struct sdshdr {//记录buf数组已经使用的长度//也就是SDS字符串的长度int len;//记录buf数组中未使用的长度int free;//字节数组，用于保存字符串char buf [] ;}

一个简单的SDS字符串

SDS字符串相比C语言字符串的优势

SDS字符串由于它比C语言字符串多出来的几个属性，所以SDS字符串很多操作效率都比C语言字符串快得多，属于典型的空间换时间策略。

常数复杂度获取字符串长度

众所周知，C语言字符串想获取长度，就得遍历整个字符串。

下图为C语言获取字符串长度的过程

SDS通过len属性使得获取一个SDS字符串的长度的时间复杂度从O(N)变为了O(1)，这确保了获取字符串长度的工作不会成为Redis的性能瓶颈。

杜绝缓冲区溢出

除了获取字符串的长度的复杂度高之外，C字符串不记录自身长度带来的另一个问题是容易造成缓冲区溢出。

举个缓冲区溢出的例子：

假设程序里有两个在内存中紧邻着的 C 字符串s1和s2，其中s1保存了字符串"Redis"，而s2则保存了字符串"MongoDB"，如图 2-7 所示。

如果一个程序员决定通过执行：

strcat(s1, " Cluster");

将s1的内容修改为"Redis Cluster"，但粗心的他却忘了在执行strcat之前为s1分配足够的空间，那么在strcat函数执行之后，s1的数据将溢出到s2所在的空间中，导致s2保存的内容被意外地修改，如图 2-8 所示

以上这个例子就是缓冲区溢出，而SDS不会发生缓冲区溢出的原因是：当SDS API需要对SDS进行修改时，API会通过free这个属性，判断其可用空间是否足够，如果足够的话就直接修改；如果不够，API会自动拓展SDS的空间至执行修改所需的大小，然后再执行实际的修改操作。

总结一下的话其实就是：C语言字符串的空间拓展需要程序员手动判断并拓展，如果没有拓展就有可能发生缓冲区溢出，而SDS的API会自动的帮我们拓展空间，不需要程序员手动拓展空间，这样就杜绝了缓冲区溢出的发生，并且SDS基于len和free这两个属性执行的拓展空间操作，也比C语言的执行效率快得多。

减少修改字符串池带来的内存重分配次数

内存重分配指的就是在修改字符串时，由于内存空间不足或者超出，而需要执行的内存重分配操作，该操作由于涉及到内存分配，执行操作的时间成本极高，所以我们应该尽量避免内存重分配，而SDS就利用了len和free这两个属性，使用两种优化策略，减少了内存重分配次数。

空间预分配(针对拓展空间)

C字符串的空间拓展策略，是你需要多少空间，我就给你多少空间，当你给字符串拓展空间后其实它的可用空间还是为0。

而SDS的API对一个SDS进行修改，并且需要对SDS进行空间拓展的时候，程序不仅会为SDS分配修改所必需的空间，还会为SDS分配额外的未使用空间。

其中，额外分配的未使用空间数量由以下公式决定：

如果对 SDS 进行修改之后， SDS 的长度（也即是len属性的值）将小于1 MB，那么程序分配和len属性同样大小的未使用空间，这时 SDSlen属性的值将和free属性的值相同。举个例子，如果进行修改之后， SDS 的len将变成13字节，那么程序也会分配13字节的未使用空间， SDS 的buf数组的实际长度将变成13 + 13 + 1 = 27字节（额外的一字节用于保存空字符）。如果对 SDS 进行修改之后， SDS 的长度将大于等于1 MB，那么程序会分配1 MB的未使用空间。举个例子，如果进行修改之后， SDS 的len将变成30 MB，那么程序会分配1 MB的未使用空间， SDS 的buf数组的实际长度将为30 MB + 1 MB + 1 byte。