600字范文 > Redis - String内存开销问题以及基本/扩展数据类型的使用

Redis - String内存开销问题以及基本/扩展数据类型的使用

时间：2021-05-08 18:24:57

一. String 类型内存开销问题1.1 SDS 结构1.2 RedisObject 结构1.3 String 类型的内存布局优化1.4 压缩列表的优势二. Redis 基本操作和扩展集合的使用2.1 基于 Redis 和 Java 的基本操作2.1.1 String2.1.1 List2.1.1 Hash2.1.1 Set2.1.1 Sorted Set 2.2 扩展集合的使用2.2.1 Bitmap 二值统计2.2.2 HyperLogLog 基数统计2.2.3 GEO 经纬度计算

一. String 类型内存开销问题

Redis中String类型保存值的时候，有两个选择：

保存整数：采用int编码，将其保存为一个8字节的类型整数。保存字符：使用SDS结构保存。

可见，Redis它本身并不傻，如果在String类型中，存储的值是一个整数，它会自动进行int编码。而保存的数据中若包含了字符，即采用简单动态字符串SDS结构体来保存。

1.1 SDS 结构

SDS，即Simple Dynamic String。低版本的Redis SDS结构如图（Redis3.2版本以下）：

总共有三个部分：

len：表示buf的已用长度。占4个字节。alloc：表示buf的时机分配长度，占4个字节。buf：字节数组，保存真实的数据。Redis会在这个数组的末尾自动加一个"\0"，代表结束标识。额外占用1个字节的开销。

1.2 RedisObject 结构

对于Redis的String类型而言，还涉及到RedisObject结构。该结构体主要用于记录一些元数据记录（最后一次的访问时间，被引用的次数等等）包含了8个字节大小的元数据和8个字节大小的指针，共16字节。同时该结构体还指向实际的数据。如图：

意思就是，每当往Redis中插入一个String类型的键值对后，就会构建出对于的SDS结构（若是字符类型），以及一个额外的数据结构RedisObject（存储相关的元数据），并与之绑定。

1.3 String 类型的内存布局优化

到这里，我们可以知道，Redis中对于String类型的键值对存储，这几个部分可能是“多余”的：

SDS中的len以及alloc。RedisObject中的元数据以及指针ptr。

为了节省内存空间，实际上Redis对Long类型的整数以及SDS的布局做了对应的优化：

倘若保存的是Long类型整数：RedisObject中的指针就是整数本身，无需额外的指针去指向实际数据。倘若保存的是字符串数据：当字符串<=44字节的时候，RedisObject中的元数据以及指针ptr和SDS是一块连续的内存区域。即embstr编码。目的：避免内存碎片。否则，当字符串>44字节的时候，将会给SDS分配独立的空间，并用上图所示的方式，指针ptr去指向SDS结构，此时称之为raw编码。

三种编码方式，用图所示如下：

我这里准备了一个Redis服务器，首先看下它的占用内存是多少：

public static void main(String[] args) {Jedis jedis = new Jedis("xxx", 6379);//授权jedis.auth("xxx");System.out.println(jedis.info());}

结果打印出来如下：看used_memory，值为918704。

倘若我此时插入一个key-Value：

jedis.set("20", "30");

再看下结果：看used_memory，值为918736。

内存一共多了32B，分析如下：

Key和Value都是整数。因此Redis会对其采用int编码。int编码情况下，使用RedisObject结构保存。其中元数据占8个字节，指针部分则由8字节的整数来代替。一共16字节。因此Key+Value总共消耗的内存为32字节。

除此之外，我们还知道，Redis用了一张全局的Hash表来保存所有的键值对。哈希表中的每一项是一个哈希桶，哈希桶中又包含了多个dictEntry的结构体，结构图如下：

dictEntry一共占用了24个字节大小。但是同时，Redis中有一个内存分配库jemalloc，当我们插入一个键值对的时候，会根据申请的字节数N，找一个比N大的最小二次幂作为分配的空间作为dictEntry的大小。那么此时dictEntry的大小就是固定的32字节。

也就是说，在假设Redis中没有任何数据的时候，执行set 20 20时，一共会占用64内存大小。但实际上，真实的数据却只有16字节。Key和Value各对应一个RedisObject，其中的指针（由于是int编码，因此转为整数本身）就是我们要的真实数据。

同时我们还应该注意到：我们对于String类型的数据，每插入一条，就会对应的在全局哈希表中生成一个dictEntry结构体，占用32字节的大小。倘若有1亿条数据插入，就会生成1亿个dictEntry结构体。同时哈希桶还得不断地扩容，保证大小为2的N次幂。

1.4 压缩列表的优势

假设：在Redis中存储大量的Key-Value映射，比如set 用户Id 会员Id，然后用户Id和会员Id都是唯一，并且数据量很大，从下述Id处开始添加10000条数据。

set 11010001 1001伪代码就是for(int i=0; i <10000;i++){set (11010001+ i) (1001+i)}

首先来说下倘若使用String类型来存储的劣势：

每插入一条数据，对于生成一个32B大小的dictEntry。RedisObject来存储这样的整形数据，虽然有int编码，但是还是有多余的元数据信息，占用8B。

那么这里可以采用压缩列表来保存。压缩列表的数据结构如图：

zlbytes：列表长度。zltail：列表尾的偏移量。zllen：列表中的entry个数。zlend：表示列表结束。

entry中的各个属性：

prev_len，表示前一个entry的长度。要么1字节（上一个entry的长度<254B）要么5字节。len：表示自身长度，4 个字节。encoding：表示编码方式，1 个字节。content：保存实际数据。

因此对于本文的案例来说，存储用户Id的时候，由于其字节大小不会超过254B，因此prev_len的大小为1B。那么每个entry的大小就是：1+4+1+8（Long整形）=14个字节，然后根据内存分配器的原则，取最靠近的二次幂数16，即每个entry大小为16字节。

而我们向同一个压缩列表中添加数据的时候，只会改变压缩列表内entry的个数，而全局哈希表中，对于这个压缩列表生成的dictEntry对象个数却不会增加，这是和String类型存储的一个重要区别。

测试如下，采用String类型添加500条数据：

public static void main(String[] args) {Jedis jedis = new Jedis("xxx", 6379);//授权jedis.auth("xxx");String before = getMemorySize(jedis);System.out.println("Before Size: " + before);LongAdder key = new LongAdder();LongAdder value = new LongAdder();key.add(11010001);value.add(1001);for (int i = 0; i < 500; i++) {key.add(1);value.add(1);jedis.set(key.toString(), value.toString());}String after = getMemorySize(jedis);System.out.println("After Size: " + after);System.out.println(Integer.parseInt(after) - Integer.parseInt(before));}static String getMemorySize(Jedis jedis) {String[] split = jedis.info().split("\r\n");String msg = "";for (String s : split) {if (s.contains("used_memory")) {msg = s;break;}}String[] res = msg.split(":");return res[1];}

结果如下：

倘若改成压缩列表：用户Id为11010001，我们取前五位作为压缩列表的键，然后后三位作为其key，会员Id作为value。代码：

public static void main(String[] args) {Jedis jedis = new Jedis("xxx", 6379);//授权jedis.auth("xxx");String before = getMemorySize(jedis);System.out.println("Before Size: " + before);LongAdder key = new LongAdder();LongAdder value = new LongAdder();key.add(11010001);value.add(1001);for (int i = 0; i < 500; i++) {key.add(1);value.add(1);// 压缩列表的keyString hashKey = key.toString().substring(0, 5);// 集合内部每个entry的valueString listValue = value.toString();// 集合内部每个entry的keyString listKey = key.toString().substring(5, 7);jedis.hset(hashKey, listKey, listValue);}String after = getMemorySize(jedis);System.out.println("After Size: " + after);System.out.println(Integer.parseInt(after) - Integer.parseInt(before));}static String getMemorySize(Jedis jedis) {String[] split = jedis.info().split("\r\n");String msg = "";for (String s : split) {if (s.contains("used_memory")) {msg = s;break;}}String[] res = msg.split(":");return res[1];}

结果如下：

可见，压缩列表的使用，在这种场景下，比单纯的使用String类型，在内存消耗上要节省的多的多。

不过有一点需要注意的是，Redis中Hash类型的底层数据结构有两种：压缩列表和哈希表。倘若数据超过一定的阈值，就会改用哈希表来存储，此时数据结构就并不像压缩列表那样紧凑了。相关的阈值涉及到两个：

hash-max-ziplist-entries：表示用压缩列表保存时哈希集合中的最大元素个数。hash-max-ziplist-value：表示用压缩列表保存时哈希集合中单个元素的最大长度。

我们取的是用户Id的后三位作为压缩列表的key，也就是说这个压缩列表中的数据个数不超过1000个。为了能充分使用压缩列表的精简内存布局，我们一般要控制保存在Hash集合中的元素个数。因此我们可以将hash-max-ziplist-entries的值设置为1000。这样Hash集合就可以使用压缩列表来节省空间了。

到这里为止讲了什么内容？

在面对这种有一定规则（比如单调递增的Id），并且在Redis中存储的情况下，压缩列表比单纯的使用String类型一条条存储，在内存开销上，要少的多。还讲了String类型在存储的时候，具体的内存消耗在哪些地方了。Redis高低版本中，关于SDS的结构以及其他数据结构可能会有所不同，因此在计算插入一个键值对的时候，计算内存大小前后可能会有所差异。

二. Redis 基本操作和扩展集合的使用

Redis中有5个基本数据类型：String、List、Hash、Set、Sorted Set。

2.1 基于 Redis 和 Java 的基本操作

首先是Java的pom依赖：

<dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version>4.1.1</version></dependency>

接下来就给出Redis中关于基本数据类型的几种常见的命令操作。

此外Redis还有3种扩展数据类型，一般用于海量数据的统计以及特殊场景。有：Bitmap、HyperLogLog和GEO。

2.2.1 Bitmap 二值统计

首先来说下什么是二值统计：集合元素的取值只有0和1两种。那么典型的运用场景就是打卡签到了：

打卡了–>1。未打卡–>0。

首先来大概讲一下Bitmap，Bitmap本身利用String类型作为底层的数据结构。可以保存二进制的字节数组，因此将字节数组的每个bit位代表一个元素的二值状态。Bitmap就相当于一个bit数组。

Redis操作：

SETBIT user.01.08 0 1 ;SETBIT user.01.08 2 1 ;SETBIT user.01.08 7 1 ;# 统计BITCOUNT user.01.08

那么代码怎么去编写呢？

public static void main(String[] args) {Jedis jedis = new Jedis("xxx", 6379);//授权jedis.auth("xxx");String key = "user.01.08";jedis.setbit(key, 0, true);jedis.setbit(key, 2, true);jedis.setbit(key, 3, true);jedis.setbit(key, 7, true);System.out.println(jedis.getbit(key,0));System.out.println(jedis.getbit(key,3));System.out.println(jedis.getbit(key,5));}

结果如下：

简单来说就是：

该Bitmap记录的是：用户编号为01，在8月份的打卡记录。用户在1号，3号，4号18号打了卡。因此jedis.getbit(key,5)的时候，是没打卡的，返回false。当然，你可以从1开始设置。只不过Bitmap的偏移量从0开始算。不过不影响。那么这个月的打卡记录只要统计这个月中值为1的个数就可以了。如果在Redis中，可以命令操作：bitcount user.01.08。

2.2.2 HyperLogLog 基数统计

先来给个应用场景：基数统计。即统计一个集合中不重复的元素。

如果是Set的使用，Redis命令：

sadd key value;sadd key value2;# 统计命令scard key

如果是Java：

jedis.sadd("mySet","123");jedis.sadd("mySet","1234");jedis.sadd("mySet","1235");jedis.sadd("mySet","123");Set<String> mySet = jedis.smembers("mySet");System.out.println(mySet.size());

如果是Hash的使用，Redis命令：

hset test user1 1;hset test user2 2;# 统计命令hlen test

Java命令：

edis.hset("myhash","username","lcg");jedis.hset("myhash","username","lcg1");Map<String, String> myhash = jedis.hgetAll("myhash");System.out.println(myhash.size());

但是这两种情况，在数据量非常大的情况下，Set和Hash类型都会消耗很大的内存空间。因此这里可以使用HyperLogLog来替代，HyperLogLog专门用来处理这种海量数据的基数操作。

HyperLogLog其优势在于当集合元素数量非常多时，它计算基数所需的空间总是固定的，而且还很小。在Redis中，每个HyperLogLog只需要花费12 KB内存，就可以计算接近 2^64 个元素的基数。

例如，统计某个页面中，访问的用户有哪些：

pfadd page user1 user2 user3 user4 user5;# 统计pfcount page;

HyperLogLog有一点需要值得注意，HyperLogLog虽然快，但是牺牲了一定的统计准确度：HyperLogLog的统计规则是基于概率完成的，所以统计结果有一定误差，标准误算率是 0.81%。

2.2.3 GEO 经纬度计算

GEO主要涉及到经纬度的一个计算，例如车辆的定位信息，假设车辆ID是 666，经纬度位置是（120，40），我们可以用一个GEO集合保存所有车辆的经纬度，集合key是location。

GEOADD location 120 40 666

那么当我们需要统计这个坐标附近的车辆信息时候，我们就可以使用以下命令：

# 在经纬度120°,40°附近10km范围内，寻找最近的10辆车辆。GEORADIUS location 120 40 10 km ASC COUNT 10

其他的关于GEO的Redis操作如下：

# 添加地理位置的坐标geoadd key 经度纬度 menber# 获取地理位置的坐标geopos key member [memberN....]# 计算两个位置之间的距离geodist key member1 member2 [m|km|ft|mi]# 根据用户给定的经纬度坐标来获取指定范围内的地理位置集合georadius location 经度纬度举例 [m|km|ft|mi] [ASC|DESC] COUNT 10

Java相关操作：

Jedis jedis = new Jedis("124.220.208.165", 6379);//授权jedis.auth("Ljj000..");// 添加北京坐标信息Long beijing = jedis.geoadd("china:city", 116.46, 39.92, "beijing");System.out.println("添加北京坐标信息：" + beijing);// 添加上海坐标信息Long shanghai = jedis.geoadd("china:city", 121.48, 31.22, "shanghai");System.out.println("添加上海坐标信息：" + shanghai);// 添加杭州坐标信息Long hangzhou = jedis.geoadd("china:city", 120.19, 30.26, "hangzhou");System.out.println("添加杭州坐标信息：" + hangzhou);// 获取北京的坐标信息List<GeoCoordinate> geoCoordinate = jedis.geopos("china:city", "beijing");System.out.println("获取北京的坐标信息：" + geoCoordinate);// 获取多个坐标信息List<GeoCoordinate> geoCoordinates = jedis.geopos("china:city", "beijing", "shanghai");System.out.println("获取多个坐标信息：" + geoCoordinates);// 获取北京到上海的直线距离Double distance = jedis.geodist("china:city", "beijing", "shanghai", GeoUnit.KM);System.out.println("获取北京到上海的直线距离（单位:KM）：" + distance);// 获取距离指定点位距离的城市List<GeoRadiusResponse> citys = jedis.georadiusByMember("china:city", "beijing", 1500, GeoUnit.KM);System.out.println("获取距离指定点位距离的城市：");for (GeoRadiusResponse city:citys) {System.out.print(city.getMemberByString() + "\t");}System.out.println();// 获取指定经纬度多少距离以内的元素List<GeoRadiusResponse> geo1 = jedis.georadius("china:city", 116.46, 39.92, 1200, GeoUnit.KM);System.out.println("获取指定经纬度多少距离以内的元素: ");for (GeoRadiusResponse city:geo1) {System.out.print(city.getMemberByString() + "\t");}System.out.println();System.out.println("***********清空redis中的数据***********");//清空redis中的数据String s = jedis.flushDB();

结果如下：

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。