当前位置：

首页
/
IT
/
程序
/
"阿里人" 分享大型网站架构系列：缓存在分布式系统中的应用

"阿里人" 分享大型网站架构系列：缓存在分布式系统中的应用

分布式缓存

CDN, 反向代理缓存,主要解决静态文件,或用户请求资源的缓存,数据源一般为静态文件或动态生成的文件(有缓存头标识).

分布式缓存,主要指缓存用户经常访问数据的缓存,数据源为数据库.一般起到热点数据访问和减轻数据库压力的作用.

目前分布式缓存设计,在大型网站架构中是必备的架构要素.常用的中间件有 Memcache,Redis.

1.1Memcache

Memcache 是一个高性能,分布式内存对象缓存系统,通过在内存里维护一个统一的巨大的 hash 表,它能够用来存储各种格式的数据,包括图像,视频,文件以及数据库检索的结果等.简单的说就是将数据调用到内存中,然后从内存中读取,从而大大提高读取速度.

Memcache 特性:

使用物理内存作为缓存区,可独立运行在服务器上.每个进程最大 2G,如果想缓存更多的数据,可以开辟更多的 memcache 进程(不同端口)或者使用分布式 memcache 进行缓存,将数据缓存到不同的物理机或者虚拟机上.

使用 key-value 的方式来存储数据,这是一种单索引的结构化数据组织形式,可使数据项查询时间复杂度为 O(1).

协议简单:基于文本行的协议,直接通过 telnet 在 memcached 服务器上可进行存取数据操作,简单,方便多种缓存参考此协议；

基于 libevent 高性能通信:Libevent 是一套利用 C 开发的程序库,它将 BSD 系统的 kqueue,Linux 系统的 epoll 等事件处理功能封装成一个接口,与传统的 select 相比,提高了性能.

内置的内存管理方式:所有数据都保存在内存中,存取数据比硬盘快,当内存满后,通过 LRU 算法自动删除不使用的缓存,但没有考虑数据的容灾问题,重启服务,所有数据会丢失.

分布式:各个 memcached 服务器之间互不通信,各自独立存取数据,不共享任何信息下载地址.服务器并不具有分布式功能,分布式部署取决于 memcache 客户端.

缓存策略:Memcached 的缓存策略是 LRU(最近最少使用)到期失效策略.在 memcached 内存储数据项时,可以指定它在缓存的失效时间,默认为永久.当 memcached 服务器用完分配的内时,失效的数据被首先替换,然后也是最近未使用的数据.在 LRU 中,memcached 使用的是一种 Lazy Expiration 策略,自己不会监控存入的 key/vlue 对是否过期,而是在获取 key 值时查看记录的时间戳,检查 key/value 对空间是否过期,这样可减轻服务器的负载.

1.1.1Memcache 工作原理MemCache 的工作流程如下:

先检查客户端的请求数据是否在 memcached 中,如有,直接把请求数据返回,不再对数据库进行任何操作；

如果请求的数据不在 memcached 中,就去查数据库,把从数据库中获取的数据返回给客户端,同时把数据缓存一份到 memcached 中(memcached 客户端不负责,需要程序实现)；

每次更新数据库的同时更新 memcached 中的数据,保证一致性；

当分配给 memcached 内存空间用完之后,会使用 LRU(Least Recently Used,最近最少使用)策略加上到期失效策略,失效数据首先被替换,然后再替换掉最近未使用的数据.

1.1.2Memcache 下载地址集群

memcached 虽然称为 "分布式" 缓存服务器,但服务器端并没有 "分布式" 功能.每个服务器都是完全独立和隔离的服务. memcached 的分布式,是由客户端程序实现的.

当向 memcached 集群存入 / 取出 key value 时,memcached 客户端程序根据一定的算法计算存入哪台服务器,然后再把 key value 值存到此服务器中.

存取数据分二步走,第一步,选择服务器,第二步存取数据.

分布式算法 (Consistent Hashing 下载地址):

选择服务器算法有两种,一种是根据余数来计算分布,另一种是根据散列算法来计算分布.

余数算法:

先求得键的整数散列值,再除以服务器台数,根据余数确定存取服务器.

优点:计算简单,高效；

缺点:在 memcached 服务器增加或减少时,几乎所有的缓存都会失效.

散列算法:(一致性 Hash)

先算出 memcached 服务器的散列值,并将其分布到 0 到 2 的 32 次方的圆上,然后用同样的方法算出存储数据的键的散列值并映射至圆上,最后从数据映射到的位置开始顺时针查找,将数据保存到查找到的第一个服务器上,如果超过 2 的 32 次方,依然找不到服务器,就将数据保存到第一台 memcached 服务器上.

如果添加了一台 memcached 服务器,只在圆上增加服务器的逆时针方向的第一台服务器上的键会受到影响.

一致性 Hash 算法:解决了余数算法增加节点命中大幅额度降低的问题,理论上,插入一个实体节点,平均会影响到:虚拟节点数 /2 的节点数据的命中.

1.2Redis

Redis 是一个开源(BSD 许可)的,基于内存的,多数据结构存储系统.可以用作数据库,缓存和消息中间件. 支持多种类型的数据结构,如字符串(strings), 散列(hashes), 列表(lists), 集合(sets), 有序集合(sorted sets) 与范围查询, bitmaps, hyperloglogs 和地理空间(geospatial) 索引半径查询.

内置了复制(replication),LUA 脚本(Lua scripting), LRU 驱动事件(LRU eviction),事务(transactions) 和不同级别的磁盘持久化(persistence), 并通过 Redis 哨兵(Sentinel)和自动分区(Cluster)提供高可用性(high availability).

1.2.1Redis 常用数据类型

1,String

常用命令:set,get,decr,incr,mget .

应用场景:String 是最常用的一种数据类型,与 Memcache 的 key value 存储方式类似.

实现方式:String 在 redis 内部存储默认就是一个字符串,被 redisObject 所引用,当遇到 incr,decr 等操作时会转成数值型进行计算,此时 redisObject 的 encoding 字段为 int.

2,Hash

常用命令:hget,hset,hgetall .

应用场景:以存储一个用户信息对象数据,为例:

实现方式:

Redis Hash 对应的 Value,内部实际就是一个 HashMap,实际这里会有 2 种不同实现.

Hash 的成员比较少时 Redis 为了节省内存会采用类似一维数组的方式来紧凑存储,而不会采用真正的 HashMap 结构,对应的 value redisObject 的 encoding 为 zipmap；

当成员数量增大时会自动转成真正的 HashMap, 此时 encoding 为 ht 下载地址.

3,List

常用命令:lpush,rpush,lpop,rpop,lrange.

应用场景:

Redis list 的应用场景非常多,也是 Redis 最重要的数据结构之一,比如 twitter 的关注列表,粉丝列表等都可以用 Redis 的 list 结构来实现.

实现方式:

Redis list 的实现为一个双向链表,可以支持反向查找和遍历,方便操作.不过带来了部分额外的内存开销,Redis 内部的很多实现,包括发送缓冲队列等也都是用的这个数据结构.

4,Set

常用命令:sadd,spop,smembers,sunion.

应用场景:

Redis set 对外提供的功能与 list 类似是一个列表的功能,特殊之处在于 set 是可以自动排重的,当你需要存储一个列表数据,又不希望出现重复数据时,set 是一个很好的选择,并且 set 提供了判断某个成员是否在一个 set 集合内的重要接口,这个也是 list 所不能提供的.

实现方式:

set 的内部实现是一个 value 永远为 null 的 HashMap,实际就是通过计算 hash 的方式来快速排重的,这也是 set 能提供判断一个成员是否在集合内的原因.

5,Sorted set

常用命令:zadd,zrange,zrem,zcard；

使用场景:

Redis sorted set 的使用场景与 set 类似,区别是 set 不是自动有序的,而 sorted set 可以通过用户额外提供一个优先级 (score) 的参数来为成员排序,并且是插入有序的,即自动排序.当你需要一个有序的并且不重复的集合列表,可以选择 sorted set 数据结构,比如 twitter 的 public timeline 可以以发表时间作为 score 来存储,这样获取时就是自动按时间排好序的.

实现方式:

Redis sorted set 的内部使用 HashMap 和跳跃表 (SkipList) 来保证数据的存储和有序,HashMap 里放的是成员到 score 的映射,而跳跃表里存放的是所有的成员,排序依据是 HashMap 里存的 score, 使用跳跃表的结构可以获得比较高的查找效率,并且在实现上比较简单下载地址.

1.2.2Redis 集群(1)通过 keepalived 实现的高可用方案切换流程:

当 Master 挂了后,VIP 漂移到 Slave；Slave 上 keepalived 通知 redis 执行:slaveof no one , 开始提供业务

当 Master 起来后,VIP 地址不变,Master 的 keepalived 通知 redis 执行 slaveof slave IP host ,开始作为从同步数据

依次类推

针对上面的技术我特意整理了一下,有很多技术不是靠几句话能讲清楚,所以干脆找朋友录制了一些视频,很多问题其实答案很简单,但是背后的思考和逻辑不简单,要做到知其然还要知其所以然.如果想学习 Java 工程化,高性能及分布式,深入浅出.微服务,Spring,MyBatis,Netty 源码分析的朋友可以加我的 Java 进阶群:680130298,群里有阿里大牛直播讲解技术,以及 Java 大型互联网技术的视频免费分享给大家.

主从同时 Down 机情况:

1. 非计划性,不做考虑,一般也不会存在这种问题

2. 计划性重启,重启之前通过运维手段 SAVE DUMP 主库数据；需要注意顺序:

3. 关闭其中一台机器上所有 redis,是得 master 全部切到另外一台机器(多实例部署,单机上既有主又有从的情况)；并关闭机器

4. 依次 dump 主上 redis 服务

5. 关闭主

6. 启动主,并等待数据 load 完毕

7. 启动从

8. 删除 DUMP 文件(避免重启加载慢)

(2)使用 Twemproxy 实现集群方案

由 twitter 开源的 c 版本 proxy,同时支持 memcached 和 redis,目前最新版本为:0.2.4,持续开发中; 用它主要减少前端与缓存服务间网络连接数.

特点:快,轻量级,减少后端 Cache Server 连接数,易配置,支持 ketama,modula,random,常用 hash 分片算法.

这里使用 keepalived 实现高可用主备方案,解决 proxy 单点问题；

优点:

1. 对于客户端而言,redis 集群是透明的,客户端简单,遍于动态扩容

2. Proxy 为单点,处理一致性 hash 时,集群节点可用性检测不存在脑裂问题

3. 高性能,CPU 密集型,而 redis 节点集群多 CPU 资源冗余,可部署在 redis 节点集群上,不需要额外设备

1.3Memcache 与 Redis 的比较

(1)数据结构:Memcache 只支持 key value 存储方式,Redis 支持更多的数据类型,比如 Key value,hash,list,set,zset；

(2)多线程:Memcache 支持多线程,redis 支持单线程；CPU 利用方面 Memcache 优于 redis；

(3)持久化:Memcache 不支持持久化,Redis 支持持久化；

(4)内存利用率:memcache 高,redis 低(采用压缩的情况下比 memcache 高)；

(5)过期策略:memcache 过期后,不删除缓存,会导致下次取数据数据的问题,Redis 有专门线程,清除缓存数据；

本地缓存

本地缓存是指应用内部的缓存,标准的分布式系统,一般有多级缓存构成.本地缓存是离应用最近的缓存,一般可以将数据缓存到硬盘或内存.

1.1 硬盘缓存

将数据缓存到硬盘到,读取时从硬盘读取.原理是直接读取本机文件,减少了网络传输消耗,比通过网络读取数据库速度更快.可以应用在对速度要求不是很高,但需要大量缓存存储的场景.

1.2 内存缓存

直接将数据存储到本机内存中,通过程序直接维护缓存对象,是访问速度最快的方式.

缓存架构示例

职责划分:

CDN:存放 html,CSS,JS 等静态资源；

反向代理:动静分离,只缓存用户请求的静态资源；

分布式缓存:缓存数据库中的热点数据；

本地缓存:缓存应用字典等常用数据；

请求过程:

(1) 浏览器向客户端发起请求,如果 CDN 有缓存则直接返回；

(2) 如果 CDN 无缓存,则访问反向代理服务器；

(3) 如果反向代理服务器有缓存则直接返回；

(4) 如果反向代理服务器无缓存或动态请求,则访问应用服务器；

(5) 应用服务器访问本地缓存；如果有缓存,则返回代理服务器,并缓存数据；(动态请求不缓存)

(6) 如果本地缓存无数据,则读取分布式缓存；并返回应用服务器；应用服务器将数据缓存到本地缓存(部分)；

(7) 如果分布式缓存无数据,则应用程序读取数据库数据,并放入分布式缓存

来源: http://www.jianshu.com/p/ab2cfbffc8dc

与本文相关文章

暂无,快来抢沙发吧！