Products
GG网络技术分享 2025-03-18 16:14 3
网上关于 Etcd 的使用介绍的文章不少,但分析具体架构实现的文章不多,同时 Etcd v3的文档也非常稀缺。本文通过分析 Etcd 的架构与实现,了解其优缺点以及瓶颈点,一方面可以学习分布式系统的架构,另外一方面也可以保证在业务中正确使用 Etcd,知其然同时知其所以然,避免误用。最后介绍 Etcd 周边的工具和一些使用注意事项。
阅读对象:分布式系统爱好者,正在或者打算在项目中使用Etcd的开发人员。
Etcd 按照官方介绍
是一个分布式的,一致的 key-value 存储,主要用途是共享配置和服务发现。Etcd 已经在很多分布式系统中得到广泛的使用,本文的架构与实现部分主要解答以下问题:
为什么需要 Etcd ?
所有的分布式系统,都面临的一个问题是多个节点之间的数据共享问题,这个和团队协作的道理是一样的,成员可以分头干活,但总是需要共享一些必须的信息,比如谁是 leader, 都有哪些成员,依赖任务之间的顺序协调等。所以分布式系统要么自己实现一个可靠的共享存储来同步信息(比如 Elasticsearch ),要么依赖一个可靠的共享存储服务,而 Etcd 就是这样一个服务。
Etcd 提供什么能力?
Etcd 主要提供以下能力,已经熟悉 Etcd 的读者可以略过本段。
更详细的使用场景不在这里描述,有兴趣的可以参看文末infoq的一篇文章。
Etcd 如何实现一致性的?
说到这个就不得不说起raft协议。但这篇文章不是专门分析raft的,篇幅所限,不能详细分析,有兴趣的建议看文末原始论文地址以及raft协议的一个动画。便于看后面的文章,我这里简单做个总结:
Etcd 实现raft的时候,充分利用了go语言CSP并发模型和chan的魔法,想更进行一步了解的可以去看源码,这里只简单分析下它的wal日志。
wal日志是二进制的,解析出来后是以上数据结构LogEntry。其中第一个字段type,只有两种,一种是0表示Normal,1表示ConfChange(ConfChange表示 Etcd 本身的配置变更同步,比如有新的节点加入等)。第二个字段是term,每个term代表一个主节点的任期,每次主节点变更term就会变化。第三个字段是index,这个序号是严格有序递增的,代表变更序号。第四个字段是二进制的data,将raft request对象的pb结构整个保存下。Etcd 源码下有个tools/etcd-dump-logs,可以将wal日志dump成文本查看,可以协助分析raft协议。
raft协议本身不关心应用数据,也就是data中的部分,一致性都通过同步wal日志来实现,每个节点将从主节点收到的data apply到本地的存储,raft只关心日志的同步状态,如果本地存储实现的有bug,比如没有正确的将data apply到本地,也可能会导致数据不一致。
Etcd v2 与 v3
Etcd v2 和 v3 本质上是共享同一套 raft 协议代码的两个独立的应用,接口不一样,存储不一样,数据互相隔离。也就是说如果从 Etcd v2 升级到 Etcd v3,原来v2 的数据还是只能用 v2 的接口访问,v3 的接口创建的数据也只能访问通过 v3 的接口访问。所以我们按照 v2 和 v3 分别分析。
Etcd v2 存储,Watch以及过期机制
Etcd v2 是个纯内存的实现,并未实时将数据写入到磁盘,持久化机制很简单,就是将store整合序列化成json写入文件。数据在内存中是一个简单的树结构。比如以下数据存储到 Etcd 中的结构就如图所示。
/nodes/1/name node1
/nodes/1/ip 192.168.1.1
store中有一个全局的currentIndex,每次变更,index会加1.然后每个event都会关联到currentIndex.
当客户端调用watch接口(参数中增加 wait参数)时,如果请求参数中有waitIndex,并且waitIndex 小于 currentIndex,则从 EventHistroy 表中查询index小于等于waitIndex,并且和watch key 匹配的 event,如果有数据,则直接返回。如果历史表中没有或者请求没有带 waitIndex,则放入WatchHub中,每个key会关联一个watcher列表。 当有变更操作时,变更生成的event会放入EventHistroy表中,同时通知和该key相关的watcher。
这里有几个影响使用的细节问题:
从而可以看出,Etcd v2 的一些限制:
Etcd v3 存储,Watch以及过期机制
Etcd v3 将watch和store拆开实现,我们先分析下store的实现。
Etcd v3 store 分为两部分,一部分是内存中的索引,kvindex,是基于google开源的一个golang的btree实现的,另外一部分是后端存储。按照它的设计,backend可以对接多种存储,当前使用的boltdb。boltdb是一个单机的支持事务的kv存储,Etcd 的事务是基于boltdb的事务实现的。Etcd 在boltdb中存储的key是reversion,value是 Etcd 自己的key-value组合,也就是说 Etcd 会在boltdb中把每个版本都保存下,从而实现了多版本机制。
举个例子: 用etcdctl通过批量接口写入两条记录:
etcdctl txn <<<\'
put key1 \"v1\"
put key2 \"v2\"
\'
再通过批量接口更新这两条记录:
etcdctl txn <<<\'
put key1 \"v12\"
put key2 \"v22\"
\'
boltdb中其实有了4条数据:
rev={3 0}, key=key1, value=\"v1\"
rev={3 1}, key=key2, value=\"v2\"
rev={4 0}, key=key1, value=\"v12\"
rev={4 1}, key=key2, value=\"v22\"
reversion主要由两部分组成,第一部分main rev,每次事务进行加一,第二部分sub rev,同一个事务中的每次操作加一。如上示例,第一次操作的main rev是3,第二次是4。当然这种机制大家想到的第一个问题就是空间问题,所以 Etcd 提供了命令和设置选项来控制compact,同时支持put操作的参数来精确控制某个key的历史版本数。
了解了 Etcd 的磁盘存储,可以看出如果要从boltdb中查询数据,必须通过reversion,但客户端都是通过key来查询value,所以 Etcd 的内存kvindex保存的就是key和reversion之前的映射关系,用来加速查询。
然后我们再分析下watch机制的实现。Etcd v3 的watch机制支持watch某个固定的key,也支持watch一个范围(可以用于模拟目录的结构的watch),所以 watchGroup 包含两种watcher,一种是 key watchers,数据结构是每个key对应一组watcher,另外一种是 range watchers, 数据结构是一个 IntervalTree(不熟悉的参看文文末链接),方便通过区间查找到对应的watcher。
同时,每个 WatchableStore 包含两种 watcherGroup,一种是synced,一种是unsynced,前者表示该group的watcher数据都已经同步完毕,在等待新的变更,后者表示该group的watcher数据同步落后于当前最新变更,还在追赶。
当 Etcd 收到客户端的watch请求,如果请求携带了revision参数,则比较请求的revision和store当前的revision,如果大于当前revision,则放入synced组中,否则放入unsynced组。同时 Etcd 会启动一个后台的goroutine持续同步unsynced的watcher,然后将其迁移到synced组。也就是这种机制下,Etcd v3 支持从任意版本开始watch,没有v2的1000条历史event表限制的问题(当然这是指没有compact的情况下)。
另外我们前面提到的,Etcd v2在通知客户端时,如果网络不好或者客户端读取比较慢,发生了阻塞,则会直接关闭当前连接,客户端需要重新发起请求。Etcd v3为了解决这个问题,专门维护了一个推送时阻塞的watcher队列,在另外的goroutine里进行重试。
Etcd v3 对过期机制也做了改进,过期时间设置在lease上,然后key和lease关联。这样可以实现多个key关联同一个lease id,方便设置统一的过期时间,以及实现批量续约。
相比Etcd v2, Etcd v3的一些主要变化:
Etcd,Zookeeper,Consul 比较
这三个产品是经常被人拿来做选型比较的。 Etcd 和 Zookeeper 提供的能力非常相似,都是通用的一致性元信息存储,都提供watch机制用于变更通知和分发,也都被分布式系统用来作为共享信息存储,在软件生态中所处的位置也几乎是一样的,可以互相替代的。二者除了实现细节,语言,一致性协议上的区别,最大的区别在周边生态圈。Zookeeper 是apache下的,用java写的,提供rpc接口,最早从hadoop项目中孵化出来,在分布式系统中得到广泛使用(hadoop, solr, kafka, mesos 等)。Etcd 是coreos公司旗下的开源产品,比较新,以其简单好用的rest接口以及活跃的社区俘获了一批用户,在新的一些集群中得到使用(比如kubernetes)。虽然v3为了性能也改成二进制rpc接口了,但其易用性上比 Zookeeper 还是好一些。 而 Consul 的目标则更为具体一些,Etcd 和 Zookeeper 提供的是分布式一致性存储能力,具体的业务场景需要用户自己实现,比如服务发现,比如配置变更。而Consul 则以服务发现和配置变更为主要目标,同时附带了kv存储。 在软件生态中,越抽象的组件适用范围越广,但同时对具体业务场景需求的满足上肯定有不足之处。
Etcd 的周边工具
Etcd 使用注意事项
脑洞时间
自动上次 Elasticsearch 的文章之后,给自己安排了一个作业,每次分析源码后需要提出几个发散思维的想法,开个脑洞。
Etcd 的开源产品启示
Etcd在Zookeeper已经奠定江湖地位的情况下,硬是重新造了一个轮子,并且在生态圈中取得了一席之地。一方面可以看出是社区的形态在变化,沟通机制和对用户反馈的响应越来越重要,另外一方面也可以看出一个项目的易用的重要性有时候甚至高于稳定性和功能。新的算法,新的语言都会给重新制造轮子带来了机会。
gitchat交流群的问答
问:业务使用的etcd v2 升级到 v3 会有什么问题呢,如何平滑过渡?
答:v2的大多数功能,用v3都能实现,比如用prefix模拟原来的目录结构,用txn模拟CAS,一般不会有什么问题。但因为v2和v3的数据是互相隔离的,所以迁移起来略麻烦。建议先在业务中封装一层,将etcd v2,v3的差异封装起来,然后通过开关切换。
问:metad的watch是怎么实现的?
答:metad的watch实现的比较简单,因为metad的watch返回的不是变更事件,而是最新的结果。所以metad只维护了一个全局版本号,只要发现客户端watch的版本小于等于全局版本号,就直接返回最新结果。
问:etcd和zk都是作为分布式配置管理的组件。均提供了watch功能,选主。作为初使用者,这两个之间的选取该如何?
答:etcd和zk二者大多数情况下可以互相替代,都是通用的分布式一致性kv存储。二者之间选择建议选择自己的开发栈比较接近并且团队成员比较熟悉的,比如一种是按语言选择,go语言的项目用etcd,java的用zk,出问题要看源码也容易些。如果是新项目,纠结于二者,那可以分装一层lib,类似于docker/libkv,同时支持两种,有需要可以切换。
问:etcd和eureka、consul 的异同,以及各自的适用场景,以及选型原则。这个问题其实可以把zk也包括进来,这些都有相同之处。
答:etcd和zk的选型前面讲到了,二者的定位都是通用的一致性kv存储,而eureka和consul的定位则是专做服务注册和发现。前二者的优势当然是通用性,应用广泛,部署运维的时候容易和已有的服务一起共用,而同时缺点也是太通用了,每个应用的服务注册都有自己的一套元数据格式,互相整合起来就比较麻烦了,比如想做个通用的api gateway就会遇到元数据格式兼容问题。这也成为后二者的优势。同时因为后二者的目标比较具体,所以可以做一些更高级的功能,比如consul的DNS支持,consul-template工具,eureka的事件订阅过滤机制。Eureka本身的实现是一个AP系统,也就是说牺牲了一致性,它认为在服务发现和配置中心这个场景下,可用性和分区容错比一致性更重要。 我个人其实更期待后二者的这种专门的解决方案,要是能形成服务注册标准,那以后应用之间互相交互就容易了。但也有个可能是这种标准由集群调度系统来形成事实标准。
后二者我了解的也不深入,感觉可以另起一篇文章了。
问:接上面,etcd和zk各自都有哪些坑可能会被踩到,都有多坑。掉进去了如何爬起来?
这个坑的概念比较太广泛了,更详细的可以翻bug列表。但使用中的大多数坑一般有几种:
想要少踩坑,一个办法就是我文中提到的,研究原理知其然同时知其所以然,另外一个问题就是多试验,出了问题有预案。
问:一个实验性质的硬件集群项目的几个问题 我们实现了基于Arm的分布式互联的硬件集群(方法参考的是https://edcashin.wordpress.com/2013/12/29/trying-etcd-on-android-mac-and-raspberry-pi/comment-page-1/ 将etcd跑在Arm开发板上),将Etcd当作一个分布式的数据库使用(但是Etcd本身运行在这些硬件之上),然后参考go-rpiohttps://github.com/stianeikeland/go-rpio 实现基于etcd的key-value同步硬件的信息,控制某些GPIO。
问题1:目前已知Etcd可以为别的服务提供服务发现,在这个场景下假设已经存在5个运行Etcd节点的硬件,当一个新的Etcd硬件节点被安装时,Etcd能否为自己提供服务发现服务,实现Etcd节点的自动发现与加入?
问题2:随着硬件安装规模的增加,Etcd的极限是多少,raft是否会因为节点的变多,心跳包的往返而导致同步一次的等待时间变长?
问题3:当规模足够大,发生网络分区时,是否分区较小的一批硬件之间的数据是无法完成同步的?
答:这个案例挺有意思,我一个一个回答。
问:如果跨机房部署服务,是部署两套ETCD吗?如果跨机房部署,如何部署及配置?
答:这个要看跨机房的场景。如果是完全无关联需要公网连接的两个机房,服务之间一般也不需要共享数据吧?部署两套互不相干的etcd,各用各的比较合适。但如果是类似于aws的可用区的概念,两个机房内网互通,搭建两套集群为了避免机房故障,可以随时切换。这个etcd当前没有太好的解决办法,建议的办法是跨可用区部署一个etcd cluster,调整心跳以及选举超时时间,这个办法如果有3个可用区机房,每个机房3个节点,挂任何一个机房都不影响整个集群,但两个机房就比较尴尬。还有个办法是两个集群之间同步,这个etcdv3提供了一个mirror的工具,但还是不太完善,不过感觉用etcd的watch机制做一个同步工具也不难。这个机制consul倒是提供了,多数据中心的集群数据同步,互相不影响可用性。
问:在使用 etcd watch 过程中,有没有一些措施能帮助降低出现惊群(Herd Effect)?
答:这个问题我也遇到了,但没发现太好的办法,除了在客户端做随机延迟。(注:这个问题后来和coreos的李响交流,他说etcd3.1会对有解决方案)
来源: https://blog.csdn.net/zl1zl2zl3/article/details/79627412
首先,定义实现函数,将以下php代码复制到当前主题的functions.php中:
function mobantu_get_cat_postcount($id) { //id是分类ID // 获取当前分类信息 $cat = get_category($id); // 当前分类文章数 $count = (int) $cat->count; // 获取当前分类所有子孙分类 $tax_terms = get_terms(\'category\', array(\'child_of\' => $id)); foreach ($tax_terms as $tax_term) { // 子孙分类文章数累加 $count +=$tax_term->count; } return $count;}
//使用方法
<?php echo \'ID为123的分类及其子孙分类的文章数量为:\' . mobantu_get_cat_postcount(123);?>
Demand feedback