那是一个平静的上午,我因为业务需要决定给我们的Elasticsearch(以下简称ES)集群添加几个节点,当前集群ES的版本为7.5.2,而待添加的节点都是从之前的1.5.2版本的ES集群中移出来的。当前的7.5.2集群已经有了6个数据节点,我这次的工作就是准备再添加5个新的数据节点上去。因为这5个节点都是之前1.5.2版本的ES集群的数据节点,并且在之前的集群中稳定的运行了好几年也没有出现过任何问题,所以我对它们的配置都是很放心的,这种大意的态度就为接下来的悲剧埋下了伏笔。因为这些节点在之前的集群中都没什么问题,所以我就一次性把这5个节点全部添加到了ES7集群中成为了数据节点。出现错误节点添加之后,ES集群开始进行分片的重新平衡,整个集群开始进行分片的搬迁和复制操作,我们的工作似乎很快就要完成了。很快,这种平静就被手机短信的铃声所打破了,短信提示业务突然开始出现了大量的读写失败错误!同时企业微信的告警群也开始大量告警,告警信息显示的都是CircuitBreakingException类型的异常,具体的报错信息我摘录部分如下[parent] Data too large, data for [] would be [15634611356/14.5gb], which is larger than the limit of [15300820992/14.2gb], real us
...
继续阅读
(93)