Elasticsearch快照删除超时,如何三步定位根因?
- 内容介绍
- 文章标签
- 相关推荐
第一步:先把现场的“雾气”给弄清楚 🤔
别急着打开官方文档, 先把办公室的咖啡喝完,再盯着监控屏幕发呆。Elasticsearch快照删除卡住两天 这种事儿常见得要命——有时候是磁盘空间吃紧, 总体来看... 有时候是网络抖动,还可Neng是COS的deleteObject卡死。
Zui直接的办法就是跑一遍_cat/thread_pool?vkankansnapshot队列里到底是哪个任务在“踢皮球”。 完善一下。 如guokan到类似下面的输出:

node1 snapshot active 1/5 00:48:12 node2 snapshot waiting 3/5 -
别慌!先把这行日志复制到记事本里ran后用放大镜仔细端详——有时候一条kan似普通的DELETE请求背后隐藏着一个被挂起的对象。
小技巧:用 jstack 抓堆栈 🌪️
施行jstack 如guokan到类似:
"...COSClient.deleteObject" "...waiting for response..."
那就说明问题根源在于外部对象存储。此时可yi尝试手动删掉对应的 bucket 文件, 被割韭菜了。 huo者换个仓库重新建。
第二步:把配置文件翻出来像翻旧情书一样仔细阅读 📖
elasticsearch.yml里有几个关键点:
.wait_for_completion=true——会导致 API 调用一直阻塞。cluster.routing.allocation.enable——分片分配开关。
第一步:先把现场的“雾气”给弄清楚 🤔
别急着打开官方文档, 先把办公室的咖啡喝完,再盯着监控屏幕发呆。Elasticsearch快照删除卡住两天 这种事儿常见得要命——有时候是磁盘空间吃紧, 总体来看... 有时候是网络抖动,还可Neng是COS的deleteObject卡死。
Zui直接的办法就是跑一遍_cat/thread_pool?vkankansnapshot队列里到底是哪个任务在“踢皮球”。 完善一下。 如guokan到类似下面的输出:

node1 snapshot active 1/5 00:48:12 node2 snapshot waiting 3/5 -
别慌!先把这行日志复制到记事本里ran后用放大镜仔细端详——有时候一条kan似普通的DELETE请求背后隐藏着一个被挂起的对象。
小技巧:用 jstack 抓堆栈 🌪️
施行jstack 如guokan到类似:
"...COSClient.deleteObject" "...waiting for response..."
那就说明问题根源在于外部对象存储。此时可yi尝试手动删掉对应的 bucket 文件, 被割韭菜了。 huo者换个仓库重新建。
第二步:把配置文件翻出来像翻旧情书一样仔细阅读 📖
elasticsearch.yml里有几个关键点:
.wait_for_completion=true——会导致 API 调用一直阻塞。cluster.routing.allocation.enable——分片分配开关。

