Products
GG网络技术分享 2026-01-20 01:17 0
别急着打开官方文档, 先把办公室的咖啡喝完,再盯着监控屏幕发呆。Elasticsearch快照删除卡住两天 这种事儿常见得要命——有时候是磁盘空间吃紧, 总体来看... 有时候是网络抖动,还可Neng是COS的deleteObject卡死。
Zui直接的办法就是跑一遍_cat/thread_pool?vkankansnapshot队列里到底是哪个任务在“踢皮球”。 完善一下。 如guokan到类似下面的输出:

node1 snapshot active 1/5 00:48:12 node2 snapshot waiting 3/5 -
别慌!先把这行日志复制到记事本里ran后用放大镜仔细端详——有时候一条kan似普通的DELETE请求背后隐藏着一个被挂起的对象。
施行jstack 如guokan到类似:
"...COSClient.deleteObject" "...waiting for response..."
那就说明问题根源在于外部对象存储。此时可yi尝试手动删掉对应的 bucket 文件, 被割韭菜了。 huo者换个仓库重新建。
elasticsearch.yml里有几个关键点:
.wait_for_completion=true——会导致 API 调用一直阻塞。cluster.routing.allocation.enable——分片分配开关。path.repo——快照仓库路径。本质上... 如guo你把.wait_for_completion=true写进去了 却忘了调大 Kibana 的超时时间,那每次手动创建快照dou会瞬间报“超时”,而后台其实还在忙活呢。
1️⃣ 把仓库指向了本地磁盘,却忘了挂载 NFS;后来啊磁盘满了却还在写日志。 2️⃣ 在多节点集群里只给主节点配置了 repo,副本节点根本找不到仓库路径。 3️⃣ 用了老版本的 ES, 却按照新版本文档操作 snapshot API,报错信息像极了外星语。
/var/log/elasticsearch 妥妥的! /*.log | grep -i delete
没法说。 如guo出现大量“Failed to delete object”之类的错误,那基本可yi确认是对象存储层面的网络抖动或权限不足。赶紧检查 OSS AccessKey、SecretKey 是否过期。
是不是? - /mnt/es-backup Yi满 99% → 快照删除根本没法回收空间。 - /var/lib/elasticsearch Yi满 → 节点无法写入临时文件。
如guo发现有一个状态一直是 PENDING_DELETE 那就说明该任务卡死,需要强制取消:,没耳听。
POST _snapshot/repo_name/snapshot_name/_delete?master_timeout=30s
说真的,我曾经主要原因是一次“快照删除超时”,把整个集群逼到崩溃边缘。那天凌晨三点, 我对着监控屏幕狂敲键盘,旁边的同事递给我一杯浓咖啡,我却只Neng感受到键盘上的冰凉——这就是技术人的浪漫与悲剧交织的瞬间! 体验感拉满。 不过话说回来只要掌握了上面三步,你wan全可yi在半小时内定位并解决问题,省得再去抓狂。
| 产品名称 | 支持协议 | Zui大吞吐量 | 价格/年 | 适用场景 | 备份王者A | S3兼容、 OSS、NFS | 200万+ | 9800 | 中大型企业、跨地域备份 | 轻量级B云盘 | NFS、SMB | 50万左右 | 4200 | 小团队、单机备份 | 极速C对象存储 | S3兼容、Azure Blob | 500万+ | 15800 | 高频IO、大数据湖 | 混合D私有云 | 自研协议、NFS | 150万左右 | 7200 | 平安合规行业 | ※以上数据仅供参考,请根据实际需求自行评估选择~ ✨✨✨ |
|---|
Demand feedback