集群恢复，当节点离线导致分片状态为UNASSIGNED时，如何进行分片重分配？当出现Elasticsearch bulk写入性能瓶颈时，可以从哪些方面进行优化

搞不懂语言的程序员

于 2025-05-27 21:16:27 发布

阅读量389

点赞数 3

CC 4.0 BY-SA版权

分类专栏： elasticsearch 中间件文章标签： elasticsearch 大数据搜索引擎

本文链接：https://blog.csdn.net/weixin_45762066/article/details/148265235

中间件同时被 2 个专栏收录

74 篇文章

订阅专栏

elasticsearch

16 篇文章

订阅专栏

关于Elasticsearch集群恢复和写入性能优化问题，以下是具体解决方案：

一、集群分片重分配解决方案

手动分片分配（需确保集群状态Yellow/Red）：

PUT _cluster/reroute
{
  "commands": [
    {
      "allocate_stale_replica": {
        "index": "索引名",
        "shard": 分片编号,
        "node": "目标节点ID"
      }
    }
  ]
}

常用修复步骤：
1）检查分片状态：

GET _cat/shards?v&h=index,shard,prirep,state,unassigned.reason

2）启用自动分配（默认开启）：

PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.enable": "all"
  }
}

3）调整恢复阈值（根据硬件调整）：

PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.node_initial_primaries_recoveries": 4,
    "cluster.routing.allocation.node_concurrent_recoveries": 2
  }
}

二、Bulk写入性能优化方案

客户端优化：

# 使用多线程批量提交（Python示例）
from elasticsearch.helpers import parallel_bulk

for success, info in parallel_bulk(es, actions, thread_count=4):
    if not success:
        print(f'Doc failed: {info}')

服务端核心参数调整：

PUT _cluster/settings
{
  "transient": {
    "indices.memory.index_buffer_size": "15%",
    "index.refresh_interval": "60s",
    "index.translog.durability": "async"
  }
}

硬件优化建议：

SSD NVMe磁盘（推荐IOPS > 5000）
单个节点内存建议 >= 32GB（堆内存设置31GB）
万兆网络带宽（建议开启TCP窗口缩放）

高级优化技巧：

# 冷热数据分离架构
PUT _ilm/policy/hot_warm_policy
{
  "policy": {
    "phases": {
      "hot": {
        "actions": {
          "rollover": {
            "max_size": "50GB"
          }
        }
      },
      "warm": {
        "min_age": "1d",
        "actions": {
          "allocate": {
            "require": {
              "data": "warm"
            }
          }
        }
      }
    }
  }
}