ES优化总结-CSDN博客

一、硬件优化

内存锁定与虚拟内存
- 在elasticsearch.yml中设置bootstrap.memory_lock: true，防止 JVM 堆内存被交换到磁盘。
- 在/etc/sysctl.conf中设置vm.swappiness = 1，禁用内存交换（swap）。
文件系统与描述符
- 使用 ext4 或 xfs 文件系统（ext4 表现更优）。
- 在/etc/security/limits.conf中增加文件描述符限制（如* hard nofile 65536）和最大线程数（nproc=4096）。
mmap 参数
- 在/etc/sysctl.conf中设置vm.max_map_count=262144，避免因 mmap 计数不足导致 OOM 异常，需执行sysctl -p刷新配置。

内存与线程池
- JVM 堆内存配置（如-Xms16g -Xmx16g），确保堆外内存充足。
- 根据负载调整线程池大小和队列长度。
Translog 刷盘策略
- 核心参数：
  - index.translog.durability：默认request（同步刷盘），写入性能敏感场景可改为async（异步刷盘）。
  - index.translog.sync_interval：异步刷盘间隔（默认 5s，可调整为 60s 等）。
  - index.translog.flush_threshold_size：触发刷盘的 Translog 大小阈值（默认 512MB，可调大至 1GB）。
- 示例配置：
  yaml
```
index.translog.durability: async
index.translog.sync_interval: 60s
index.translog.flush_threshold_size: 1gb
```
段合并与缓存
- 调整段合并策略（如index.merge.policy.max_merge_at_once: 5），减少磁盘 I/O。
- 设置查询缓存和字段数据缓存大小（如indices.query.cache.size和indices.fielddata.cache.size）。
编解码器与 Buffer
- 使用best_compression编解码器压缩存储（index.codec: best_compression）。
- 调整内存 Buffer 大小（如indices.memory.index_buffer_size: 1%），优化写入性能。

分片与副本
- 合理设置分片数（number_of_shards）和副本数（number_of_replicas），根据数据量和查询负载动态调整。
字段类型与映射
- 文本类型：需要全文搜索的字段用text，无需分析的过滤 / 排序字段用keyword。
- 数值与日期：使用integer、float、date等精准类型，避免冗余。
- 嵌套对象：优先使用nested类型（支持独立查询），而非object类型。
字段精简与索引控制
- 避免冗余字段，减少写入和搜索开销。
- 对不需要索引的字段设置index: false（如"name": {"type": "text", "index": false}）。
禁用动态映射与优化分词器
- 禁用Dynamic Mapping，显式定义字段类型（避免默认索引不必要字段）。
- 根据业务选择分词器（如 IK 分词器的ik_max_word或ik_smart模式）。
关闭 Norms 和 Doc Values
- 无需算分的字段关闭norms（"norms": false），减少磁盘占用。
- 无需排序 / 聚合的字段关闭doc_values（如"doc_values": false）。

ID 生成与副本策略
- 使用 ES 生成的随机 ID（均匀分布数据，避免重复检查）。
- 写入时先设置副本数为 0，数据导入完成后再开启副本（如PUT /myindex/_settings {"number_of_replicas": 2}）。
批量处理与数据预处理
- 使用Bulk API 批量写入，单批大小建议 5~10MB（约 5000~10000 条数据），同索引数据合并批次。
- 压缩传输数据（如 gzip），清洗冗余字段，减少写入量。
异步写入
- 使用异步机制，允许客户端在等待写入确认时处理其他任务，提升吞吐量。

Filter 替代 Query 与结果精简
- 对不参与评分的条件使用filter（利用缓存，避免重复计算）。
- 通过_source参数指定返回字段，减少不必要的数据传输。
Scroll API 与聚合查询
- 大数据量查询使用Scroll API分批获取结果，避免深度分页全表扫描。
- 使用Aggregations执行统计计算，减少应用层处理开销。
避免低效查询
- 慎用Wildcard和Regexp查询（改用keyword类型限制长度）。
- 精确匹配使用term查询（比match更快），排序字段优先用keyword并开启Field Data。
缓存与批量查询
- 调整indices.fielddata.cache.size和indices.query.cache.size，优化缓存命中率。
- 使用Multi Search API组合多个查询，减少网络往返次数。

ES 性能优化需从硬件、系统配置、索引设计、读写策略等多维度综合调整，核心目标是减少 I/O 开销、合理利用内存与缓存、简化数据结构，并根据业务场景动态平衡性能与可靠性（如异步刷盘牺牲部分数据安全性换取写入速度）。

编辑