Apache Hadoop ElasticSearch 7.9 官方配置文档中文版（仅供参考）

最新推荐文章于 2025-05-07 14:41:08 发布

yangxinhu_coder

最新推荐文章于 2025-05-07 14:41:08 发布

阅读量2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： hadoop生态圈文章标签： hadoop

原文链接：https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html

hadoop生态圈专栏收录该内容

2 篇文章

订阅专栏

本文详述了Elasticsearch-Hadoop的配置属性，包括必要设定、基本设置和高级设置，涵盖网络、查询、操作、映射和安全等方面，为用户提供了全面的配置指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2.4 映射（在写入Elasticsearch时）

2.5 字段信息（从Elasticsearch中读取时）

2.6 元数据（从Elasticsearch读取时）

2.7 更新设置（在写入Elasticsearch时）

可以通过以下属性来自定义elasticsearch-hadoop行为，通常是通过将其设置在目标作业的Hadoop上Configuration。但是，根据所使用的库，可以通过其他方式指定其中一些（请参阅相关部分）。

elasticsearch-hadoop使用与Elasticsearch相同的约定和合理的默认值，因此您可以尝试一下而无需特定配置。在大多数情况下，这些默认值对于运行生产集群非常合适。如果您要对集群进行微调，或者想知道某些配置选项的效果，请询问更多信息。

所有配置属性es均以前缀开头。该名称空间es.internal由库保留供其内部使用，并且用户在任何时候都不应使用。

1 必要设定

es.resource

Elasticsearch 资源位置，在该位置读取和写入数据。需要格式<index>/<type>（相对于Elasticsearch）主机/端口

es.resource = twitter/tweet   # index 'twitter', type 'tweet'

es.resource.read（默认为es.resource）

用于写入（但不读取）数据的Elasticsearch 资源。通常用于动态资源写入或在同一作业中向不同的Elasticsearch索引写入和读取数据时使用。

es.resource.write（默认为es.resource）

用于写入（但不读取）数据的Elasticsearch资源。通常用于动态资源写入或在同一作业中向不同的Elastic索引写入和读取数据时使用。通常自动设置（需要手动配置的Map/Reduce模块除外）。

请注意，在上述资源设置中指定多个索引/类型仅允许读取。仅通过使用动态资源（如下所示）支持为写入指定多个索引。使用_all/types搜索types在所有索引或index/内搜索所有类型index。请注意，读取多个索引/类型通常仅在它们具有相同的结构且仅在某些库中才有效。需要强类型映射的集成（例如像Hive或SparkSQL之类的表）可能会失败。

1.1 动态/多资源写入

为了进行编写，elasticsearch-hadoop允许使用模式（通过使用{}格式）在运行时解析目标资源，并在运行时根据流到Elasticsearch的数据来解析目标资源。也就是说，可以将文档保存到一定的index或type基于约要保存的文档解决一个或多个字段。

例如，假设以下文档集（此处以JSON进行描述，以提高可读性-随时将其转换为实际的Java对象）：

{
    "media_type":"game",
    "title":"Final Fantasy VI",
    "year":"1994"
},
{
    "media_type":"book",
    "title":"Harry Potter",
    "year":"2010"
},
{
    "media_type":"music",
    "title":"Surfing With The Alien",
    "year":"1987"
}

根据它们的索引对它们进行索引media_type将使用以下模式：

# 根据文档的类型
es.resource.write = my-collection/{media_type}

这将导致Final Fantasy VI索引under my-collection/game，Harry Potterunder my-collection/book和Surfing With The Alienunder my-collection/music。有关更多信息，请参阅专用集成部分。

仅在编写时支持动态资源，对于多索引/类型读取，请使用适当的搜索查询。

1.2　格式化动态/多资源写入

使用动态/多次写入时，还可以指定该字段返回的值的格式。开箱即用的elasticsearch-hadoop提供了日期/时间戳字段的格式设置，这对于在特定索引下的特定时间范围内自动将基于时间的数据（例如日志）进行分组很有用。通过使用Java SimpleDataFormat语法，可以以对语言环境敏感的方式格式化和解析日期。

例如，假设数据包含一个@timestamp字段，则可以使用以下配置将文档按每日索引分组：

# 根据文档的日期
es.resource.write = my-collection/{@timestamp|yyyy.MM.dd}

@timestamp 字段格式-在这种情况下 yyyy.MM.dd

使用了相同的配置属性（es.resource.write），但是，通过特殊|字符指定了格式设置模式。有关支持的语法的更多信息，请参考SimpleDateFormat javadocs。在这种情况下，yyyy.MM.dd将日期转换为年份（由四位数字指定），月份由2位数字，然后是日期再由两位数字（例如2015.01.28）。

2 基本设置

2.1 网络

es.nodes（默认本地主机）

要连接的Elasticsearch节点列表。远程使用Elasticsearch时，请设置此选项。请注意，列表中没有必须包含每一个的Elasticsearch集群内的节点; 默认情况下，这些是由elasticsearch-hadoop自动发现的（请参见下文）。每个节点还可以分别指定其HTTP / REST端口（例如mynode:9600）。

es.port（默认为9200）

用于连接到Elasticsearch的默认HTTP / REST端口-此设置适用于es.nodes未指定任何端口的节点。

es.nodes.path.prefix（默认为空）

添加到对Elasticsearch的所有请求中的前缀。在群集以特定路径代理/路由的环境中很有用。例如，如果群集位于someaddress:someport/custom/path/prefix，则将设置es.nodes.path.prefix为/custom/path/prefix。

2.2 查询方式

es.query（默认无）

保存用于从指定的读取数据的查询es.resource。默认情况下，它不是设置/为空，这意味着将返回指定索引/类型下的全部数据。es.query可以具有三种形式：
- uri查询
  
  使用表格?uri_query，可以指定查询字符串。注意开头?。
- 查询dsl
  
  使用表单query_dsl-请注意，查询dsl需要以此处开头{和结尾，}如下所述
- 外部资源
  
  如果以上两个都不匹配，elasticsearch-hadoop将尝试将参数解释为HDFS文件系统中的路径。如果不是这种情况，它将尝试从类路径或从Hadoop加载资源（如果失败）DistributedCache。资源应包含uri query或query dsl。

举个例子：

# uri (或参数) query
es.query = ?q=costinl

# 查询dsl
es.query = { "query" : { "term" : { "user" : "costinl" } } }

# 外部资源
es.query = org/mypackage/myquery.json

换句话说，es.query它足够灵活，因此您可以内联或通过从外部资源加载它来使用您喜欢的任何搜索API。

我们建议使用外部化在文件中的查询dsl，该文件包含在作业jar中（因此可在其类路径中使用）。这使得识别，调试和组织查询变得容易。在整个文档中，我们使用uri查询保存文本并提高可读性-用作uri时，现实生活中的查询很快变得笨拙。