master
集群的 master 节点
slaves
集群中所有的工作节点
flink-conf.yaml
1. 基础配置
# JobMaster节点IP地址
jobmanager.rpc.address
# JobMaster端口号,默认6123
jobmanager.rpc.port:6123
# JM 节点可分配的最大内存,master 主要管理集群资源(RM)、协调应用程序执行(TM),需要资源不多,
# 但如果多个应用并行或者一个应用有很多算子,那么需要增加内存,默认1024m
jobmanager.heap.size: 1024m
# Worker 节点负责实际任务的执行并处理大量数据,而且当使用内存或文件格式的状态后端,也会占用 JVM 堆内存
# 默认1024m,根据实际应用情况适当调整。On YARN 模式下,内存大小是被 TM 的 YARN 资源容器自动分配的
taskmanager.heap.size: 1024m
# 每个 TM 提供的任务 Slots 数量大小,即 Work 进程可以同时运行的 Task 数,通常是 CPU 的核心数或者一半
# 默认1。Flink 不为每个 Task 或 Solt 指定分配内存,所以一个任务也可能消耗 Work JVM 大部分内存
taskmanager.numberOfTaskSlots: 1
# Flink 默认并行计算的个数,默认1。即应用内每个算子的并行度,与整个集群的 CPU 核心数有关,
# 整个集群最大可以的并行度, 一般设置为 slave节点数 * 节点可用CPU核数
# 增加 parallelism 可以提高任务并行的计算的实例数,提升数据处理效率,但也会占用更多 Slot
# 算子的并行度有多种配置方式,优先级是:
# 配置文件(parallelism.default) < 启动时-p参数指定 < 代码中初始设置(env.setParallelism) < 代码中算子