Flink中jobmanager、taskmanager、slot、task、subtask、Parallelism的概念

最新推荐文章于 2025-03-09 23:59:01 发布

JNWsong

最新推荐文章于 2025-03-09 23:59:01 发布

阅读量878

点赞数 2

CC 4.0 BY-SA版权

文章标签： flink 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/java_creatMylief/article/details/133745417

本文详细解释了Flink中的JobManager和TaskManager角色，以及它们在生产流程中的协调、调度和资源管理。介绍了slot、Task、Parallelism和SubTask的概念，展示了Flink如何通过并行处理提高效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

场景

一个工厂有三个车间每个车间两条生产线

生产流程如下

原料->加工->过滤->分类->美化->包装->下线

JobManager：工厂

在上述场景中，工厂就是jobManager，负责协调、调度和监控整个生产过程

TaskManager：车间

在上述场景中，车间就是taskManager，按照工厂的分配进行生产，所有的问题上报工厂

slot：流水线

在上述场景中，车间的流水线就是slot，是工作台，真正干活的地方，每个车间有2个流水线，3个车间，也就是说这个工厂有6条流水线，就是6个slot

Task：工作

在上述场景中，每一个任务都是一个task，共计7个task

在代码中，source.map.filter.groupby....每一个算子可以成为一个task

Parallelism：并行度

同一个任务（Task），在6个工作台上都可以同时进行，并行度可以设置为6

SubTask：工作实例

在每个工作台上运行的相同任务，相当于任务的实例，也就是subTask

官方概念

jobmanager

Flink中的JobManager是整个Flink作业的主机控制节点，负责协调、调度和监控整个作业的执行过程。JobManager有两种类型：一个是执行图 JobGraph 的 JobManager，另一个是执行宝贵资源的 ResourceManager。JobManager负责接收作业提交请求，将作业转换为执行图JobGraph，并将JobGraph提交给TaskManager执行。JobManager还负责故障恢复，当TaskManager或JobManager发生错误时，JobManager可以跟踪作业状态并计划故障恢复。此外，JobManager还可以协调和分配集群资源，并管理作业的执行策略和调度。

taskmanager

Flink中的TaskManager是Flink分布式计算框架的执行节点。一个Flink集群可以包含多个TaskManager，每个TaskManager可以运行多个任务(Task)。

TaskManager的主要职责是：

接收并处理来自JobManager的任务分配，将任务划分成不同的子任务(Subtask)并分配到对应的线程池中执行；
管理和维护线程池，包括线程的创建、销毁、线程的资源分配和管理等；
从上游的Task或Source中拉取数据，并将数据发送给下游的Task或Sink。

TaskManager和JobManager之间通过RPC进行通信，JobManager会将任务分配给TaskManager后，TaskManager会根据任务的资源需求分配对应的资源并启动任务执行。如果TaskManager在执行任务期间发生故障，JobManager会重新分配任务到其他TaskManager上，以保证任务的正确执行。

Parallelism

指的是在Flink中并行处理数据的任务数。在Flink中，每个任务都可以并行处理数据，而并行度就是指这些任务的数量。在资源充足的情况下，并行度越高，处理数据的速度也就越快。

slot

在Flink中，任务运行需要占用资源，资源的抽象单位称为slot。每个slot包含一定数量的CPU和内存等资源。一个任务需要占用一个或多个slot才能运行。

task

在Flink中，一个任务是指对应一个数据流操作的并行执行实体。任务可以是source任务、transformation任务或sink任务。

subtask

每个任务会被拆分成多个子任务，这些子任务被称为subtask。每个subtask都只处理数据集中的一部分，拆分成多个subtask后可以实现并行处理。

博客等级

码龄8年

203
原创

350
点赞

521
收藏

280
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 关于flink重新提交任务，重复消费kafka的坑

下一篇：: ambari失败重装重置环境

最新评论

Flink 双流Join
JNWsong: 左流的这一条数据的过期时间，每条数据过期时间肯定是不一样的
Flink 双流Join
夏洛_STYLE: left join join成功一次更新过期时间是更新这条数据的过期时间还是所有数据的过期时间
访问https网站，edge浏览器，thisisunsafe不生效
huan_wuhai: 话说为什么会失效呢？
paimon的四种changelog模式（3）-lookup模式
JNWsong: 我也是刚用paimon，我没有针对特定的问题进行过研究，你是批读？还是流读？有没有添加时间旅行hits？你可以按照我的方式，用partial-update建个表，然后写入两条，查看表数据目录中change-log文件的内容，应该是有变化流数据的吧
paimon的四种changelog模式（3）-lookup模式
Rango_lhl: 请教下博主，lookup在加上'merge-engine' = 'partial-update'，想实现按主键来局部更新，但是加上该参数后，在每次文件合并只会输出最终合并后的数据，中间的change-log数据不输出，请问这是该表模式的必然结果嘛，还是说可以进行配置对中间的change-log输出。如按文章的例子，就是在checkpoint完之前写入例子中的两条数据，checkpoint完之后只能读取到2000的那一条数据，期望结果是可以读到+1000那条数据。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。