Flink超神文档.pdf_flink超神文档资源-CSDN下载

需积分: 5 103 浏览量 2021-01-29 20:29:23 上传评论收藏 2.64MB PDF 举报

### Flink超神文档知识点概览 #### 一、Flink简介 **1.1 什么是Flink?** Apache Flink 是一个框架和分布式处理引擎，用于无界数据流（Unbounded streams）和有界数据流（Bounded streams）的状态化计算。Flink 被设计为能在各种常见的集群环境中运行，支持内存级别的处理速度和无限扩展的能力。 - **无界数据流（Unbounded streams）**: 这种类型的数据流有一个明确的起始点，但没有明确的结束点。这类数据流会不断地产生数据，因此需要实时处理。 - **有界数据流（Bounded streams）**: 相对于无界数据流，有界数据流在开始和结束时都有明确定义。这种类型的流可以一次性处理完所有数据。 #### 二、Flink的使用用户与特点优势 **2.1 Flink使用用户** Flink 的用户群体广泛，包括但不限于数据工程师、数据科学家、机器学习工程师等，这些用户利用 Flink 进行实时数据分析、流式处理等任务。 **2.2 Flink的特点和优势** - **高性能**: Flink 支持内存级别的数据处理速度。 - **可扩展性**: 可以轻松地在各种规模的集群上运行。 - **流式处理**: Flink 是一个真正的流式处理平台，支持无界和有界数据流。 - **状态管理**: Flink 提供了强大的状态管理和容错机制。 - **丰富的API**: 提供了多种 API，包括 DataStream API 和 Table API 等。 #### 三、Flink安装与部署 **3.1 Flink安装&部署** - **安装**: Flink 的安装过程相对简单，可以通过下载二进制包或通过 Maven 添加依赖来实现。 - **部署**: 部署 Flink 时，可以选择不同的部署模式，如 Standalone 模式、YARN 模式等。 **3.2 Standalone集群安装&测试** - **集群角色划分**: Standalone 集群中包括 JobManager (主节点) 和 TaskManager (工作节点)。 - **安装步骤**: 安装 Flink 服务器端、启动 JobManager 和 TaskManager。 - **提交Job到standalone集群**: 使用 `flink run` 命令提交 Job。 **3.3 Standalone HA集群安装&测试** - **集群角色划分**: 除了 JobManager 和 TaskManager 外，还需要额外配置高可用性的组件。 - **安装步骤**: 在 Standalone HA 集群中，需要特别关注 JobManager 的选举机制以及状态后端的配置。 - **HA集群测试**: 测试 HA 集群的切换功能。 #### 四、Flink on YARN **4.1 Flink on YARN** - **运行流程**: Flink on YARN 模式下，Flink 任务通过 YARN 进行资源分配和管理。 - **Flink on YARN 两种运行模式**: - **yarn-session模式**: 先启动 YARN session，然后提交 Job 到该 session 中。 - **Run a Flink job on YARN 模式**: 直接提交 Job，YARN 会自动为 Job 创建 session。 - **配置两种运行模式**: - **yarn-session模式配置**: 需要预先启动 YARN session。 - **Run a Flink job on YARN 模式配置**: 配置文件中指定 YARN 模式即可。 **4.2 Flink on YARN HA集群安装&测试** - **安装步骤**: 类似于 Standalone HA 集群，但需要额外配置 YARN 的 HA。 - **HA集群测试**: 对 YARN HA 集群的故障转移能力进行测试。 #### 五、Flink API详解及实操 **5.1 Flink API介绍** - **DataStream API**: 主要用于流式处理。 - **Table API**: 用于 SQL 样式的声明式编程。 - **DataFlow API**: 包括一系列的转换操作，如 Map、Filter 等。 **5.2 Dataflows数据流图** - **DataFlows数据流图**: 描述数据流如何在 Flink 应用程序中流动。 - **WordCount流批计算程序**: WordCount 是一个经典的示例，用于展示 Flink 如何处理文本数据。 **5.3 DataFlows算子链** - **WordCountDataflows算子链**: 包括 Split、Map、Reduce 等算子的组合使用。 **5.4 Flink任务调度规则** - **Flink 并行度设置方式**: 设置并行度来控制任务的执行规模。 - **DataFlows DataSource数据源**: - **FileSource**: 读取文件数据。 - **CollectionSource**: 从 Java/Scala 集合读取数据。 - **SocketSource**: 从网络 Socket 读取数据。 - **KafkaSource**: 从 Kafka 读取数据。 - **CustomSource**: 用户自定义的数据源。 **5.5 DataFlows Transformations** - **Map**: 将元素映射成新的元素。 - **FlatMap**: 将一个元素拆分成多个元素。 - **Filter**: 过滤数据流中的元素。 - **KeyBy**: 对数据进行键控。 - **Reduce**: 减少元素数量，进行聚合。 - **Aggregations**: 执行聚合操作。 - **Union**: 数据流的合并。 - **Connect**: 数据流的连接。 - **CoMap, CoFlatMap**: 对多个流进行联合操作。 - **Split**: 分割数据流。 - **Select**: 选择数据流中的部分元素。 - **sideoutput侧输出流**: 将不满足条件的元素输出到另一个流。 - **Iterate**: 循环处理数据流。 **5.6 函数类和富函数类** - **函数类**: 如 MapFunction、FlatMapFunction 等。 - **富函数类**: 提供更丰富的功能，如初始化状态等。 **5.7 底层API(ProcessFunctionAPI)** - **ProcessFunction API**: 提供更底层的操作，支持更多的自定义逻辑。 #### 六、DataFlows分区策略 **6.1 DataFlows分区策略** - **shuffle**: 随机分配元素到不同 Task。 - **rebalance**: 重新平衡数据分布。 - **rescale**: 动态调整分区数量。 - **broadcast**: 将数据广播到所有 Task。 - **global**: 将所有数据发送到一个 Task。 - **forward**: 直接转发元素到下一个 Task。 - **keyBy**: 按键分区。 **6.2 PartitionCustom** - **自定义分区策略**: 允许用户自定义分区逻辑。 #### 七、DataFlows Sink **7.1 DataFlows Sink** - **RedisSink**: 将数据写入 Redis。 - **KafkaSink**: 将数据写入 Kafka。 - **MySQLSink**: 将数据写入 MySQL 数据库，注意幂等性问题。 - **SocketSink**: 将数据写入 Socket。 - **FileSink**: 将数据写入文件系统。 - **HBaseSink**: 将数据写入 HBase。 #### 八、Flink State状态 **8.1 Flink State** - **CheckPoint**: 一种容错机制，用于保存应用程序的状态快照。 - **SavePoint**: 一种特殊类型的 CheckPoint，可以在恢复时选择任意时间点。 - **StateBackend状态后端**: - **MemoryStateBackend**: 存储状态在内存中。 - **FsStateBackend**: 存储状态在文件系统中。 - **RocksDBStateBackend**: 使用 RocksDB 存储状态。 **8.2 集群级配置StateBackend** - **集群级配置 StateBackend**: 配置整个集群使用的 StateBackend 类型。 #### 九、Flink Window操作 **9.1 Flink Window操作** - **Window窗口分类**: 包括时间窗口、滑动窗口等。 - **窗口聚合函数**: 对窗口内的数据进行聚合操作。 - **增量聚合函数**: 计算增量聚合结果。 - **全量聚合函数**: 计算全量聚合结果。 #### 十、Flink Time时间语义 **10.1 Flink Time** - **Flink Time Watermark(水印)**: 用来追踪事件时间。 - **Allowed Lateness**: 允许迟到的数据。 #### 十一、Flink关联维表实战 **11.1 TableAPI和FlinkSQL** - **开发环境构建**: 构建支持 TableAPI 和 FlinkSQL 的开发环境。 - **TableEnvironment**: 提供 Table API 的入口。 - **TableAPI**: - **创建Table**: 使用 Table API 创建表。 - **修改Table中字段名**: 修改表中的字段名称。 - **查询和过滤**: 对表中的数据进行查询和过滤。 - **分组聚合**: 对表中的数据进行分组和聚合操作。 - **UDF自定义的函数**: 自定义用户定义函数。 - **Window**: 使用窗口操作。 #### 十二、Flink的复杂事件处理CEP **12.1 CEP相关概念** - **配置依赖**: 配置 CEP 所需的依赖。 - **事件定义**: 定义事件模型。 **12.2 PatternAPI** - **模式定义**: 定义事件模式。 - **模式检测**: 检测事件流是否符合定义的模式。 - **选择结果**: 选择匹配模式的结果。 #### 十三、Flink源码(GitHub) - **GitHub 仓库地址**: [Flink-Study](https://github.com/bjmashibing/Flink-Study) 以上是对 Flink 超神文档的主要知识点的概述，涵盖了从入门到实践的各个方面。希望这些内容能帮助读者更好地理解和掌握 Apache Flink。

资源推荐

资源详情

资源评论

Flink超神文档  
Flink超神文档
Flink初次见面
什么是Flink?
什么是Unbounded streams？
什么是Bounded streams？
什么是stateful computations？
Flink使用用户
Flink的特点和优势
Flink安装&部署
Flink基本架构
Standalone集群安装&测试
集群角色划分
安装步骤
提交Job到standalone集群
Standalone HA集群安装&测试 
集群角色划分
安装步骤
Flink on Yarn
运行流程
Flink on Yarn两种运行模式
配置两种运行模式
yarn seesion模式配置
Run a Flink job on YARN模式配置
Flink on YARN HA集群安装&测试
安装步骤
HA集群测试
yarn-session模式测试
Run a Flink job on YARN模式测试
Flink API详解&实操
Flink API介绍
Dataﬂows数据流图
配置开发环境
WordCount流批计算程序
WordCount Dataﬂows 算子链
Flink任务调度规则
Flink并行度设置方式
Dataﬂows DataSource数据源
File Source
Collection Source
Socket Source
Kafka Source
Custom Source
Dataﬂows Transformations
Map
FlatMap
Filter
KeyBy
Reduce
Aggregations
Union 真合并
Connect 假合并
CoMap, CoFlatMap