Flink基础知识整理
Flink介绍
Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams.
Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。
流处理介绍
事务处理(OLTP)
OLTP:在线事务处理,所有事件都存储到MySQL里。
分析处理(Hive) (MySQL -> Sqoop -> Hive)
将数据从业务数据库复制到数仓,再进行分析和查询
将MySQL里的数据进行ETL,把它同步到数仓中,然后做报表分析或者做一些其他的查询。比如用Sqoop把MySQL的数据同步到Hive中,所有都在Hive中进行查询。
有状态的流式处理
流处理:当橙色圆圈来了以后经过业务模式处理可以直接向下游发送。每来一次事件就触发一次流处理的计算逻辑,对比于SparkStreaming而言是要经过至少攒