《Streaming System》第二章：数据处理的四要素 What Where When and How-CSDN博客

本文链接：https://blog.csdn.net/jack85986370/article/details/108249255

本文由《Streaming System》一书第二章的提炼翻译而来，译者才疏学浅，如有错误，欢迎指正。转载请注明出处，侵权必究。

本章主要介绍鲁棒的处理乱序数据的核心概念，这些概念的运用使流处理系统超越批处理系统的关键所在。

路线图

上一章中，我们介绍了两个非常关键的概念：

事件时间和处理时间，只有在事件时间维度对数据进行处理，才能保证计算结果的准确性
窗口：窗口是处理无界数据流的通用方法，目前共有4类窗口。
接下来我们介绍其他三个同样非常重要的概念：
触发器（Triggers）
触发器是决定某个窗口何时输出的一种机制。作用跟照相机的快门相同，按下去，就能拿到某个时间点计算结果的快照。通过触发器，也能多次看到某个窗口的输出结果。因此可以实现迟到数据（late event）的处理。
Watermark（水印）
Watermark是描述事件时间上数据完整性的概念。时间点X上的Watermark表示了所有时间点X前的输入数据都到齐了。本节会粗浅的介绍一下watermark，第三章中会对watermark做深入解释。
Accumulation（累积）
累积模式表示了同一个窗口不同输出间的关系。这些结果间可能完全无关，比如该窗口不同时间的增量，也可能有重叠。不同的累积模式在语义和成本上都不同，要根据具体场景来选择合适的累积方式。

接下来，我抛出4个在无界数据处理过程中，最为关键的问题：

计算什么结果（__What__ results are calculated?）？这是用户在代码（SQL/pipline code）中定义的，比如求和，算直方图或训练机器学习模型等。这也是批处理解决的经典问题。
在事件时间的哪个地方计算结果（__Where__ in event time are results calculated）？这是用户在代码中定义的基于事件时间的窗口中定义的。可是使用上一章中介绍的滚窗/划窗/会话等窗口，也可以使用跟窗口无关的算子，或者更复杂的窗口，比如限时拍卖。
在什么处理时间点，可以输出结果（__When__ in processing time are results materialized）？触发器和watermark会解决这个问题。这个主题有很多个变种，但是最常见的是重复更新场景（比如，物化视图语义），其使用watermark来指示窗口的输入数据已经完整，看到watermark后，这个窗口才唯一输出一次数据。
如何更新结果（__How__ do refinements of results relate）？三种方式可以解决这个问题：discarding，accumulating和accumulating and retracting。下文会对这三种模式做更详细介绍。

批处理的基础：What&Where

咱们先来看一下批处理中如何解决What和Where两个问题。

What: Transformations（变换）

批处理中，用变换（Transformations）解决 “Whatresults are calculated?”这个问题。
接下来用一个实例来说明。假设我们要算一次电子游戏比赛中，某一队的总得分。这个例子的特点：对输入数据，在主键上，进行求和计算。具体数据如下：

13_19_51__11_28_2018.jpg | center | 418x315

各列数据含义：

Score：队中每个队员得分
EventTime：队员得分时间
ProcTime：数据进入系统进行计算的时间
对数据以EventTime和ProcessTime作图，如下所示：

图片 1.png | center | 405x250

我们用Beam伪代码来实现这个示例，如果你之前用过Flinkl或Spark，那么代码理解起来应该相对简单。首先介绍一下Beam的基本知识，Beam中有两类基本操作：

PCollections：可以被并发处理的数据集
PTransforms：对数据集进行的操作。比如group/aggregate等，读如PCollection并产生新的PCollection。

图片 1.png | center | 575x241

PCollection<String> raw = IO.read(...);  //读入原始数据
//将原始数据解析成格式划数据，其中Team为String类型，是主键。score是整型。
PCollection<KV<Team, Integer>> scores =
input.apply(Sum.integersPerKey()); // 在每个主键上，对score做求和操作

我们通过一个时序图来看看以上代码是如何处理这些数据的：

图片 1.png | center | 521x323

图中，X轴是EventTime，Y轴是Processing Time，黑色的线表示随着时间推移对所有数据进行计算，前三幅图白色的数字（12，30，48）为该processing time时间点上，计算的中间结果，在批处理中，这些中间结果会被保存下来。最后一幅图是指整个计算完整个数据集之后，输出最终结果48。这就是整个经典批处理的处理过程。由于数据是有界的，因此在process time上处理完所有数据后，就能得到正确结果。但是如果数据集是无界数据的话，这样处理就有问题。接下来我们讨论"Where in event time are results calculated?"这个问题。

Where: Windowing

图片 1.png | center | 458x213

上一章我们讨论了3中常用的窗口：固定窗口（又称为滚动窗口），滑动窗口和会话窗口。窗口将无界数据源沿着临时边界，切分成一个个有界数据块。
以下是用在Beam中，代码中用窗口如何实现之前整数求和的例子：

 PCollection<KV<Team, Integer>> scores = input
  .apply(Window.into(FixedWindows.of(TWO_MINUTES))) 
  .apply(Sum.integersPerKey());

理论上批数据是流数据的子集，因此Beam在模型层面对批流做了统一。我们通过时序图看一下在传统批处理引擎中，以上代码是如何执行的：

图片 1.png | center | 562x348

《Streaming System》 第二章：数据处理的四要素 What Where When and How

路线图

批处理的基础：What&Where

What: Transformations（变换）

Where: Windowing

《Streaming System》第二章：数据处理的四要素 What Where When and How