Structured Streaming之outputMode(complete和append)区别说明

最新推荐文章于 2024-10-16 20:33:28 发布

卡奥斯道

最新推荐文章于 2024-10-16 20:33:28 发布

阅读量4.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： Structured Streaming之outputMod outputMode(complete和append)区别说 complete和append区别说明

本文链接：https://blog.csdn.net/kaaosidao/article/details/85790664

spark 专栏收录该内容

32 篇文章

订阅专栏

本文深入探讨了Apache Spark Streaming中的两种输出模式：complete和append。详细对比了它们在处理流数据时的区别，尤其是在聚合操作上的不同表现。通过具体代码示例，展示了不同模式下可能遇到的异常情况，为开发者正确选择输出模式提供了指导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.complete需要聚合，并将原先批次的数据和本次批次的数据一起聚合，而append是不能聚合的

2.若用append替换complete代码演示：

def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().master("local[1]").getOrCreate()
        import spark.implicits._
        val wordCounts  = spark.readStream.text("D:\\tmp\\streaming\\struct")
            .as[String].flatMap(_.split(" "))
            .groupBy("value").count()


        val query = wordCounts.writeStream
                .foreach(new TestForeachWriter())
            .outputMode("complete")//complete  append
            .trigger(ProcessingTime("10 seconds"))
            .start()
        query.awaitTermination()

    }
//正常运行，若将complete改为append，将报以下错误
org.apache.spark.sql.AnalysisException: Append output mode not supported when there are streaming aggregations on streaming DataFrames/DataSets;;

3.若用complete替换append代码演示：

def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().master("local[1]").getOrCreate()
        import spark.implicits._
        val wordCounts  = spark.readStream.text("D:\\tmp\\streaming\\struct")
                    .as[String].flatMap(_.split(" ")).map(T1(_,1)).toDF()

        val query = wordCounts.writeStream
                .foreach(new TestForeachWriter())
            .outputMode("append")//complete  append
            .trigger(ProcessingTime("10 seconds"))
            .start()
        query.awaitTermination()

    }
    case class T1(value:String,num:Int)
//若用complete替换append，将报以下错误
org.apache.spark.sql.AnalysisException: Complete output mode not supported when there are no streaming aggregations on streaming DataFrames/Datasets;;

4. 源码：

/**
   * Specifies how data of a streaming DataFrame/Dataset is written to a streaming sink.
   *   - `append`:   only the new rows in the streaming DataFrame/Dataset will be written to
   *                 the sink
   *   - `complete`: all the rows in the streaming DataFrame/Dataset will be written to the sink
   *                 every time these is some updates
   *
   * @since 2.0.0
   */
  def outputMode(outputMode: String): DataStreamWriter[T] = {
    this.outputMode = outputMode.toLowerCase match {
      case "append" =>
        OutputMode.Append
      case "complete" =>
        OutputMode.Complete
      case _ =>
        throw new IllegalArgumentException(s"Unknown output mode $outputMode. " +
          "Accepted output modes are 'append' and 'complete'")
    }
    this
  }