spark-streaming 读取kafka数据不丢失（一）

最新推荐文章于 2023-09-26 15:48:51 发布

九指码农

最新推荐文章于 2023-09-26 15:48:51 发布

阅读量855

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： streaming kafka 零丢失

本文链接：https://blog.csdn.net/qq_14950717/article/details/77620083

大数据专栏收录该内容

24 篇文章

订阅专栏

本文探讨了使用 Spark Streaming 从 Kafka 中读取数据时遇到的数据丢失问题，并介绍了通过直接方式读取 Kafka 的 offset 并利用 checkpoint 机制保存到 HDFS 的方法。此外，还讨论了在程序升级过程中 checkpoint 数据的兼容性和处理策略。

spark streaming 读取kafka的时候，数据丢失是一个很大的问题，streaming 通过direct方式读取kafka，提供了checkpoint方式去自己维护读取kafka的offset，将数据放到hdfs。
方式：

 def main(args: Array[String]) {

    def func(): StreamingContext ={
      val conf = new SparkConf().setAppName("streamingKafka").setMaster("local[2]")
      val sc = SparkContext.getOrCreate(conf)
      val ssc = new StreamingContext(sc,Seconds(5))

      ssc.checkpoint("hdfs://imedia-dev-web3:9000/BJJStreaming/checkpoint/test")
      val kafkaParams = Map(
        "zookeeper.connect" -> "192.168.225.15:2181,192.168.225.16:2181,192.168.225.17:2181",
        "group.id" -> "spark-streaming-test",
        "zookeeper.connection.timeout.ms" -> "4000")
      val topic = "hello"

      val topics = Set(topic)
      val brokers = "192.168.225.15:9092,192.168.225.16:9092,192.168.225.17:9092"
      val kafkaParam1s = Map[String, String]("metadata.broker.list" -> brokers, "serializer.class" -> "kafka.serializer.StringEncoder")
      // Create a direct stream
      val kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParam1s, topics)
      kafkaStream.print()
      ssc
    }

    val ssc = StreamingContext.getOrCreate("hdfs://imedia-dev-web3:9000/BJJStreaming/checkpoint/test",func)
    ssc.start()
    `
sc.awaitTermination()