SparkStream文件监控和数据读取

最新推荐文章于 2025-07-16 00:16:53 发布

辉哥大数据

最新推荐文章于 2025-07-16 00:16:53 发布

阅读量7.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：【大数据】SparkStreaming

本文链接：https://blog.csdn.net/silentwolfyh/article/details/51489317

【大数据】SparkStreaming 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一个使用 Apache Spark Streaming 的实时数据处理案例。该案例通过 Scala 编程语言实现了一个简单的文件读取应用，该应用从 HDFS 中读取数据，并进行逐行处理，最终将处理结果打印出来。此应用采用 Spark 提供的 StreamingContext 对象，设置了 10 秒的数据处理间隔。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码

package main.scala

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.slf4j.LoggerFactory
/**
  * Created by silentwolf on 2016/5/23.
  */
object FileRead {

  val log = LoggerFactory.getLogger(classOf[HdfsCount])
  def main(args: Array[String]) {
    if (args.length < 1) {
      System.err.println("Usage: HdfsWordCount <directory>")
      System.exit(1)
    }

    val sparkConf = new SparkConf().setAppName("HdfsCount").setMaster("local[2]")
    // Create the context
    val ssc = new StreamingContext(sparkConf, Seconds(10))

    val lines = ssc.textFileStream(args(0))
    lines.map(line => {
      val json = line+"2222222222222"
      println("-----------------" )
      println(json)
      println("-----------------" )
    }).print()

    ssc.start()
    ssc.awaitTermination()
  }
}

启动

（备注：注意查看/spark/bin/./spark-submit 的方法）

/spark/bin/./spark-submit --class main.scala.FileRead SparkSteamStudy.jar /user/yuhui/sparkStreaming/data

执行数据和过程

在一批数据来的时候，是一行一行存入list集合中，这样数据可以一行一行取出来