Spark介绍(三)SparkStreaming

本文介绍SparkStreaming,一种高通量、容错的实时数据流处理系统,支持复杂操作如Map、Reduce,适用于多种数据源。DStream作为核心概念,由连续的RDD组成,支持普通转换、窗口操作和输出到外部系统。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、SparkStreaming简介

SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如KdfkaFlumeTwitterZeroTCP 套接字)进行类似MapReduceJoin等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘

                                    

                                                                        Spark Streaming处理的数据流图

                                                      

                                                                              Spark Streaming构架

二、DStream简介

1.Dstream离散流由一系列连续的RDD组成,每个RDD都包含了确定时间间隔内的数据。

2.DStream中数据的各种操作也是映射到内部的RDD上来进行的

3.Dstream的输入源包括基本源(文件系统和Socket(套接字)连接)和高级源( KafkaFlumeKinesisTwitter 等,额外增加类依赖)

三、DStream操作

1.1普通的转换操作mapflatMapflterunioncountjoin

1.2transform(func)操作:允许DStream 上应用任意RDD-to-RDD函数

1.3updateStateByKey操作:

1.4窗口转换操作: 允许你通过滑动窗口对数据进行转换,如countByWindow reduceByKeyAndWindow等,(批处理间隔、窗口间隔和滑动间隔)

2.输出操作:允许DStream的数据被输出到外部系统,如数据库或文件系统,有print()foreachRDD(func)saveAsTextFiles() saveAsHadoopFiles()

3.持久化:通过persist()方法将数据流存放在内存中,有利于高效的迭代运算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值