2025-05-22 01:38:01,089 INFO streaming.MicroBatchExecution: Streaming query made progress: { "id" : "ae8842dd-00ce-4e61-baa0-7a77048f3731", "runId" : "dec9516d-8d21-41ef-9b36-444ba79d5d15", "name" : null, "timestamp" : "2025-05-22T08:38:01.087Z", "batchId" : 1, "numInputRows" : 0, "inputRowsPerSecond" : 0.0, "processedRowsPerSecond" : 0.0, "durationMs" : { "latestOffset" : 2, "triggerExecution" : 2 }, "eventTime" : { "watermark" : "1970-01-01T00:00:00.000Z" }, "stateOperators" : [ ], "sources" : [ { "description" : "KafkaV2[Subscribe[sex]]", "startOffset" : { "sex" : { "0" : 1 } }, "endOffset" : { "sex" : { "0" : 1 } }, "latestOffset" : { "sex" : { "0" : 1 } }, "numInputRows" : 0, "inputRowsPerSecond" : 0.0, "processedRowsPerSecond" : 0.0, "metrics" : { "avgOffsetsBehindLatest" : "0.0", "maxOffsetsBehindLatest" : "0", "minOffsetsBehindLatest" : "0" } } ], "sink" : { "description" : "ForeachWriterTable(org.apache.spark.sql.execution.python.PythonForeachWriter@51ccfecc,Right(org.apache.spark.sql.execution.streaming.sources.ForeachWriterTable$$$Lambda$1622/728218895@50775f2f))", "numOutputRows" : -1 } }

时间: 2025-05-30 17:11:54 浏览: 28

### Spark Structured Streaming 日志分析 #### Kafka 数据源的日志记录当使用 `Kafka` 作为数据源时，Spark Structured Streaming 的日志主要集中在以下几个方面： - **偏移量管理**：每批次处理完成后，框架会自动提交消费的偏移量至指定位置（如 Kafka 或 Checkpoint）。这可以通过配置选项 `.option("enable.auto.commit", "true/false")` 控制[^1]。 - **分区分配**：日志中会显示当前任务所分配的具体 Kafka 分区及其对应的起始和结束偏移量。这些信息通常以 DEBUG 级别打印，便于排查数据丢失或重复问题。 ```scala val kafkaSourceDF: DataFrame = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", "node1:9092") .option("subscribe", "iotTopic") .option("startingOffsets", "earliest") .load() ``` 此代码片段展示了如何加载 Kafka 数据源并设置初始偏移量为最早的消息。 --- #### ForeachWriter 的日志行为 `ForeachWriter` 是一种灵活的自定义 Sink 实现方式，允许开发者控制每一行数据的写入逻辑。其日志内容主要包括以下几点： - **初始化阶段**：每当启动一个新的微批处理作业时，`open()` 方法会被调用一次。此时会在日志中记录资源初始化的状态，例如数据库连接是否成功建立。 - **逐条处理阶段**：在 `process(row)` 中执行具体业务逻辑期间，可能会生成 INFO 或 TRACE 级别的日志消息，帮助追踪单条记录的流向。 - **关闭阶段**：无论处理过程是否异常终止，在最后都会调用 `close(onError)` 来释放外部依赖（比如关闭文件句柄或者断开网络链接），这部分操作也会被详细记录下来以便后续审计[^4]。下面是一个简单的例子展示如何利用 ForeachWriter 将结果保存到 HDFS： ```java class MyCustomWriter extends ForeachWriter<Row> { private BufferedWriter writer; @Override public boolean open(long partitionId, long version) { try { Path path = new Path("/path/to/output/" + UUID.randomUUID()); FileSystem fs = FileSystem.get(new Configuration()); OutputStream os = fs.create(path); this.writer = new BufferedWriter(new OutputStreamWriter(os)); return true; } catch (IOException e) { System.err.println(e.getMessage()); return false; } } @Override public void process(Row row) { String outputLine = row.toString(); try { writer.write(outputLine); writer.newLine(); } catch (IOException e) { throw new RuntimeException(e); } } @Override public void close(Throwable errorOrNull) { if(writer != null){ try{ writer.close(); }catch(IOException ex){ // Handle exception appropriately. } } } } ``` 上述 Java 版本实现了基本功能的同时也体现了良好的错误恢复机制设计思路[^4]。 --- #### 综合日志分析建议为了更高效地监控整个流程中的健康状况以及定位潜在瓶颈所在之处，可以从如下几个维度入手进行深入剖析： 1. 设置合适的日志级别（推荐生产环境采用 WARN/ERROR 而开发调试环境下则可适当放宽至 INFO/TRACE）； 2. 定期审查 checkpoint 文件夹下的元数据结构变化趋势图谱； 3. 结合实际应用场景需求调整 batch interval 和 parallelism 参数值大小关系从而达到最优性能平衡点。 ---

阅读全文

相关推荐

http-live-streaming-examples:一个包含HTTP Live Streaming样本集合的存储库

spark-structured-streaming-book:Spark结构化流的内部

chartjs-plugin-streaming：用于实时流数据的Chart.js插件

python-ffmpeg-video-streaming::videocassette:使用FFmpeg打包媒体内容以进行在线流式传输（DASH和HLS）

PHP-FFmpeg-video-streaming::videocassette:使用FFmpeg打包媒体内容以进行在线流式传输（DASH和HLS）

sf-crime-statistics-spark-streaming：使用Spark Streaming的旧金山犯罪统计

Spark-MLlib-Twitter-Sentiment-Analysis：：star2：使用Spark MLlib在世界地图上分析和可视化Twitter情绪

Movie-Torrent-Streaming---Node-App:Nodejs 应用程序，用于从 torrent 直接流式传输电影

laravel-twitter-streaming-api：在Laravel应用中轻松使用Twitter Streaming API

flambo-kafka-streaming-example:使用 flamboclojure 的 Spark Streaming Kafka WordCount 示例

spark-streaming-scala-example:使用Kafka和Cassandra的Spark Streaming作业示例

Above-the-Ground---Streaming-Media:地面之上-独立艺术家，词曲作者和爱好者的社交媒体广播电台

dashboard-with-spark-streaming:基于Spark Streaming的实时仪表板应用程序

real-time-speech-recognition-with-websockets:使用Symbl.ai的Streaming API通过本地Javascript WebSocket创建实时语音识别

BLD-Flume-Spark-Streaming:由Spark Streaming处理的FlumeEvents的Docker化设置

react-native-android-audio-streaming-aac:React Native Android模块音频流AAC

Spark-Streaming-Apache-Kafka-Apache-HBase:Spark Streaming示例项目，它从Kafka中提取消息并写入HBase Table

udacity-data-streaming-project-1：Udacity数据流-优化公共交通的项目

spark-streaming-wordcount-on-nifi:nifi上的流媒体单词计数

site-streaming-filme-front-end:电影流媒体网站前端迷你项目

大家在看

基于STM32 HAL库的 AD7606驱动代码及相关文档

群晖，威联通5G USB网卡驱动，918+使用

瑞星卡卡kaka小狮子（不含杀软） For Mac，情怀小程序，有动画有声，亲测可用

北邮计算机网络滑动窗口实验报告（附页包含源程序）

ENVI遥感图像几何校正 包含练习数据

最新推荐

【Java使用配置文件连接mysql】

获取本机IP地址的程序源码分析

【权威指南】：Win11笔记本上RTX4080驱动的安装与调试秘籍

windows环境举例

QQ自动发送/回复系统源代码开放

【7步打造Win11深度学习利器】：Tensorflow-GPU与RTX4080终极优化指南

ue画笔画画蓝图版

VB.NET图表曲线组件实现多种图表绘制

【MultiExtractor_Pro实战演练】：8个复杂场景的高效数据提取解决方案

k-means聚类分析算法推导

ENVI遥感图像几何校正包含练习数据