spark history文件占用磁盘过高问题解决

最新推荐文章于 2024-10-28 20:07:47 发布

Java小田

最新推荐文章于 2024-10-28 20:07:47 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： # spark 文章标签： spark history

本文链接：https://blog.csdn.net/li281037846/article/details/129302902

spark 专栏收录该内容

3 篇文章

订阅专栏

我们目前用的spark版本还是2.x

spark的history事件是保存在hdfs上的，通过spark.history.fs.logDirectory指定保存的hdfs目录

使用中发现history日志文件占用磁盘还挺高的
于是写了一个脚本来定期进行清理，只保留一定时间的文件

对于spark离线任务来说，这样做是没问题的

但是对于spark streaming来说，就会导致问题
spark streaming程序是长期运行的，但是对应的文件是固定的
如果只是根据时间去删，会导致正在运行的任务，history文件被删除

好在spark history server本身就提供了日志清理的支持
直接配置一下即可：

spark.history.fs.cleaner.enabled=true
spark.history.fs.cleaner.interval=1d
spark.history.fs.cleaner.maxAge=7d

具体配置说明见：https://spark.apache.org/docs/2.1.0/monitoring.html

但是这样其实还是有个问题
那就是单个history文件会一直增长，越来越大
一来会导致磁盘占用较大，二来spark ui进行日志解析也会耗费很多资源

spark3.x开始支持history日志滚动输出，还可以对旧日志进行压缩
见文档：https://spark.apache.org/docs/latest/monitoring.html#applying-compaction-on-rolling-event-log-files
在这里插入图片描述