本文链接:一分钟教你数据清洗-CSDN博客文章浏览阅读22次。它是指对采集到的原始数据进行预处理,以去除错误、重复、不完整或不一致的数据,使数据符合分析要求的过程。对于reduce函数来说,它的输入参数是:,对于我们的需求来说,并不需要这个阶段。在之前的项目的基础之上,重写去写一个包,并创建两个类:WebLogMapper和WebLogDriver类。map阶段:按行读入内容,对内容进行检查,如果字段的个数少于等于11,就删除这条日志(不保留) → https://blog.csdn.net/2401_83719742/article/details/146948662