MapReduce中自定义InputFormat，处理输入小文件的问题，输出时使用SequenceFileOutPutFormat合并文件

最新推荐文章于 2021-12-30 12:00:00 发布

回眸三千笑v

最新推荐文章于 2021-12-30 12:00:00 发布

阅读量1.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据文章标签：大数据 MapReduce Inputformat SequenceFile SequenceFileOutPutFormat

本文链接：https://blog.csdn.net/weixin_41388042/article/details/81122854

本文介绍了在MapReduce中如何通过自定义InputFormat来解决处理大量小文件的效率问题。通过将多个小文件合并成一个SequenceFile，实现了文件的高效存储。详细讲述了实现步骤，包括自定义FileInputFormat子类，RecordReader的改造，以及使用SequenceFileOutPutFormat进行文件合并。最终，成功将小文件转化为二进制形式的SequenceFile。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.需求

无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。将多个小文件合并成一个SequenceFile文件（SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式），SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value。

2.具体实现

（1）自定义一个类继承FileInputFormat

（2）改写RecordReader，实现一次读取一个完整文件封装为KV

（3）在输出时使用SequenceFileOutPutFormat输出合并文件

3.代码实现

（1）创建Mavenue工程，pom.xml如下：

    <dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>RELEASE</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.8.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.2</version>
        </dependency>
    </dependencies>

log4j.properties

log4j.rootLogger=info, stdout
log4j.appende

最低0.47元/天解锁文章

200万优质内容无限畅学