在实际开发中,处理百万级别数据的Excel表导入导出是一个较为常见且具有挑战性的场景。本文将结合常用的开源库Apache POI与SAX解析方法,详细讲解如何实现高效的Excel数据导入导出。
常见问题
-
内存溢出:Excel文件较大时,直接加载可能导致内存不足。
-
性能瓶颈:数据量大时,处理速度慢影响用户体验。
为了解决上述问题,我们需要采用流式操作和分批处理的方式优化性能和资源利用。
工具选择
-
Apache POI:操作Excel文件的强大工具,支持Excel 97-2007及以上版本。
-
SAX解析:事件驱动模式,适合处理大数据量的Excel文件。
-
EasyExcel:阿里巴巴开源工具,专注于高效处理大数据量的Excel文件。
数据导入
1. 基于Apache POI + SAX解析
步骤:
-
使用
XSSFReader
加载Excel文件。 -
使用SAX事件模式逐行读取内容。
核心代码示例:
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xssf.eventusermodel.XSSFReader;
import org.apache.poi.xssf.eventusermodel.XMLReaderFactory;
import org.apache.poi.xssf.model.SharedStringsTable;
import org.xml.sax.InputSource;
import org.xml.sax.XMLReader;
import java.io.InputStream;
public class ExcelSAXImport {
public void importExcel(String filePath) throws Exception {
OPCPackage pkg = OPCPackage.open(filePath);
XSSFReader reader = new XSSFReader(pkg);
SharedStringsTable sst = reader.getSharedStringsTable();
XMLReader parser = XMLReaderFactory.createXMLReader();
parser.setContentHandler(new ExcelHandler(sst));
InputStream sheet = reader.getSheet("rId1");
InputSource sheetSource = new InputSource(sheet);
parser.parse(sheetSource);
sheet.close();
}
}
2. 基于EasyExcel
EasyExcel更简洁的流式处理:
import com.alibaba.excel.EasyExcel;
public class ExcelEasyImport {
public void importExcel(String filePath, Class<?> dataClass) {
EasyExcel.read(filePath, dataClass, new ExcelDataListener()).sheet().doRead();
}
}
其中,ExcelDataListener
是继承AnalysisEventListener
的自定义监听器。
3. 数据清洗与校验
导入过程中,数据可能存在脏数据(如缺失值、格式错误等)。建议在读取时结合规则对数据进行校验与清洗。
示例代码:
public class DataValidator {
public boolean isValidRow(List<String> row) {
// 校验逻辑,比如检查非空、格式等
return row.stream().noneMatch(String::isEmpty);
}
}
使用时在导入的监听器中调用该校验方法,对数据进行过滤。
数据导出
1. 分批导出
由于大文件数据较多,我们需要将数据分批写入,避免一次性加载所有数据。
Apache POI分批写入示例:
import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.streaming.SXSSFWorkbook;
import java.io.FileOutputStream;
import java.util.List;
public class ExcelExport {
public void exportExcel(String filePath, List<List<String>> data) throws Exception {
SXSSFWorkbook workbook = new SXSSFWorkbook(100);
Sheet sheet = workbook.createSheet("Data");
int rowIndex = 0;
for (List<String> rowData : data) {
Row row = sheet.createRow(rowIndex++);
for (int colIndex = 0; colIndex < rowData.size(); colIndex++) {
Cell cell = row.createCell(colIndex);
cell.setCellValue(rowData.get(colIndex));
}
}
try (FileOutputStream out = new FileOutputStream(filePath)) {
workbook.write(out);
}
workbook.dispose();
}
}
2. EasyExcel快速导出
EasyExcel的流式写入非常高效:
import com.alibaba.excel.EasyExcel;
public class ExcelEasyExport {
public void exportExcel(String filePath, Class<?> dataClass, List<?> data) {
EasyExcel.write(filePath, dataClass).sheet("Sheet1").doWrite(data);
}
}
3. 自定义样式
可以通过工具类设置导出Excel的表头样式或数据样式。
示例代码:
import com.alibaba.excel.write.style.column.LongestMatchColumnWidthStyleStrategy;
public class StyledExcelExport {
public void exportWithStyle(String filePath, Class<?> dataClass, List<?> data) {
EasyExcel.write(filePath, dataClass)
.registerWriteHandler(new LongestMatchColumnWidthStyleStrategy())
.sheet("StyledSheet")
.doWrite(data);
}
}
性能优化建议
-
减少内存使用:
-
使用流式操作(如SAX解析或SXSSFWorkbook)。
-
避免将大数据量一次性加载到内存。
-
-
分批处理:
-
导入时逐批读取并处理数据。
-
导出时按分页分批写入Excel。
-
-
压缩文件:
-
对于导出的文件,可以使用压缩工具(如ZipOutputStream)进行压缩。
-
-
多线程处理:
-
使用多线程提高数据处理速度。
-
-
预估与限流:
-
提前估算可能的数据量,设置合理的批量大小或限制并发数。
-
-
缓存与复用:
-
对导出模板或重复读取的静态数据采用缓存机制。
-
常见问题排查
1. 内存不足
-
解决方案:增加JVM内存参数,如
-Xmx2G
。
2. 导入速度慢
-
解决方案:优化读取逻辑,如跳过无用数据列。
3. 数据重复
-
解决方案:在导入时使用
Set
或数据库约束防止重复数据插入。
总结
本文介绍了在Java中处理百万级别数据Excel表的两种常见方案:
-
Apache POI结合SAX解析适合自定义需求强的场景。
-
EasyExcel适合快速实现需求的场景。
通过合理使用这些工具并结合性能优化策略,可以高效地完成大数据量的Excel文件处理。此外,结合具体业务需求,我们还可以进一步扩展功能,如支持多Sheet处理、自定义模板、动态样式等,为用户提供更灵活强大的解决方案。