DataX - 全量数据同步工具_datax工具

最新推荐文章于 2025-06-16 09:55:08 发布

原创

最新推荐文章于 2025-06-16 09:55:08 发布 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#android

DataX是一个全量数据同步工具，提供了与Sqoop对比的运行原理，包括Job、Task和TaskGroup的概念。DataX3.0部署简单，通过配置JSON文件实现数据同步任务。使用案例中详细介绍了如何从MySQL到HDFS的数据迁移，包括TableMode和QuerySQLMode两种模式，以及DataX传参功能。同时，文中也提及了从HDFS到MySQL的同步配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Reader：数据采集模块，负责采集数据源的数据，将数据发送给Framework。
Writer：数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。
Framework：用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

1.5、运行原理

Job：单个作业的管理节点，负责数据清理、子任务划分、TaskGroup监控管理。一个 Job 启动一个进程。
Task：根据不同数据源的切分策略，一个 Job 会被切分为多个 Task（由 Split 模块完成），Task 是 DataX 作业的最小单元，每个 Task 负责一部分数据的同步工作。
TaskGroup：Scheduler 调度模块会对 Task 进行分组，每个 TaskGroup 负责启动 Task，单个 TaskGroup 的并发数量为 5（最多同时执行 5 个Task，一个 Task 执行完就会释放掉，再进来一个 Task 继续执行）。
Reader -> Channel -> Writer ：每个 Task 启动后，都会固定启动 Reader -> Channel -> Writer 来完成同步工作。

举例来说，用户提交了一个 DataX 作业，并且配置了 20 个并发，目的是将一个 100 张分表的 mysql 数据同步到 odps 里面。 DataX 的调度决策思路是：

DataXJob 根据分库分表切分成了 100 个 Task。
根据 20 个并发，DataX 计算共需要分配 4 个 TaskGroup。
4 个 TaskGroup 平分切分好的 100 个 Task，每一个 TaskGroup 负责以 5 个并发共计运行 25 个 Task。

1.6、与 Sqoop 对比

2、DataX3.0 部署

傻瓜式安装解压，然后执行下面的脚本

python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json

运行结果：

当出现上面的结果说明安装成功，这里我们用的是 DataX 自带的一个测试作业，它是一个 json 格式的文件，之后我们的 DataX 作业也是通过自己编写 json 文件来实现。

3、DataX 的使用

3.1、DataX 任务提交命令

DataX的使用十分简单，用户只需根据自己同步数据的数据源和目的地选择相应的Reader和Writer，并将Reader和Writer的信息配置在一个json文件中，然后执行如下命令提交数据同步任务即可，就像我们安装时测试执行 DataX 任务的操作一样：

python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json

3.2、DataX 配置文件格式

可以通过下面这个命令来查看 DataX 配置文件模板：

# -r 代表 reader -w 代表 writer
python bin/datax.py -r mysqlreader -w hdfswriter

配置文件模板如下，json最外层是一个job，job包含setting和content两部分，其中setting用于对整个job进行配置，content用户配置数据源和目的地。

Reader和Writer的具体参数可参考官方文档，地址：

https://github.com/alibaba/DataX/blob/master/README.md

所以，如果我们需要自定义 DataX 任务的时候，就需要打开官网的 reader 和 writer 文档，查看需要配置哪些参数，接下来我们就来练习一下：

4、使用案例

最低0.47元/天解锁文章

新学期VIP享超值加赠