环境需求:
1.JDK(1.8以上,推荐1.8)
2.①Python(推荐Python2.7.X)
②Python(Python3.X.X的可以下载下面的安装包替换)
- python3.0需要替换安装目录bin下的3个文件
- 替换文件下载:
链接: https://pan.baidu.com/s/1gPQtrqu2emJnTPVGQYyoiw 提取码: re42
3.Apache Maven 3.x (Compile DataX)
Python环境安装这里就不作说明,请自行下载安装。
datax安装
1.datax安装包
下载地址:
或者进入
https://github.com/alibaba/DataX/blob/master/userGuid.md 点击QuickStart
下载后解压至本地某个目录,进入bin目录
我本地解压的路径(E:\soft\datax\bin)
2.测试datax
windows+R ==> 输入cmd,回车进入命令提示符界面
依次入
>E:
>cd E:\soft\datax\bin (cd后是自己解压datax的bin路径)
自检脚本
>python datax.py ../job/job.json
最后出现以下页面即表明安装成功
如果出现乱码的话,先输入CHCP 65001,再进行自检脚本
再次执行 python datax.py ../job/job.json 即不再乱码
3.问题修复
在执行 python datax.py ../job/job.json 时可能会出现以下报错:
2022-07-06 13:22:10.153 [main] WARN ConfigParser - 插件[streamreader,streamwriter]加载失败,1s后重试... Exception:Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,
您提供的配置文件[/opt/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件.
2022-07-06 13:22:11.157 [main] ERROR Engine -
经DataX智能分析,该任务最可能的错误原因是:
com.alibaba.datax.common.exception.DataXException: Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/opt/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件.
at com.alibaba.datax.common.exception.DataXException.asDataXException(DataXException.java:26)
at com.alibaba.datax.common.util.Configuration.from(Configuration.java:95)
at com.alibaba.datax.core.util.ConfigParser.parseOnePluginConfig(ConfigParser.java:153)
at com.alibaba.datax.core.util.ConfigParser.parsePluginConfig(ConfigParser.java:125)
at com.alibaba.datax.core.util.ConfigParser.parse(ConfigParser.java:63)
at com.alibaba.datax.core.Engine.entry(Engine.java:137)
at com.alibaba.datax.core.Engine.main(Engine.java:204)
解决办法
删除reader文件和writer文件夹下的 ._xxx 文件
删除reader目录下的部分文件,有时间的话
执行下面的命令
del ._hdfsreader
del ._otsstreamreader
del ._otsreader
del ._txtfilereader
del ._ftpreader
del ._streamreader
del ._odpsreader
del ._cassandrareader
del ._hbase11xreader
del ._oraclereader
del ._postgresqlreader
del ._mysqlreader
del ._rdbmsreader
del ._mongodbreader
del ._ossreader
del ._sqlserverreader
del ._hbase094xreader
del ._drdsreader
删除writer目录下的部分文件
执行下面的命令
del ._hbase11xsqlwriter
del ._ocswriter
del ._adswriter
del ._drdswriter
del ._hbase11xwriter
del ._hbase094xwriter
del ._sqlserverwriter
del ._osswriter
del ._mongodbwriter
del ._rdbmswriter
del ._mysqlwriter
del ._postgresqlwriter
del ._oraclewriter
del ._cassandrawriter
del ._odpswriter
del ._streamwriter
del ._ftpwriter
del ._txtfilewriter
del ._otswriter
del ._hdfswriter
没时间就手动打开文件夹删
此时进入bin目录执行自检脚本,可正常启动
python datax.py ../job/job.json