大数据离线数据采集(sqoop)

最新推荐文章于 2025-04-27 21:19:04 发布

雷禄辉

最新推荐文章于 2025-04-27 21:19:04 发布

阅读量3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Sqoop 文章标签： sqoop hadoop hive 采集

本文链接：https://blog.csdn.net/a544258023/article/details/123020742

本文详细介绍了如何利用sqoop工具将数据从MySQL和Oracle数据库高效地导入到Hadoop的Hive中。通过提供具体的sqoop命令示例，包括设置连接信息、指定导入选项如压缩和分隔符，以及处理空值，帮助读者理解数据迁移过程。同时，文章提及了自动化方案——结合sqoop和airflow，以实现数据导入的自动化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

拉取数据开源框架目前挺多的，本文主要讲述如何使用sqoop来拉取数据。

sqoop当时是专门为了hadoop而来的，所以和hadoop结合比较好，sqoop常用是从mysql或者oracle数据库拉取数据到hadoop，接下来说明如何从这两者采集数据到hive中。

sqoop从mysql采集到hive

sqoop import --hive-import  \  #指定导入到hive表
	   --connect jdbc:mysql://10.10.26.22:3306/xxsc  \  #mysql连接
	   --username root  \  #数据库用户名
	   --password 123456  \ #数据库密码
	   --verbose  \  #打印命令运行时的详细信息
	   --table corp  \  #数据库表名
	   --hive-database xxsc  \  #Hive库名
	   --hive-table corp  \  #Hive表名
	   --where " modify_time >= '2021-01-31 00:00:00' "  \  #查询条件
	   --split-by id  \  #数据以哪个字段分割
	   --compress  \  #启用压缩
	   --compression-codec org.apache.hadoop.io.compress.SnappyCodec  \  #指定压缩方式
	   --num-mappers 1 \  #指定导入并行度，大于1会根据条件进行count，一般1就是最优
	   --null-string '\\N'  \  #空字符串处理
	   --null-non-string '\\N'  \  #空对象处理
	   --hive-drop-import-delims  \  #导入到hive时删除 \n, \r, and \01
	   --