python数据导入hive_使用 python 批量插入 hive

本文介绍如何利用HDFS客户端将数据追加到Hive表对应的HDFS文件中,并展示了具体的操作步骤和代码实现。通过这种方式,可以直接修改Hive表的数据而不必经过Hive SQL。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.环境准备.

需要 python3.6 最好是安装anaconda

1500599-20200522185038691-1134073269.png

用anaconda navigator 安装这个 , 当然 , 纯 python环境下也能安装这个包

2. 插入hive 换个思路 , 直接插入到hive的表的仓库中 , 也就是hdfs上存储hive文件的地方

from hdfs.client import Client

import time

t1=time.time()

client = Client("http://192.168.1.102:50070")

s="100,1094,baumax,58"

filepath="/user/hive/warehouse/hadoop.db/kk/t.txt"

t1 = time.time()

client.write(filepath, s,overwrite=False,append=True)

print('OK')

t2=time.time()

print(t2-t1)

这里我使用的是追加 ,append , 我直接定位到了文件 , 可以添加到里面 , 当然 ,

这个HDFS client也是能建文件夹 , 建文件 , 不追加新建文件等等 ,

这只是一种了思路.

最后我去HDFS上看了下 t.txt 确实增加了一行 .

并且在hive的 select * from 表名 ,也能查到新加的

可以这样理解 , hive的表结构存储在mysql中 ,但是表数据存储在hdfs上 , 且定位是文件夹 ,只要把数据放进去

结论: 通过 LOAD DATA INPATH '' INTO TABLE

等同于 手动追加 hive的表文件所在的文件夹

使用注意: 理论上追加的大小是不做限制的 , 读取文件 ,追加就行 .

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值