HiveSQL优化点之多次insert单次扫描表

最新推荐文章于 2024-05-08 10:43:08 发布

Empty-cup

最新推荐文章于 2024-05-08 10:43:08 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Hive

本文链接：https://blog.csdn.net/qq_17310871/article/details/114635923

Hive 专栏收录该内容

13 篇文章

订阅专栏

比如将一张表的数据多次查询出来装载到另外一张表中。如表table1是一个分区表，分区字段为dt，如果需要在表中查询多个特定的分区日期数据，并将数据装载到多个不同的表中或同一张表的不同分区中。一般会写成如下：

INSERT INTO table2 SELECT * FROM table1 WHERE dt ='2020-12-25';
INSERT INTO table3 SELECT * FROM table1 WHERE dt ='2020-12-26';
INSERT INTO table4 SELECT * FROM table1 WHERE dt ='2020-12-27';
INSERT INTO table5 SELECT * FROM table1 WHERE dt ='2020-12-28';
……

在以上查询中，Hive将扫描表多次，为了避免这种情况，我们可以使用下面的方式：

FROM table1
INSERT INTO table2 SELECT * WHERE dt ='2020-12-25'
INSERT INTO table3 SELECT * WHERE dt ='2020-12-26'
INSERT INTO table4 SELECT * WHERE dt ='2020-12-27'
INSERT INTO table5 SELECT * WHERE dt ='2020-12-28';