HDinsight超大规模数据的交互式查询新特性

介绍了HDInsight中Apache Hive 2.1版本的更新,特别是HiveonLLAP带来的交互式分析能力和显著的性能提升。通过支持PB级数据的即时查询及更精细的资源管理,实现了高并发访问,并且多种工具可以共享同一数据集进行分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最新的HDinsight中,引入了Apache Hive 2.1。 由于Hive on LLAP的新特性,可以使Hive基于PB级别的海量数据进行交互式的即席分析。这样很多基于Hive开发的应用不需要改变原有代码的条件下,性能就会有质的飞跃 。以下是一个与传统Hive性能基于TCPDS测试基准的一个比较
TPCDS.png

除了性能提升外,由于引入了更精细化的资源管理能力,使得Hive on LLAP可以支持更多的并发访问。HDinsight允许多个计算集群访问相同的数据集合,近一步放大了这种并发能力。这样,不同的用户群体,可以使用不同的工具,比如PowerBI, Tableau, Excel, Hive View 2.0, Beeline, Hive CLI, Visual Studio,  Zeppelin等等,基于相同数据集合去完成自己的海量数据分析需求
Hive on LLAP还可以利用SSD和RAM做为Cache进行加速,支持更多用户的并发访问。Azure HDinsight已经内置了SSD做为Cache,不需要用户付出额外成本
Richqueryinteractivehive.png
不同集群在Azure上共享相同数据集合,避免不同负载之间的资源竞争,也避免了数据复制的额外存储开销和性能开销
arch.png
对于企业来说,大数据平台的安全性也至关重要,HDinsight的交互式查询可以和AAD集成在一起,只有经过认可的用户才可以访集群中的数据。结合Ambari和Azure Log Analytics监控集群和进行事后分析,提高整体安全性
security.png

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/25548387/viewspace-2146194/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/25548387/viewspace-2146194/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值