Apache Kylin与Impala：深入比较与应用场景分析

原创

于 2024-07-03 16:37:06 发布 · 939 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#apache #kylin #大数据

Apache Kylin与Impala：深入比较与应用场景分析

在大数据处理领域，Apache Kylin和Impala都是Apache软件基金会下的项目，它们各自提供了独特的解决方案来处理大规模数据集。了解它们的不同之处对于选择合适的数据处理工具至关重要。本文将深入探讨Kylin和Impala的不同点，并提供实际的应用场景分析。

1. 技术概述

Apache Kylin：是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口和多维数据分析（OLAP）能力。它通过预计算技术，将查询结果存储在立方体模型中，从而加快查询速度。
Impala：是一个高性能、实时的SQL查询引擎，用于在Hadoop集群上执行低延迟的查询。

2. 架构差异

Kylin：基于Hadoop和Spark构建，使用MVC架构，将数据预先聚合并存储在HBase中。
Impala：直接在HDFS上运行，无需预计算，使用分布式查询引擎和内存计算。

3. 查询性能

Kylin：通过预计算立方体，可以提供亚秒级的查询响应时间，适合复杂的分析查询。
Impala：提供实时查询能力，但查询性能受数据规模和集群性能的影响。

4. 数据模型

Kylin：使用立方体模型，适合多维数据分析。
Impala：不限制数据模型，可以直接查询HDFS上存储的数据。

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

2402_85758936

关注关注

10
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【计算引擎】OLAP之争:kylin、impala、druid、presto、clickhouse

孟知之的搬砖填坑历险记

06-10

3844

文章目录1. 即席查询2. Kylin2.1 架构2.2 原理2.3 Cube构建优化3. Impala3.1 架构3.2 优化4. Druid4.1 架构4.2 数据结构4.2.1 DataSource4.2.2 Segment结构5. Presto5.1 架构5.2 数据源6. ClickHouse6.1 特性6.2 架构7.总结 1. 即席查询即席查询是用户根据自己的要求，灵活的选择查询条件，系统根据用户的选择生成相应的统计报表，快速的执行自定义SQL。 2. Kylin Apache kylin

【案例分享】Apache Kylin在美团点评的应用

01-26

Apache Kylin在美团点评的应用主要解决了公司在大规模在线分析处理(OLAP)中的挑战，尤其是对于固化查询的高效需求。美团点评的OLAP需求分为即席查询和固化查询两大部分。即席查询通常涉及复杂的SQL查询，对响应时间...

参与评论您还未登录，请先登录后发表或查看评论

【转载】一套数据，多个引擎--impala、hive、kylin

无人境域

04-26

1013

原文地址：https://jiezhu2007.iteye.com/blog/2153589 详细内容请点击链接。伴随着大数据存储与分析处理软件架构的演变，大数据处理这个概念的数据量范围将不断延展。尤其是智能技术在自学习上对数据的应用，速度与数据量将不段快速迭代演化，大数据技能将是软件研发人员的基本功之一了。 ...

强强联合：Apache Kylin与Impala的集成之道

热门推荐

10-13

2万+

OLAP（On-LineAnalytical Processing）联机分析处理，也称为面向交易的处理过程，其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果，是对用户操作快速响应的方式之一。应用在数据仓库，使用对象是决策者。OLAP系统强调的是数据分析，响应速度要求没那么高。目前市面上主流的开源OLAP引擎包含不限于：Hive、Presto、Kylin、Impala、Sparksql、Druid、Greenplum等 OLTP（On-Line Transact..

实时数仓|你需要的是一款强大的OLAP引擎

02-24

在开源盛世的今天，实时数仓的建设业界已经有了成熟的方案。技术选型上实时计算、消息队列都有最优解，唯独在OLAP领域，百家争鸣，各有所长。大数据领域开源OLAP引擎包括不限于Hive、Hawq、Presto、Kylin、Impala、SparkSQL、Druid、Clickhouse、Greeplum等等。我们就各个常用开源OLAP引擎的优缺点和使用场景做出详细对比，让开发者进行技术选型时做到心中有数。今年有个现象，实时数仓建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库的文章和方案。但是对于实时数仓的狂热追求大可不必。首先，在技术上几乎没有难点，基于强大的开源中间件实现

2024年最全第一个“国产“Apache顶级项目——Kylin，了解一下(5)

2401_84184729的博客

05-03

950

③ 在 regionservers 文件中增加如下内容④ 软连接 Hadoop 配置文件到 HBase⑤ 将 HBase 远程发送到其他集群（4）配置 HBase 环境变量刷新环境变量（5）启动 HBase 服务。进入hbase shell执行上述操作，执行list命令，如果能显示以下内容，表示安装成功。当然，你也可以通过host:portOK，安装完了 Hbase1.3.1，接着我们开始安装 kylin。

Kylin、druid、presto、impala四种即席查询对比--（转载）

奔跑入坑大数据

12-02

2691

一、什么是即席查询即席查询是用户根据自己的需求，灵活的选择查询条件，系统根据用户的选择生成相应的统计报表。普通查应用查询是定制开发的，即席查询是用户自定义查询条件理解：快速的执行自定义SQL（可能无法提前运算和预测）重点关注：数据存储格式和架构理解了什么是即席查询之后，下面会从定义、框架原理、优化等几个方面介绍这四个框架、最后会做一个对比，面对不同的业务选择合适的框架二、Kylin (over) 1、定义：Apache kylin是一个开源分布式分析引擎、提供Hadoop、Spark之

分析引擎的区别对比(hive,Phoenix,impala,kylin,Druid,Presto)

互联网知识分享

05-24

1210

需要预计算，将数据存储在druid的Segment文件中，占用一部分存储资源，对sql支持不友好，需要用他自己的方言书写。例如:Mysql等关系型数据库是基于二维表格的模型,kafka是基于消息队列的模型,Flink是基于流的模型,Spark是基于RDD的模型,Kylin有自己的数据模型吗?（3）kylin核心是cube数据，Cube是一种预计算技术，基本思路是预先对数据作多维索引，查询时只扫描索引而不访问原始数据从而提速。（4）kylin提前构建cube数据,将聚合得到的数据存储到HBase中、

Druid+Presto+Kylin+Impala市场的查询引擎组件对比

互联网知识分享

08-07

277

Presto：适用于实时数据分析和交互式查询，支持多种数据源和复杂的查询，具有高性能和低延迟，但不支持高并发和大规模数据集。Impala：适用于实时查询和分析，支持标准的SQL查询和复杂的分析，具有高性能和低延迟，但不支持复杂的多维分析和数据压缩。Kylin：适用于多维分析和复杂的查询，支持预计算和多维模型，具有高性能和可扩展性，但需要预先建立Cube索引。Druid：适用于实时数据分析和聚合查询，支持高性能和实时性，但不支持复杂的多维分析和事务处理。它使用了并行处理和内存计算的技术，支持标准的。

浅淡 Apache Kylin 与 ClickHouse 的对比

monkeyboy_tech的博客

11-25

4355

Apache Kylin 和 ClickHouse 都是目前市场流行的大数据 OLAP 引擎；Kylin 最初由 eBay 中国研发中心开发，2014 年开源并贡献给 Apache 软件基金会，凭借着亚秒级查询的能力和超高的并发查询能力，被许多大厂所采用，包括美团，滴滴，携程，贝壳找房，腾讯，58同城等； OLAP 领域这两年炙手可热的 ClickHouse，由俄罗斯搜索巨头 Yandex 开发，于2016年开源，典型用户包括字节跳动、新浪、腾讯等知名企业。这两种 OLAP 引擎有什么差异，各自有什么优势

大数据分析界的“神兽”Apache Kylin初解

huangting0117的专栏

05-26

1224

转自李栋，来自Kyligence公司，也是Apache Kylin Committer & PMC member，在加入Kyligence之前曾就职于eBay、微软。今天分享的主题是：聊聊“神兽”Apache Kylin的最新特性。本次分享将首先对Apache Kylin进行基本介绍；接下来介绍1.5.x最新版本在架构上的重要更新；然后对即将发布的1.5.2版本进行功能预告。 1.Apach

实时分析系统(HIVE/HBASE/IMPALA)浅析

人生重要的不是所站的位置，而是所朝的方向。

04-27

1302

1. 什么是实时分析（在线查询）系统？ 大数据领域里面，实时分析（在线查询）系统是最常见的一种场景，通常用于客户投诉处理，实时数据分析，在线查询等等过。因为是查询应用，通常有以下特点： a. 时延低（秒级别）。 b. 查询条件复杂（多个维度，维度不固定），有简单（带有ID)。 c. 查询范围大（通常查询表记录在几十亿级别）。 d. 返回结果数小（几十条甚至几千条）。 e. 并发...