大数据平台架构及主流技术栈

最新推荐文章于 2025-07-01 15:43:18 发布

李旭me

最新推荐文章于 2025-07-01 15:43:18 发布

阅读量5k

点赞数 3

CC 4.0 BY-SA版权

文章标签：大数据 hadoop flink kafka

本文链接：https://blog.csdn.net/dashujujiagoushi/article/details/105199470

本文介绍了大数据平台架构，包括数据采集、离线计算、实时计算和OLAP。重点讨论了Sqoop、Flume、Hadoop、Spark、Flink、Kafka、Presto和OLAP引擎等关键技术，阐述了它们在大数据处理中的角色和应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据，如何存储？如何计算？各大互联网巨头都进行了探索。Google的三篇论文 GFS(2003)，MapReduce(2004)，Bigtable(2006)为大数据技术奠定了理论基础。随后，基于这三篇论文的开源实现Hadoop被各个互联网公司广泛使用。在此过程中，无数互联网工程师基于自己的实践，不断完善和丰富Hadoop技术生态。经过十几年的发展，如今的大数据技术生态已相对成熟，围绕大数据应用搭建的平台架构和技术选型也逐渐趋向统一。

上图是目前国内各大互联网公司普遍采用的大数据平台架构和技术选型。康威定律指出，技术架构与组织架构是相匹配的。许多互联网公司的大数据平台部门的组织架构也会长成这样。大型互联网公司中，上图中的每个组件甚至都会对应一个团队。当然对于大部分公司而言，技术主要是为了解决业务问题，构建庞大的大数据平台成本太高，还是需要根据实际情况灵活设计。下面对各个组件做一个简单介绍，希望能对实际场景的技术取舍提供帮助。

数据采集

“巧妇难为无米之炊”，没有数据也就没有后面的一切，数据采集作为基础至关重要。采集的数据主要由业务系统产生，包括存储在关系型DB中的结构化数据和记录在日志文件中的半结构化数据。Sqoop用于从关系型DB中采集数据，Flume用于日志采集。实时计算由于对时效性要求比较高，它一般采用Kafka和业务系统建立实时数据通道，完成数据传输。

Sqoop是Apache的一个独立项目，始于2009年。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如：MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。其官方地址是 http://sqoop.apache.org/。官网介绍如下：

Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.

http://sqoop.apache.org/

Flume最早是Cloudera提供的日志收集系统，是Apache下的一个孵化项目。Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume