没有合适的资源?快使用搜索试试~ 我知道了~
首先我们来看一个典型的互联网大数据平台的架构,如下图所示:在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。你可以看到,大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用Sqoop,日志同步可以选择Flume,打点采集的数据经过格式化转换后通过Kafka等消息队列进行传递。不同的数据源产生的数据质量可能差别很大,数据
资源详情
资源评论
资源推荐

大数据处理中的大数据处理中的Lambda架构和架构和Kappa架构架构
首先我们来看一个典型的互联网大数据平台的架构,如下图所示:
在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝
色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。
你可以看到,大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。
数据采集
将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。
数据库同步通常用 Sqoop,日志同步可以选择 Flume,打点采集的数据经过格式化转换后通过 Kafka 等消息队列进行传递。
不同的数据源产生的数据质量可能差别很大,数据库中的数据也许可以直接导入大数据系统就可以使用了,而日志和爬虫产生
的数据就需要进行大量的清洗、转化处理才能有效使用。
数据处理
这部分是大数据存储与计算的核心,数据同步系统导入的数据存储在 HDFS。MapReduce、Hive、Spark 等计算任务读取
HDFS 上的数据进行计算,再将计算结果写入 HDFS。
MapReduce、Hive、Spark 等进行的计算处理被称作是离线计算,HDFS 存储的数据被称为离线数据。在大数据系统上进行
的离线计算通常针对(某一方面的)全体数据,比如针对历史上所有订单进行商品的关联性挖掘,这时候数据规模非常大,需
要较长的运行时间,这类计算就是离线计算。
除了离线计算,还有一些场景,数据规模也比较大,但是要求处理的时间却比较短。比如淘宝要统计每秒产生的订单数,以便


















格式:pdf 资源大小:339.1KB 页数:11

格式:pdf 资源大小:8.8MB 页数:118












weixin_38576561
- 粉丝: 5
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 住宅小区园林景观工程施工组织设计-技术标.doc
- 职位序列岗位胜任能力评价标准参考.doc
- 餐饮投资预算表.doc
- 信号处理项目介绍 Python实现基于连续小波变换Continuous wavelet transform一维数据转二维图像方法的详细项目实例(含模型描述及部分示例代码)
- 工程质量检查实用手册》铁塔安装V2.0.pptx
- 工程经济学【投资项目可行性研究】.ppt
- 周大福投标汇报(机电部分).ppt
- 发电厂压力管道水击现象探讨.doc
- 亲子关系成长团体招募宣传单.doc
- 新修改的设计计算说明书.doc
- 地铁工程施工作业指导书.doc
- 第3章法的渊源、形式和效力.ppt
- [江西]商住楼及地下室工程砖胎模砌筑施工方案.doc
- 英语时态-最新整理.ppt
- 山东砖混结构住宅楼工程招标文件(招标控制价)121页.doc
- 北京市房地产开发项目开发流程.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

评论0