大数据中的各个组件

本文探讨大数据平台的源头,从数据产生、采集传输、存储处理到数据应用的各个环节。涉及数据来源如业务系统、Web系统、手机App和外部系统,以及结构化的分类。在数据采集传输中,介绍了离线和实时的方式。存储处理部分提到了HDFS、Hive和HBase等工具。数据应用包括报表展示、数据挖掘和机器学习等,并提及不同角色在大数据平台中的职责。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据产生是数据平台的源头,没有数据就没有大数据平台(数据产生传输处理)

数据的产生:

一.数据产生的来源分为以下几种:

1.业务系统:来自企业IT系统存储在数据库的数据
eg:POS销售系统、EPR系统、CRM系统

2.Web系统:日志文件
eg:访问了哪些网页、点击了哪些按钮、停留了多长时间

3.手机App:传感器
eg:指纹识别、人脸识别、位置、WIFI

4.外部系统:爬虫数据或外部购买
eg:舆情数据
二.数据按照结构分为以下几种:
1.结构化数据:格式非常规范,比较容易处理
eg:数据库

2.半结构数据:格式比较规范,处理稍微麻烦和繁琐
eg:日志文件,XML/JSON

3.非结构化数据:没有格式,无法直接处理
eg:图片,语音,视频

数据的采集传输

1.离线(时间跨度数十分钟到数十小时)
Sqoop 同步 MySQL 数据
DataX 同步 Mongo 数据
2.实时(时间跨度数百毫秒到数秒)
Flume 采集 Web 的日志
Canal 采集 MySQL 的 binlog

数据的存储处理

存储、管理和分析数据
1.分布式文件存储系统(存储和管理存储任意数据)
HDFS
2.数据仓库(存储和管理结构化数据或者半结构化数据)
Hive
3.分布式数据库(存储和管理存储结构化数据)
HBase

存储:HDFS、HBase
处理:MapReduce、Hive

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值