数据产生是数据平台的源头,没有数据就没有大数据平台(数据产生传输处理)
数据的产生:
一.数据产生的来源分为以下几种:
1.业务系统:来自企业IT系统存储在数据库的数据
eg:POS销售系统、EPR系统、CRM系统
2.Web系统:日志文件
eg:访问了哪些网页、点击了哪些按钮、停留了多长时间
3.手机App:传感器
eg:指纹识别、人脸识别、位置、WIFI
4.外部系统:爬虫数据或外部购买
eg:舆情数据
二.数据按照结构分为以下几种:
1.结构化数据:格式非常规范,比较容易处理
eg:数据库
2.半结构数据:格式比较规范,处理稍微麻烦和繁琐
eg:日志文件,XML/JSON
3.非结构化数据:没有格式,无法直接处理
eg:图片,语音,视频
数据的采集传输
1.离线(时间跨度数十分钟到数十小时)
Sqoop 同步 MySQL 数据
DataX 同步 Mongo 数据
2.实时(时间跨度数百毫秒到数秒)
Flume 采集 Web 的日志
Canal 采集 MySQL 的 binlog
数据的存储处理
存储、管理和分析数据
1.分布式文件存储系统(存储和管理存储任意数据)
HDFS
2.数据仓库(存储和管理结构化数据或者半结构化数据)
Hive
3.分布式数据库(存储和管理存储结构化数据)
HBase
存储:HDFS、HBase
处理:MapReduce、Hive