初识大数据
- 什么是大数据
- 大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
-
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1KB= 1,024 Bytes = 8192 bit
1MB= 1,024 KB = 1,048,576 Bytes
1GB= 1,024 MB = 1,048,576 KB
1TB= 1,024 GB = 1,048,576 MB
1PB= 1,024 TB = 1,048,576 GB
1EB= 1,024 PB = 1,048,576 TB
1ZB= 1,024 EB = 1,048,576 PB
1YB= 1,024 ZB = 1,048,576 EB
1BB= 1,024 YB = 1,048,576 ZB
1NB= 1,024 BB = 1,048,576 YB
1DB= 1,024 NB = 1,048,576 BB
全称:
1Bit(比特) =Binary Digit
8Bits= 1 Byte(字节)
1,000 Bytes = 1 Kilobyte
1,000Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1Brontobyte
1,000 Brontobytes = 1 Geopbyte
- 大数据的特征
- 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
- 种类(Variety):数据类型的多样性;
- 速度(Velocity):指获得数据的速度;
- 可变性(Variability):妨碍了处理和有效地管理数据的过程。
- 真实性(Veracity):数据的质量
- 复杂性(Complexity):数据量巨大,来源多渠道
- 价值(value):合理运用大数据,以低成本创造高价值
- 学习的路线和课程概述
- JAVA =====> 面向对象编程语言
- Linux =====> 类Unix操作系统
- Hadoop生态
- HDFS =====> 解决存储问题
- MapReduce =====> 解决计算问题
- Yarn =====> 资源协调者
- Zookeeper =====> 分布式应用程序协调服务
- Flume =====> 日志收集系统
- Hive =====> 基于Hadoop的数仓工具
- HBase =====> 分布式、面向列的开源数据库
- Sqoop =====> 数据传递工具
- Scala =====> 多范式编程语言、面向对象和函数式编程的特性
- Spark =====> 目前企业常用的批处理离线/实时计算引擎
- Flink =====> 目前最火的流处理框架、既支持流处理、也支持批处理
- Elasticsearch =====> 大数据分布式弹性搜索引擎
- Docker =====>Docker 是一个开源的应用容器。
- Kafka ======》消息中间件。
- 离线/实时项目
- 就业大数据岗位
- 大数据开发工程师
- 大数据清洗开发工程师
- 大数据仓库开发工程师
- 大数据运维开发工程师
- 大数据平台开发工程师
- 起源
- 三大发行版本
- Apache、Cloudera、Hortonworks
- Apache版本最原始、最基础:适合零基础 大公司在用
- Cloudera
- Cloudera’s DistributionIncluding Apache Hadoop 简称CDH
- 中小型公司用、简单方便、自带可视化
- Hortonworks
- 文档较好
- 注:Cloudera 和Hortonworks 在2018年10月,国庆期间宣布合并
- 实验环境详解
- 硬性要求:
- 内存:最低8G+ (建议12+)
- 个人电脑最大内存检测:
- win + R 输入 cmd
- 复制代码:wmic memphysical get maxcapacity
- 所显示的值:MaxCapacity除以1024的平方
- MaxCapacity:33554432
- 33554432 除以 1024 除以 1024 等于 32G
- 即个人PC的最大支持内存为32G
- 个人电脑最大内存检测:
- 磁盘:500GB+
- 内存:最低8G+ (建议12+)
- 硬性要求:
- 个人电脑:
- Google浏览器
- 下载:360管家下载/百度下载
- 安装Google插件
- 程序员必备:不用‘谷歌浏览器’的程序员不是好程序员(此句五毛,括号内删除)
- Everything(文件搜索工具)
- 提供对个人PC的快速下载
- 下载:360管家下载/百度下载
- Notepad++(文本工具)
- 下载:360管家下载/百度下载
- IDEA(集成开发工具)
- 后续学习用于编写Java和Scala代码
- 全称IntelliJ IDEA
- 在业界被公认为最好的java开发工具之一
- 支持多插件
- 下载地址:百度下载社区版即可JetBrains: Essential tools for software developers and teams
- Vmware work station14的安装配置 (虚拟网络环境)
- 安装VMware,第一次安装好不卸载,从装:先卸载,卸载干净(用evenything搜索所有关于VMware文件夹删除,清理垃圾注册表)
- Navicat(数据库的图形管理软件)
- Xshell(远程连接虚拟机的工具)
- Winscp(Winodws和Linux的传输)
- Linux虚拟机的搭建