1.大数据之路

                                              初识大数据

  • 什么是大数据
    1. 大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
    2. 最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

      它们按照进率1024(2的十次方)来计算:

      1 Byte =8 bit

      1KB= 1,024 Bytes = 8192 bit

      1MB= 1,024 KB = 1,048,576 Bytes

      1GB= 1,024 MB = 1,048,576 KB

      1TB= 1,024 GB = 1,048,576 MB

      1PB= 1,024 TB = 1,048,576 GB

      1EB= 1,024 PB = 1,048,576 TB

      1ZB= 1,024 EB = 1,048,576 PB

      1YB= 1,024 ZB = 1,048,576 EB

      1BB= 1,024 YB = 1,048,576 ZB

      1NB= 1,024 BB = 1,048,576 YB

      1DB= 1,024 NB = 1,048,576 BB

      全称:

      1Bit(比特) =Binary Digit

      8Bits= 1 Byte(字节)

      1,000 Bytes = 1 Kilobyte

      1,000Kilobytes = 1 Megabyte

      1,000 Megabytes = 1 Gigabyte

      1,000 Gigabytes = 1Terabyte

      1,000 Terabytes = 1 Petabyte

      1,000 Petabytes = 1 Exabyte

      1,000Exabytes = 1 Zettabyte

      1,000 Zettabytes = 1 Yottabyte

      1,000 Yottabytes = 1Brontobyte

      1,000 Brontobytes = 1 Geopbyte

  • 大数据的特征
    1. 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
    2. 种类(Variety):数据类型的多样性;
    3. 速度(Velocity):指获得数据的速度;
    4. 可变性(Variability):妨碍了处理和有效地管理数据的过程。
    5. 真实性(Veracity):数据的质量
    6. 复杂性(Complexity):数据量巨大,来源多渠道
    7. 价值(value):合理运用大数据,以低成本创造高价值

  • 学习的路线和课程概述
    1. JAVA              =====> 面向对象编程语言
    2. Linux             =====>  类Unix操作系统
    3. Hadoop生态
      1. HDFS         =====> 解决存储问题
      2. MapReduce   =====> 解决计算问题
      3. Yarn                   =====> 资源协调者
      4. Zookeeper   =====> 分布式应用程序协调服务
      5. Flume       =====> 日志收集系统
      6. Hive        =====> 基于Hadoop的数仓工具
      7. HBase      =====> 分布式、面向列的开源数据库
      8. Sqoop      =====> 数据传递工具
    4. Scala           =====>  多范式编程语言、面向对象和函数式编程的特性
    5. Spark          =====> 目前企业常用的批处理离线/实时计算引擎
    6. Flink           =====> 目前最火的流处理框架、既支持流处理、也支持批处理
    7. Elasticsearch    =====> 大数据分布式弹性搜索引擎
    8. Docker                 =====>Docker 是一个开源的应用容器。
    9. Kafka          ======》消息中间件。
    10. 离线/实时项目
  • 就业大数据岗位
    1. 大数据开发工程师
    2. 大数据清洗开发工程师
    3. 大数据仓库开发工程师
    4. 大数据运维开发工程师
    5. 大数据平台开发工程师
  • 起源
    1. 名字起源
      1. 该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名
    2. 项目起源
      1. Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发
    3. Google是Hadoop的思想之源(Google在大数据方面的三篇论文)
      1. GFS          ====>        HDFS
      2. Map-Reduce ====>          MR
      3. BigTable    ====>          HBase
  • 三大发行版本
    1. Apache、Cloudera、Hortonworks
    2. Apache版本最原始、最基础:适合零基础   大公司在用
    3. Cloudera 
      1. Cloudera’s DistributionIncluding Apache Hadoop 简称CDH
      2. 中小型公司用、简单方便、自带可视化
    4. Hortonworks
      1. 文档较好
    5. 注:Cloudera 和Hortonworks 在2018年10月,国庆期间宣布合并
  • 实验环境详解
    1. 硬性要求:
      1. 内存:最低8G+  (建议12+)
        1. 个人电脑最大内存检测:
          1. win + R 输入 cmd
          2. 复制代码:wmic memphysical get maxcapacity
          3. 所显示的值:MaxCapacity除以1024的平方
          4. MaxCapacity:33554432
          5. 33554432 除以 1024 除以 1024 等于 32G
          6. 即个人PC的最大支持内存为32G
      2. 磁盘:500GB+
  • 个人电脑:
  • Google浏览器
    1. 下载:360管家下载/百度下载
    2. 安装Google插件
    3. 程序员必备:不用‘谷歌浏览器’的程序员不是好程序员(此句五毛,括号内删除)

  • Everything(文件搜索工具)
    1. 提供对个人PC的快速下载
    2. 下载:360管家下载/百度下载

  • Notepad++(文本工具)
    1. 下载:360管家下载/百度下载
  • IDEA(集成开发工具)
    1. 后续学习用于编写Java和Scala代码
    2. 全称IntelliJ IDEA
    3. 在业界被公认为最好的java开发工具之一
    4. 支持多插件
    5. 下载地址:百度下载社区版即可JetBrains: Essential tools for software developers and teams

  • Vmware work station14的安装配置 (虚拟网络环境)
    1. 安装VMware,第一次安装好不卸载,从装:先卸载,卸载干净(用evenything搜索所有关于VMware文件夹删除,清理垃圾注册表

  • Navicat(数据库的图形管理软件)
  • Xshell(远程连接虚拟机的工具)
  • Winscp(Winodws和Linux的传输)
  • Linux虚拟机的搭建

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SuperBigData~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值