大数据技术原理与应用
大数据技术原理与应用
第一章 大数据概述
1、大数据的4v特征
volume大量化、velocity快速化、variety多样化、value价值化
2、大数据的影响
- 思维方式方面:大数据完全颠覆了传统的思维方式(全样而非抽样、效率而非精确、相关而非因果)。
- 社会发展方面:大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现。
- 就业市场方面:大数据的兴起使得数据科学家成为热门职业。
- 人才培养方面:大数据的兴起将在很大程度上改变中国高校信息技术相关专业的现有教学。
3、大数据的两大核心技术
- 分布式存储:GFS/HDFS、BigTable/HBase、NoSQL
- 分布式处理:MapReduce
4、大数据计算模式及代表产品
- 批处理计算:针对大规模数据的批量处理。MapReduce、Spark。
- 流计算:针对流数据的实时计算。Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台。
- 图计算:针对大规模图结构数据的处理。Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb。
- 查询分析计算:大规模数据的存储管理和查询分析。Dremel、Hive、Cassandra、Impala。
5、大数据与云计算、物联网的关系
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。
- 云计算为大数据提供了技术基础;大数据为云计算提供用武之地。
- 云计算为物联网提供海量数据存储能力;物联网为云计算技术提供了广阔的应用空间。
- 物联网是大数据的重要来源;大数据技术为物联网数据分析提供支撑。
第二章 大数据处理架构Hadoop
1、Hadoop的发展历史
Apache软件基金会旗下的开源分布式平台,基于Java语言开发,具有很好的跨平台性,核心是分布式文件系统HDFS和MapReduce。Hadoop源自始于Apache Nutch项目。
2、Hadoop的特性
高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台、支持多种编程语言。
3、Hadoop1.0与Hadoop2.0的区别
Hadoop2.0增加了HDFS HA和YARN两个系统。
4、Hadoop生态系统
5、Hadoop生态系统组件及功能
6、core-site.xml和hdfs-site.xml配置文件
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
- hadoop.tmp.dir表示存放临时数据的目录,即包括NameNode的数据,也包括DataNode的数据。该路径任意指定,只要实际存在该文件夹即可。
- name为fs.defaultFS的值,表示hdfs路径的逻辑名称。
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>