【大数据导论】【4】（学习通）期末考试B知识点总结

耦合椰树spy

已于 2025-01-14 19:57:16 修改

阅读量121

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据导论文章标签：大数据学习

于 2023-06-11 15:12:31 首次发布

本文链接：https://blog.csdn.net/m0_65307435/article/details/131152991

大数据导论专栏收录该内容

9 篇文章

订阅专栏

四、数据存储与管理

1 传统的数据存储与管理技术

1.1文件系统

文件系统是操作系统用于明确存储设备（常见的是磁盘，也有基于NAND Flash的固态硬盘）或分区上的文件的方法和数据结构，即在存储设备上组织文件的方法。操作系统中负责管理和存储文件信息的软件机构称为文件管理系统，简称“文件系统”

1.2关系数据库

（1）一个关系数据库可以看成是许多关系表的集合，每个关系表可以看成一张二维表格

目前市场上常见的关系数据库产品包括Oracle、SQL Server、MySQL、DB2等

（2）特点：

存储方式。关系数据库采用表格的储存方式，数据以行和列的方式进行存储，要读取和查询都十分方便。
存储结构。关系数据库按照结构化的方法存储数据，每个数据表的结构都必须事先定义好
存储规范。关系数据库为了规范化数据、减少重复数据以及充分利用好存储空间，把数据按照最小关系表的形式进行存储
扩展方式。一般的关系型数据库只具备有限的纵向扩展能力。
查询方式。关系数据库采用结构化查询语言（即SQL：Structured Query Language）来对数据库进行查询。
事务性。关系数据库可以支持事务的ACID特性（原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability））。
连接方式。不同的关系数据库产品都遵守一个统一的数据库连接接口标准，即ODBC（Open Database Connectivity）。

1.3数据仓库

数据仓库（Data Warehouse）是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。

一个典型的数据仓库系统通常包含数据源、数据存储和管理、OLAP服务器、前端工具和应用等四个部分。

数据库一般存储在线交易数据，数据仓库存储的是历史数据。

1.4并行数据库

并行数据库是指那些在无共享的体系结构中进行数据操作的数据库系统。

这些系统大部分采用了关系数据模型并且支持SQL语句查询

两个关键技术：关系表的水平划分和SQL查询的分区执行。

目标：高性能和高可用性,通过多个节点并行执行数据库任务，提高整个数据库系统的性能和可用性。

缺点：弹性差、容错性差、转移成本高、集群处理差。

2 大数据时代的数据存储与管理技术

2.1分布式文件系统

分布式文件系统（Distributed File System）是一种通过网络实现文件在多台主机上进行分布式存储的文件系统

2.2NewSQL和NoSQL数据库

（1）NewSQL数据库

NewSQL是对各种新的可扩展、高性能数据库的简称，这类数据库不仅具有对海量数据的存储管理能力，还保持了传统数据库支持ACID和SQL等特性

代表性的NewSQL数据库主要包括：Spanner、Clustrix、GenieDB、ScalArc、Schooner、VoltDB、RethinkDB、ScaleDB、Akiban、CodeFutures、ScaleBase、Translattice、NimbusDB、Drizzle、Tokutek、JustOne DB等。

（2）NoSQL数据库

NoSQL是一种不同于关系数据库的数据库管理系统设计方式，是对非关系型数据库的统称，它所采用的数据模型并非传统关系数据库的关系模型，而是类似键/值、列族、文档等非关系模型。

NoSQL数据库没有固定的表结构，通常也不存在连接操作，也没有严格遵守ACID约束，因此，与关系数据库相比，NoSQL具有灵活的水平可扩展性，可以支持海量数据存储。

键值数据库
文档数据库———>MongoDB
图数据库
列族数据库

优点：灵活的可扩展性、灵活的数据模型、与云计算紧密结合。

2.3云数据库

研究机构IDC预言，大数据将按照每年60%的速度增加，其中包含结构化和非结构化数据。

3大数据处理架构Hadoop

3.1 Hadoop特性

高可靠性
高效性
高可扩展性
高容错性
成本低
运行在Linux平台上
支持多种编程语言

注意：成本不高

3.2 Hadoop生态系统

Hadoop生态系统不断完善和成熟，目前已经包含了多个子项目。除了核心的HDFS和MapReduce以外，Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。

4分布式文件系统HDFS

4.1 HDFS的设计目标

目标：

兼容廉价的硬件设备
流数据读写
大数据集
简单的文件模型
强大的跨平台兼容性

注意：不是复杂的文件模型

局限性：

不适合低延迟数据访问
无法高效存储大量小文件
不支持多用户写入及任意修改文件

4.2 HDFS体系结构

./bin/hadoop fs 适用于任何不同的文件系统

./bin/hadoop dfs 只能适用于HDFS文件系统

./bin/hdfs dfs 只能适用于HDFS文件系统

5 NoSQL数据库

不同类型数据库比较分析

MySQL 功能较稳定强大，满足多样需求
MongoDB 模型较灵活，支持较多功能
Hbase 具有很好的扩展性，依赖Hadoop生态环境
Redis 模型较为简单，可提供随机数据存储，数据库伸缩性较好

5.1 键值数据库

相关产品	Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached
数据模型	键/值对键是一个字符串对象值可以是任意类型的数据，比如整型、字符型、数组、列表、集合等
典型应用	涉及频繁读写、拥有简单数据模型的应用内容缓存，比如会话、配置文件、参数、购物车等存储配置和用户数据信息的移动应用
优点	扩展性好，灵活性好，大量写操作时性能高
缺点	无法存储结构化信息，条件查询效率较低
不适用情形	不是通过键而是通过值来查：键值数据库根本没有通过值查询的途径需要存储数据之间的关系：在键值数据库中，不能通过两个或两个以上的键来关联数据需要事务的支持：在一些键值数据库中，产生故障时，不可以回滚
使用者	百度云数据库（Redis）、GitHub（Riak）、BestBuy（Riak）、Twitter（Redis和Memcached）、StackOverFlow（Redis）、Instagram （Redis）、Youtube（Memcached）、Wikipedia（Memcached）

5.2 列族数据库

相关产品	BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS
数据模型	列族
典型应用	分布式数据存储与管理数据在地理上分布于多个数据中心的应用程序可以容忍副本中存在短期不一致情况的应用程序拥有动态字段的应用程序拥有潜在大量数据的应用程序，大到几百TB的数据
优点	查找速度快，可扩展性强，容易进行分布式扩展，复杂性低
缺点	功能较少，大都不支持强事务一致性
不适用情形	需要ACID事务支持的情形，Cassandra等产品就不适用
使用者	Ebay（Cassandra）、Instagram（Cassandra）、NASA（Cassandra）、Twitter（Cassandra and HBase）、Facebook（HBase）、Yahoo!（HBase）

5.3 文档数据库

“文档”其实是一个数据记录，这个记录能够对包含的数据类型和内容进行“自我描述”。XML文档、HTML文档和JSON 文档就属于这一类。SequoiaDB就是使用JSON格式的文档数据库。

数据是不规则的，每一条记录包含了所有的有关“SequoiaDB”的信息而没有任何外部的引用，这条记录就是“自包含”的。
这使得记录很容易完全移动到其他服务器，因为这条记录的所有信息都包含在里面了，不需要考虑还有信息在别的表没有一起迁移走
同时，因为在移动过程中，只有被移动的那一条记录（文档）需要操作，而不像关系型中每个有关联的表都需要锁住来保证一致性，这样一来ACID的保证就会变得更快速，读写的速度也会有很大的提升。

相关产品	MongoDB、CouchDB、Terrastore、ThruDB、RavenDB、SisoDB、RaptorDB、CloudKit、Perservere、Jackrabbit
数据模型	键/值值（value）是版本化的文档
典型应用	存储、索引并管理面向文档的数据或者类似的半结构化数据比如，用于后台具有大量读写操作的网站、使用JSON数据结构的应用、使用嵌套结构等非规范化数据的应用程序
优点	性能好（高并发）灵活性高复杂性低数据结构灵活提供嵌入式文档功能，将经常查询的数据存储在同一个文档中既可以根据键来构建索引，也可以根据内容构建索引
缺点	缺乏统一的查询语法
不适用情形	在不同的文档上添加事务。文档数据库并不支持文档间的事务，如果对这方面有需求则不应该选用这个解决方案
使用者	百度云数据库（MongoDB）、SAP （MongoDB）、Codecademy （MongoDB）、Foursquare （MongoDB）、NBC News （RavenDB）

5.4 图数据库

相关产品	Neo4J、OrientDB、InfoGrid、Infinite Graph、GraphDB
数据模型	图结构
典型应用	专门用于处理具有高度相互关联关系的数据，比较适合于社交网络、模式识别、依赖分析、推荐系统以及路径寻找等问题
优点	灵活性高支持复杂的图形算法可用于构建复杂的关系图谱
缺点	复杂性高，只能支持一定的数据规模
使用者	Adobe（Neo4J）、Cisco（Neo4J）、T-Mobile（Neo4J）

6云数据库

6.1 云数据库的概念

云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易。

云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。

6.2 云数据库的特性

动态可扩展
高可用性
较低的使用代价
易用性
高性能
免维护
安全

6.3 云数据库与其他数据库的关系

从数据模型的角度来说，云数据库并非一种全新的数据库技术，而只是以服务的方式提供数据库功能

6.4 代表性云数据库产品

企业	产品
Amazon	Dynamo、SimpleDB、RDS
Google	Google Cloud SQL
Microsoft	Microsoft SQL Azure
Oracle	Oracle Cloud
Yahoo!	PNUTS
Vertica	Analytic Database v3.0 for the Cloud
EnerpriseDB	Postgres Plus in the Cloud
阿里	阿里云RDS
百度	百度云数据库
腾讯	腾讯云数据库