四、数据存储与管理
1 传统的数据存储与管理技术
1.1文件系统
文件系统是操作系统用于明确存储设备(常见的是磁盘,也有基于NAND Flash的固态硬盘)或分区上的文件的方法和数据结构,即在存储设备上组织文件的方法。操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称“文件系统”
1.2关系数据库
(1)一个关系数据库可以看成是许多关系表的集合,每个关系表可以看成一张二维表格
目前市场上常见的关系数据库产品包括Oracle、SQL Server、MySQL、DB2等
(2)特点:
- 存储方式。关系数据库采用表格的储存方式,数据以行和列的方式进行存储,要读取和查询都十分方便。
- 存储结构。关系数据库按照结构化的方法存储数据,每个数据表的结构都必须事先定义好
- 存储规范。关系数据库为了规范化数据、减少重复数据以及充分利用好存储空间,把数据按照最小关系表的形式进行存储
- 扩展方式。一般的关系型数据库只具备有限的纵向扩展能力。
- 查询方式。关系数据库采用结构化查询语言(即SQL:Structured Query Language)来对数据库进行查询。
- 事务性。关系数据库可以支持事务的ACID特性(原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability))。
- 连接方式。不同的关系数据库产品都遵守一个统一的数据库连接接口标准,即ODBC(Open Database Connectivity)。
1.3数据仓库
数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
一个典型的数据仓库系统通常包含数据源、数据存储和管理、OLAP服务器、前端工具和应用等四个部分。
数据库一般存储在线交易数据,数据仓库存储的是历史数据。
1.4并行数据库
并行数据库是指那些在无共享的体系结构中进行数据操作的数据库系统。
这些系统大部分采用了关系数据模型并且支持SQL语句查询
两个关键技术:关系表的水平划分和SQL查询的分区执行。
目标:高性能和高可用性,通过多个节点并行执行数据库任务,提高整个数据库系统的性能和可用性。
缺点:弹性差、容错性差、转移成本高、集群处理差。
2 大数据时代的数据存储与管理技术
2.1分布式文件系统
分布式文件系统(Distributed File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统
2.2NewSQL和NoSQL数据库
(1)NewSQL数据库
NewSQL是对各种新的可扩展、高性能数据库的简称,这类数据库不仅具有对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性
代表性的NewSQL数据库主要包括:Spanner、Clustrix、GenieDB、ScalArc、Schooner、VoltDB、RethinkDB、ScaleDB、Akiban、CodeFutures、ScaleBase、Translattice、NimbusDB、Drizzle、Tokutek、JustOne DB等。
(2)NoSQL数据库
NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。
NoSQL数据库没有固定的表结构,通常也不存在连接操作,也没有严格遵守ACID约束,因此,与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储。
- 键值数据库
- 文档数据库———>MongoDB
- 图数据库
- 列族数据库
优点:灵活的可扩展性、灵活的数据模型、与云计算紧密结合。
2.3云数据库
研究机构IDC预言,大数据将按照每年60%的速度增加,其中包含结构化和非结构化数据。
3大数据处理架构Hadoop
3.1 Hadoop特性
- 高可靠性
- 高效性
- 高可扩展性
- 高容错性
- 成本低
- 运行在Linux平台上
- 支持多种编程语言
注意:成本不高
3.2 Hadoop生态系统
Hadoop生态系统不断完善和成熟,目前已经包含了多个子项目。除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。
4分布式文件系统HDFS
4.1 HDFS的设计目标
目标:
- 兼容廉价的硬件设备
- 流数据读写
- 大数据集
- 简单的文件模型
- 强大的跨平台兼容性
注意:不是复杂的文件模型
局限性:
- 不适合低延迟数据访问
- 无法高效存储大量小文件
- 不支持多用户写入及任意修改文件
4.2 HDFS体系结构
./bin/hadoop fs 适用于任何不同的文件系统
./bin/hadoop dfs 只能适用于HDFS文件系统
./bin/hdfs dfs 只能适用于HDFS文件系统
5 NoSQL数据库
不同类型数据库比较分析
- MySQL 功能较稳定强大,满足多样需求
- MongoDB 模型较灵活,支持较多功能
- Hbase 具有很好的扩展性,依赖Hadoop生态环境
- Redis 模型较为简单,可提供随机数据存储,数据库伸缩性较好
5.1 键值数据库
相关产品 |
Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached |
数据模型 |
键/值对 键是一个字符串对象 值可以是任意类型的数据,比如整型、字符型、数组、列表、集合等 |
典型应用 |
涉及频繁读写、拥有简单数据模型的应用 内容缓存,比如会话、配置文件、参数、购物车等 存储配置和用户数据信息的移动应用 |
优点 |
扩展性好,灵活性好,大量写操作时性能高 |
缺点 |
无法存储结构化信息,条件查询效率较低 |
不适用情形 |
不是通过键而是通过值来查:键值数据库根本没有通过值查询的途径 需要存储数据之间的关系:在键值数据库中,不能通过两个或两个以上的键来关联数据 需要事务的支持:在一些键值数据库中,产生故障时,不可以回滚 |
使用者 |
百度云数据库(Redis)、GitHub(Riak)、BestBuy(Riak)、Twitter(Redis和Memcached)、StackOverFlow(Redis)、Instagram (Redis)、Youtube(Memcached)、Wikipedia(Memcached) |
5.2 列族数据库
相关产品 |
BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS |
数据模型 |
列族 |
典型应用 |
分布式数据存储与管理 数据在地理上分布于多个数据中心的应用程序 可以容忍副本中存在短期不一致情况的应用程序 拥有动态字段的应用程序 拥有潜在大量数据的应用程序,大到几百TB的数据 |
优点 |
查找速度快,可扩展性强,容易进行分布式扩展,复杂性低 |
缺点 |
功能较少,大都不支持强事务一致性 |
不适用情形 |
需要ACID事务支持的情形,Cassandra等产品就不适用 |
使用者 |
Ebay(Cassandra)、Instagram(Cassandra)、NASA(Cassandra)、Twitter(Cassandra and HBase)、Facebook(HBase)、Yahoo!(HBase) |
5.3 文档数据库
“文档”其实是一个数据记录,这个记录能够对包含的数据类型和内容进行“自我描述”。XML文档、HTML文档和JSON 文档就属于这一类。SequoiaDB就是使用JSON格式的文档数据库。
- 数据是不规则的,每一条记录包含了所有的有关“SequoiaDB”的信息而没有任何外部的引用,这条记录就是“自包含”的。
- 这使得记录很容易完全移动到其他服务器,因为这条记录的所有信息都包含在里面了,不需要考虑还有信息在别的表没有一起迁移走
- 同时,因为在移动过程中,只有被移动的那一条记录(文档)需要操作,而不像关系型中每个有关联的表都需要锁住来保证一致性,这样一来ACID的保证就会变得更快速,读写的速度也会有很大的提升。
相关产品 |
MongoDB、CouchDB、Terrastore、ThruDB、RavenDB、SisoDB、RaptorDB、CloudKit、Perservere、Jackrabbit |
数据模型 |
键/值 值(value)是版本化的文档 |
典型应用 |
存储、索引并管理面向文档的数据或者类似的半结构化数据 比如,用于后台具有大量读写操作的网站、使用JSON数据结构的应用、使用嵌套结构等非规范化数据的应用程序 |
优点 |
性能好(高并发) 灵活性高 复杂性低 数据结构灵活 提供嵌入式文档功能,将经常查询的数据存储在同一个文档中 既可以根据键来构建索引,也可以根据内容构建索引 |
缺点 |
缺乏统一的查询语法 |
不适用情形 |
在不同的文档上添加事务。文档数据库并不支持文档间的事务,如果对这方面有需求则不应该选用这个解决方案 |
使用者 |
百度云数据库(MongoDB)、SAP (MongoDB)、Codecademy (MongoDB)、Foursquare (MongoDB)、NBC News (RavenDB) |
5.4 图数据库
相关产品 |
Neo4J、OrientDB、InfoGrid、Infinite Graph、GraphDB |
数据模型 |
图结构 |
典型应用 |
专门用于处理具有高度相互关联关系的数据, 比较适合于社交网络、模式识别、依赖分析、推荐系统以及路径寻找等问题 |
优点 |
灵活性高 支持复杂的图形算法 可用于构建复杂的关系图谱 |
缺点 |
复杂性高,只能支持一定的数据规模 |
使用者 |
Adobe(Neo4J)、Cisco(Neo4J)、T-Mobile(Neo4J) |
6云数据库
6.1 云数据库的概念
云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易。
云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。
6.2 云数据库的特性
- 动态可扩展
- 高可用性
- 较低的使用代价
- 易用性
- 高性能
- 免维护
- 安全
6.3 云数据库与其他数据库的关系
从数据模型的角度来说,云数据库并非一种全新的数据库技术,而只是以服务的方式提供数据库功能
6.4 代表性云数据库产品
企业 |
产品 |
Amazon |
Dynamo、SimpleDB、RDS |
|
Google Cloud SQL |
Microsoft |
Microsoft SQL Azure |
Oracle |
Oracle Cloud |
Yahoo! |
PNUTS |
Vertica |
Analytic Database v3.0 for the Cloud |
EnerpriseDB |
Postgres Plus in the Cloud |
阿里 |
阿里云RDS |
百度 |
百度云数据库 |
腾讯 |
腾讯云数据库 |
7分布式数据库HBase
7.1 从BigTable说起
BigTable是一个分布式存储系统,BigTable起初用于解决典型的互联网搜索问题。
- 利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据
- 使用谷歌分布式文件系统GFS作为底层数据存储
- 采用Chubby提供协同服务管理
- 可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、高性能和高可用性等特点
- 谷歌的许多项目都存储在BigTable中,包括搜索、地图、财经、打印、社交网站Orkut、视频共享网站YouTube和博客网站Blogger等
(1)建立互联网索引
- 爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里
- MapReduce计算作业运行在整张表上,生成索引,为网络搜索应用做准备
(2)搜索互联网
- 用户发起网络搜索请求
- 网络搜索应用查询建立好的索引,从BigTable得到网页
- 搜索结果提交给用户
7.2 HBase简介
HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。
HBase的目标:处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表
7.3 HBase数据模型
- 表:HBase采用表来组织数据,表由行和列组成,列划分为若干个列族
- 行:每个HBase表都由若干行组成,每个行由行键(row key)来标识。
- 列族:一个HBase表被分组成许多“列族”(Column Family)的集合,它是基本的访问控制单元
- 列限定符:列族里的数据通过列限定符(或列)来定位
- 单元格:在HBase表中,通过行、列族和列限定符确定一个“单元格”(cell),单元格中存储的数据没有数据类型,总被视为字节数组byte[]
- 时间戳:每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引