什么是 Apache Hadoop?
Apache Hadoop 是一个开源软件框架,由当时就职于雅虎的 Douglas Cutting 开发,该框架使用简单的编程模型提供对大型数据集的高度可靠的分布式处理。
Hadoop 克服了 Nutch 的可扩展性限制,并基于商用计算机集群,为存储和处理大量结构化、半结构化和非结构化数据提供了一种经济高效的解决方案,而且没有格式要求。
包括 Hadoop 在内的数据湖架构可以为您的大数据分析计划提供灵活的数据管理解决方案。Hadoop 是一个开源项目,并遵循分布式计算模型,因此它可以为大数据软件和存储解决方案提供节省预算的定价。
Hadoop 还可以安装在云服务器上,以便更好地管理大数据所需的计算和存储资源。为了更加方便,Linux 操作系统代理、UNIX 操作系统代理和 Windows 操作系统代理是预先配置的,可以自动启动。Amazon Web Services (AWS) 和 Microsoft Azure 等一流云供应商提供了各种解决方案。Cloudera 支持本地和云(包括多个供应商的一个或多个公有云环境选项)中的 Hadoop 工作负载。使用 Hadoop 监控 API来添加、更新、删除和查看集群和集群上的服务,并在 Hadoop 上进行所有其他类型的监控。
AI 数据存储
了解将湖仓一体战略集成到数据架构的强大之处,其中包括用于扩展 AI 的增强功能以及成本优化机会。
相关内容
立即注册,获取 AI 治理白皮书
Hadoop 生态系统
由 Apache Software Foundation 构建的 Hadoop 框架包括:
Hadoop Common:支持其他 Hadoop 模块的常用实用程序和库。也称为 Hadoop Core。
Hadoop HDFS(Hadoop 分布式文件系统):分布式文件系统,用于在商用硬件上存储应用程序数据。HDFS 旨在为 Hadoop 提供容错能力并提供高聚合数据带宽和高吞吐量数据访问。默认情况下,数据块在加载或写入时跨多个节点复制。复制程度可配置:默认复制为三个。HDFS 架构采用 NameNode 来管理文件系统命名空间和文件访问权限,采用多个 DataNode 来管理数据存储。通过支持高可用性,当活动节点发生故障时,可以使用从节点。
Hadoop YARN:开源 Apache Hadoop YARN 是一个用于作业调度和集群资源管理的框架,可与 IBM? Spectrum Symphony on Linux? 和 Linux on POWER? 结合使用。YARN 代表“Yet Another Resource Negotiator”(又一个资源谈判专家)。它支持更多工作负载,例如交互式 SQL、高级建模和实时流。
Hadoop MapReduce:一种基于 YARN 的系统,可将数据存储在多个源上,并支持并行处理大量数据。MapReduce 提供了多种优化技术来加快作业速度。
Hadoop Ozone:专为大数据应用程序设计的可扩展、冗余和分布式对象库。
支持 Apache 项目
借助其他开源软件项目完善 Hadoop。
Ambari
基于 Web 的工具,用于配置、管理和监测 Hadoop 集群。
Avro
数据序列化系统。
了解 Avro
Cassandra
可扩展的 NoSQL 数据库,旨在消除单点故障。
Chukwa
用于监测大型分布式系统的数据收集系统;构建在 HDFS 和 MapReduce 之上。
Flume
用于收集、聚合大量流数据并将其移动至 HDFS 的服务。
HBase
可扩展的非关系型分布式数据库,支持大型表的结构化数据存储。
了解 Apache HBase
Hive
一种数据仓库基础架构,用于在类似 SQL 的界面中进行数据查询、表格元数据存储和分析。
了解 Apache Hive
Mahout
可扩展的机器学习和数据挖掘库。
Oozie
基于 Java 的工作负载调度程序,用于管理 Hadoop 作业。
Pig
用于并行计算的高级数据流语言和执行框架。
了解 Apache Pig
Scoop
在 Hadoop 和结构化数据库(例如关系数据库)之间高效传输数据的工具。
Submarine
统一的 AI 平台,用于在分布式集群中运行机器学习和深度学习工作负载。
Tez
基于 YARN 构建的通用数据流编程框架;在 Hadoop 生态系统中用来取代 MapReduce。
ZooKeeper
适用于分布式应用程序的高性能协调服务。
面向开发者的 Hadoop
Apache Hadoop 使用 Java 编写,但开发人员可根据大数据项目的要求,自行选择 Python、R 或 Scala 等语言进行编程。其中包含的 Hadoop Streaming 实用程序,允许开发人员使用任何脚本或可执行文件作为映射器或还原器来创建和执行 MapReduce 作业。
Spark 与 Hadoop
Apache Spark 也是一个开源的大数据处理框架,经常被拿来与 Hadoop 对比。事实上,Spark 最初是为提高处理性能而构建,扩展了 Hadoop MapReduce 可能支持的计算类型。Spark 使用内存处理,因此比 MapReduce 的读/写能力要快得多。
虽然 Hadoop 最适合批量处理大量数据,但 Spark 既支持批处理,也支持实时数据处理,是流式传输数据和图形计算的理想选择。Hadoop 和 Spark 都有机器学习库,但同样,由于内存处理,Spark 的机器学习速度要快得多。
了解有关 Apache Spark 的更多信息
Hadoop 用例
改善数据驱动型决策:集成实时数据(流式传输音频、视频、社交媒体情绪和点击流数据)以及数据仓库或关系数据库中未使用的其他半结构化和非结构化数据。更全面的数据助您做出更准确的决策。
改进数据访问和分析:为数据科学家、业务线 (LOB) 所有者和开发者提供实时自助访问。Hadoop 可以推动数据科学的发展,这是一个跨学科领域,它使用数据、算法、机器学习和 AI 进行高级分析,以揭示模式并构建预测。
数据卸载与整合:通过将当前未使用的“冷”数据移动至基于 Hadoop 的发行版进行存储,降低企业数据中心的成本。或者整合整个组织的数据,提高可访问性并降低成本。
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论

格式:pdf 资源大小:748.2KB 页数:16





























收起资源包目录


共 1 条
- 1
资源评论


无限虚空
- 粉丝: 2350
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 单片机技术在汽车追尾防逃逸控制系统中的应用.doc
- 计算机信息网络安全问题的分析与对策.docx
- 画图功能MFC程序设计.doc
- 地铁站风管吊装技术交底.doc
- 编制单位工程施工投标书.doc
- 房地产经纪(居间)合同.doc
- 工程项目成本管理信息系统.ppt
- 延长工期是一种权利-兼析万龙联营体延长工期索赔.doc
- 高速公路机电工程项目管理中的BIM技术应用.docx
- 韩国料理投资运营计划书.doc
- 2.4控制转移指令及应用.ppt
- 指向深度学习的小学英语阅读教学实践.docx
- 多层存货管理方法用于改进含有低需求项目管理的系统研究.doc
- 物联网5G市场情况分析:一文告诉你5G将如何彻底改变物联网.docx
- 20米跨简支t梁课程设计.doc
- 二次结构报价说明.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
