Hadoop命令手册

### Hadoop命令手册知识点 #### 概述 Hadoop是一个开源软件框架,主要用于分布式存储与处理大规模数据集。为了方便用户操作与管理Hadoop集群,Hadoop提供了丰富的命令行工具。本文将详细介绍Hadoop命令手册中提及的关键命令及其用法。 #### 常规选项 在使用Hadoop命令时,有一些通用选项适用于大多数命令: - `--config confdir`: 该选项允许用户指定一个替代的配置目录,默认情况下,配置文件位于`${HADOOP_HOME}/conf`。 - `-conf <configurationfile>`: 指定一个特定的应用程序配置文件。 - `-D <property=value>`: 为指定属性设置值。 - `-fs <local|namenode:port>`: 指定名称节点。 - `-jt <local|jobtracker:port>`: 指定作业跟踪器。仅适用于与作业相关的命令。 - `-files <逗号分隔的文件列表>`: 指定要在MapReduce集群上复制的文件列表。 - `-libjars <逗号分隔的jar列表>`: 指定要添加到类路径中的jar文件列表。 - `-archives <逗号分隔的archive列表>`: 指定要解压到计算节点的归档文件列表。 #### 用户命令 ##### archive 用于创建Hadoop存档文件,其格式通常为`.har`。通过这种方式,可以将多个文件打包成一个单一的归档文件,以便更高效地传输和访问。 - **用法**: `hadoop archive -archiveName NAME <src>... <dest>` - **选项**: - `-archiveName NAME`: 指定要创建的存档文件名。 - `<src>`: 文件系统的路径,支持通配符。 - `<dest>`: 存储存档文件的目标目录。 ##### distcp 用于在Hadoop集群之间进行大数据量的文件复制。这是一种高效的复制方式,特别是在不同数据中心之间的复制。 - **用法**: `hadoop distcp <srcurl> <desturl>` - **选项**: - `<srcurl>`: 源URL。 - `<desturl>`: 目标URL。 ##### fs 提供了一种操作Hadoop文件系统的简便方法,可以进行文件和目录的操作,如创建、删除、复制等。 - **用法**: `hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]` - **命令选项**: - `put`: 上传文件到HDFS。 - `get`: 下载文件从HDFS。 - `ls`: 列出文件和目录。 - `rm`: 删除文件或目录。 - `mkdir`: 创建目录。 - 更多命令请参阅HDFS Shell指南。 ##### fsck 用于检查HDFS文件系统的完整性,并可以修复受损的数据块。 - **用法**: `hadoop fsck [GENERIC_OPTIONS] <path> [-move|-delete|-openforwrite] [-files|-blocks[-locations|-racks]]` - **选项**: - `<path>`: 开始检查的目录。 - `-move`: 将损坏的文件移动到/lost+found目录。 - `-delete`: 删除损坏的文件。 - `-openforwrite`: 打印出正在写入的文件。 - `-files`: 显示被检查的文件。 - `-blocks`: 显示块信息。 - `-locations`: 显示每个块的位置信息。 - `-racks`: 显示数据节点的网络拓扑结构。 ##### jar 用于执行MapReduce作业的jar文件。 - **用法**: `hadoop jar <jar> [mainClass] args` - **选项**: - `<jar>`: jar文件路径。 - `[mainClass]`: 主类名。 - `args`: 主类的参数。 ##### job 提供了一系列与MapReduce作业交互的命令。 - **用法**: `hadoop job [GENERIC_OPTIONS] [-submit <job-file>] | [-status <job-id>] | [-counter <job-id> <group-name> <counter-name>] | [-kill <job-id>] | [-events <job-id> <from-event-#> <#-of-events>] | [-history [all]]` - **选项**: - `-submit <job-file>`: 提交作业文件。 - `-status <job-id>`: 查询作业状态。 - `-counter <job-id> <group-name> <counter-name>`: 查询计数器信息。 - `-kill <job-id>`: 终止作业。 - `-events <job-id> <from-event-#> <#-of-events>`: 获取事件日志。 - `-history [all]`: 查看作业历史记录。 #### 管理命令 除了上述用户命令外,Hadoop还提供了一系列管理命令,用于集群的日常维护和管理。 ##### balancer 用于平衡数据节点上的数据分布。 - **用法**: `hadoop balancer [GENERIC_OPTIONS]` ##### daemonlog 控制DataNode的日志级别。 - **用法**: `hadoop daemonlog [GENERIC_OPTIONS]` ##### datanode 管理DataNode服务。 - **用法**: `hadoop datanode [GENERIC_OPTIONS]` ##### dfsadmin 提供了一系列用于管理HDFS的命令。 - **用法**: `hadoop dfsadmin [GENERIC_OPTIONS]` ##### jobtracker 管理JobTracker服务。 - **用法**: `hadoop jobtracker [GENERIC_OPTIONS]` ##### namenode 管理NameNode服务。 - **用法**: `hadoop namenode [GENERIC_OPTIONS]` ##### secondarynamenode 管理SecondaryNameNode服务。 - **用法**: `hadoop secondarynamenode [GENERIC_OPTIONS]` ##### tasktracker 管理TaskTracker服务。 - **用法**: `hadoop tasktracker [GENERIC_OPTIONS]` 通过以上介绍,可以看出Hadoop命令手册不仅包含了基本的文件操作命令,还涉及到了集群管理和高级功能的支持。这对于初学者来说是一份非常宝贵的资源,可以帮助他们快速上手并深入理解Hadoop的工作原理及应用。


















- xiaoyushim20072012-07-17这个资料整理的还算可以,包含了常用的命令。但是不全面,也没有实例。
- giskook2012-08-04整理的不错,适合我这种初学者.

- 粉丝: 1
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 云会计在企业会计信息化中的应用分析【精品发布】.doc
- 谈网络RTK中的GPRS网络.pdf
- 前端开发工程师工作总结.docx
- 学校网络安全宣传周总结——共建网络安全.doc
- 专题资料(2021-2022年)080301机械设计制造及其自动化.doc
- 三菱FX5U与三台E700变频器通讯程序(SL5U-24) - 包含程序注释、接线方式及参数设置 变频器控制
- 项目管理培训方案(20211201154113).pdf
- 电力通信光缆工程施工规范.doc
- JFinal-PHP资源
- 如何用财务软件编制现金流量表【2017-2018最新会计实务】.doc
- 网店网络营销策划书.doc
- 基因工程-WJ20131208.ppt
- watermark-js-plus-JavaScript资源
- BP神经网络详解与实例.pptx
- sql2java-SQL资源
- 计算机二级习题-计算机二级资源


