web平台调用hadoop集群2.0资源-CSDN下载

共147个文件

class：30个

jar：27个

java：25个

hadoop

mahout

web

调用算法

5星 · 超过95%的资源需积分: 10 52 浏览量 2014-01-03 01:48:17 上传评论 5 收藏 48.86MB RAR 举报

在现代大数据处理场景中，Web平台与Hadoop集群的集成是常见的需求，特别是在数据分析和机器学习项目中。本文将深入探讨“web平台调用Hadoop集群2.0”这一主题，旨在提供一个全面的视角来理解如何在Web应用中有效地利用Hadoop 2.0（也称为Hadoop YARN）的资源进行计算。 Hadoop 2.0引入了YARN（Yet Another Resource Negotiator），这是一个资源管理器，负责分配集群中的计算和存储资源。相较于Hadoop 1.x，YARN将数据处理任务（MapReduce）与资源调度分离，提高了集群的灵活性和利用率。这意味着Web应用程序可以通过API与YARN交互，提交任务并监控其进度。为了实现Web平台调用Hadoop集群，我们需要以下步骤： 1. **环境配置**：确保Hadoop集群已经正确安装，并且版本为2.0或更高。这通常涉及设置Hadoop的环境变量，包括`HADOOP_HOME`、`HADOOP_CONF_DIR`等，以及配置HDFS和YARN的相关参数。 2. **类库整合**：根据描述，需要将Web应用中的所有class文件打包并放入Hadoop的`lib`目录下。这是为了使得Hadoop集群能够识别并执行Web应用中编写的自定义MapReduce任务或者使用到的特定库。使用Maven或Gradle等构建工具可以帮助自动化这个过程。 3. **编写接口**：在Web应用中创建一个接口，用于与Hadoop集群通信。这个接口可以包含提交作业、查询作业状态、获取结果等功能。可以使用Hadoop的Java API，如`org.apache.hadoop.mapreduce.Job`类来提交和管理MapReduce任务。 4. **安全认证**：如果Hadoop集群启用了安全性（如Kerberos），Web应用也需要进行相应的身份验证配置，以确保安全地访问集群资源。 5. **调用算法**：标签中提到了mahout，它是一个基于Hadoop的机器学习库。如果Web应用需要使用这些算法，需要将Mahout的JAR文件添加到Hadoop的类路径中，然后通过Web接口调用对应的算法。 6. **监控和日志**：为了跟踪任务的运行情况，需要实现日志记录和监控功能。Hadoop提供了诸如JobHistoryServer等工具，可以用来查看作业的详细信息和错误日志。 7. **错误处理**：在Web应用中，必须处理可能发生的各种异常，如网络中断、作业失败等，确保系统具有良好的容错性。 8. **性能优化**：考虑使用Hadoop的其他组件，如HBase（实时数据存储）和Spark（快速数据处理框架），以提升整体性能。通过以上步骤，我们可以构建一个能够有效利用Hadoop集群资源的Web平台。这种集成方式使得非Hadoop开发人员也能通过Web界面轻松提交大数据任务，降低了使用门槛，提高了工作效率。同时，随着Hadoop生态系统的不断发展，更多高级功能和优化手段也将被纳入到Web调用Hadoop集群的实践中。

资源推荐

资源详情

资源评论

收起资源包目录

web平台调用hadoop集群2.0 （147个子文件）

Configuration.class 29KB

HadoopIOUtil.class 10KB

CollaDriverRunnable.class 5KB

KmeansDriverRunnable.class 5KB

CanopyDriverRunnable.class 5KB

TransformAction.class 4KB

MonitorUtil.class 4KB

CollaAction.class 4KB

KmeansAction.class 4KB

CanopyAction.class 3KB

Text2VectorWritableJob.class 3KB

Text2VectorWritableJob$Text2VectorWritableMapper.class 3KB

Configuration$IntegerRanges.class 3KB

HadoopIOUtilTest.class 3KB

HadoopSeq2TxtAction.class 2KB

Text2VectorWritableJob$Text2VectorWritableReducer.class 2KB

HadoopSeqReadAction.class 2KB

HadoopUtil.class 2KB

SetupAction.class 2KB

HadoopReadAction.class 2KB

JobInfo.class 2KB

HadoopDownloadAction.class 2KB

HadoopUploadAction.class 2KB

HadoopWriteAction.class 2KB

KmeansDriverTest.class 1KB

CollaDriverTest.class 1KB

CanopyDriverTest.class 1KB

MethodType.class 1KB

TestAction.class 666B

Configuration$IntegerRanges$Range.class 665B

.classpath 642B

org.eclipse.wst.common.component 546B

org.eclipse.wst.jsdt.ui.superType.container 49B

index.css 2KB

setup.css 1KB

base.css 1KB

mahout.css 623B

hadoopread.css 429B

mahout-examples-0.7-job.jar 28.65MB

mahout-core-0.7-job.jar 10.83MB

hadoop-core-1.0.4.jar 3.75MB

hadoop-test-1.0.4.jar 2.53MB

mahout-core-0.7.jar 1.44MB

mahout-math-0.7.jar 1.26MB

freemarker-2.3.19.jar 909KB

struts2-core-2.3.15.1.jar 783KB

xwork-core-2.3.15.1.jar 625KB

javassist-3.11.0.GA.jar 600KB

log4j-1.2.17.jar 478KB

commons-lang3-3.1.jar 308KB

mahout-integration-0.7.jar 305KB

hadoop-tools-1.0.4.jar 281KB

mahout-examples-0.7.jar 252KB

ognl-3.0.6.jar 223KB

junit-4.5.jar 194KB

commons-io-2.0.1.jar 156KB

hadoop-examples-1.0.4.jar 139KB

commons-fileupload-1.3.jar 67KB

commons-logging-1.1.3.jar 61KB

asm-3.3.jar 43KB

asm-commons-3.3.jar 37KB

asm-tree-3.3.jar 21KB

hadoop-ant-1.0.4.jar 7KB

hadoop-minicluster-1.0.4.jar 413B

hadoop-client-1.0.4.jar 410B

Configuration.java 47KB

HadoopIOUtil.java 10KB

CollaDriverRunnable.java 4KB

KmeansDriverRunnable.java 4KB

CanopyDriverRunnable.java 4KB

TransformAction.java 4KB

CollaAction.java 3KB

Text2VectorWritableJob.java 3KB

MonitorUtil.java 3KB

KmeansAction.java 3KB

CanopyAction.java 3KB

HadoopSeq2TxtAction.java 2KB

HadoopSeqReadAction.java 2KB

SetupAction.java 2KB

JobInfo.java 2KB

HadoopReadAction.java 2KB

HadoopDownloadAction.java 2KB

HadoopUploadAction.java 2KB

HadoopUtil.java 2KB

HadoopIOUtilTest.java 2KB

HadoopWriteAction.java 2KB

KmeansDriverTest.java 871B

CanopyDriverTest.java 840B

CollaDriverTest.java 788B

TestAction.java 439B

jQuery.js 271KB

共 147 条

Notice: 1. 文件夹分类：严格按照所给的目录结构； WebRoot：根目录； -- css : 公共css目录 -- font : 公共font目录 -- image：公共image目录 -- js ：公共js目录 ----------------------------- -- setup: 云平台配置目录 -- css ： setup独有的css目录 -- js ： setup 独有的js目录。。。，有其他文件夹可以加 -- hadoopio: 文件读取删除功能 -- css ： setup独有的css目录 -- js ： setup 独有的js目录。。。，有其他文件夹可以加 -- mahout ： mahout算法页面 -- css ： setup独有的css目录 -- js ： setup 独有的js目录。。。，有其他文件夹可以加 -- hadoopmr： hadoop中相关MR算法 -- css ： setup独有的css目录 -- js ： setup 独有的js目录。。。，有其他文件夹可以加 -- monitor：含有相关MR算法的监控，如果没有则不用监控，直接跳转到成功界面 -- css ： setup独有的css目录 -- js ： setup 独有的js目录。。。，有其他文件夹可以加 -- util：公共界面目录 -- css ： setup独有的css目录 -- js ： setup 独有的js目录。。。，有其他文件夹可以加 -- index.jsp: 首页 2. 运行程序： 1）把algorithm.xml放在$TOMCAT_HOME\conf\Catalina\localhost tomcat根目录下的文件夹路径，修改其中相应的目录为我发给你工程你存放的相应路径； 2）启动tomcat，浏览器中输入 http://localhost:8080/algorithm/test.jsp ,点击提交，然后跳转到测试ok页面，则说明环境ok，可以进行页面开发； 3） form提交的请求都是 *_Test 即可；

评论收藏

内容反馈