大数据学习之Spark任务创建及提交到集群服务器运行

一、简写大致思路

1.写一个spark项目,将本地模式注释

2,不需要打印输出,而是用saveAsTextFile(“hdfs路径”)将文件保存到hdfs

3,将工程文件打包,上传到虚拟机spark下 exm --jars中,

4,提交spark任务到集群运行(不需要启动spark也可运行)

 spark-submit --class 类的相对路径名(右击--copy Reference)--master  运行模式(yarn-client  yarn-cluster)  jar包名

5,命令查看

Hadoop dfs -cat 目标文件存储路径名 /*

二、案例代码: 注意包名不要导错!!!Java API删除hdfs文件调用了自定义utils工具类

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

import utils.HdfsDelete

object Text2 {

  def main(args: Array[String]): Un

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值