一、简写大致思路
1.写一个spark项目,将本地模式注释
2,不需要打印输出,而是用saveAsTextFile(“hdfs路径”)将文件保存到hdfs
3,将工程文件打包,上传到虚拟机spark下 exm --jars中,
4,提交spark任务到集群运行(不需要启动spark也可运行)
spark-submit --class 类的相对路径名(右击--copy Reference)--master 运行模式(yarn-client yarn-cluster) jar包名
5,命令查看
Hadoop dfs -cat 目标文件存储路径名 /*
二、案例代码: 注意包名不要导错!!!Java API删除hdfs文件调用了自定义utils工具类
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import utils.HdfsDelete
object Text2 {
def main(args: Array[String]): Un