大数据学习之Spark任务创建及提交到集群服务器运行

最新推荐文章于 2024-11-06 10:29:18 发布

卡耐基 · 杨

最新推荐文章于 2024-11-06 10:29:18 发布

阅读量991

点赞数

分类专栏：大数据学习文章标签：大数据

一、简写大致思路

1.写一个spark项目，将本地模式注释

2，不需要打印输出，而是用saveAsTextFile（“hdfs路径”）将文件保存到hdfs

3，将工程文件打包，上传到虚拟机spark下 exm --jars中，

4，提交spark任务到集群运行（不需要启动spark也可运行）

spark-submit --class 类的相对路径名（右击--copy Reference）--master 运行模式(yarn-client yarn-cluster) jar包名

5，命令查看

Hadoop dfs -cat 目标文件存储路径名 /*

二、案例代码：注意包名不要导错！！！Java API删除hdfs文件调用了自定义utils工具类

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

import utils.HdfsDelete

object Text2 {

def main(args: Array[String]): Un

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

卡耐基 · 杨

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark-submit提交任务到集群

06-19

7万+

1 IDEA 打包示例代码参考AMPCamp2015之SparkSQL，开发环境使用idea。首先需要将程序打包成jar 选择project structure --》artifacts ，由于集群已经有了运行依赖的jar包，打包时可以将这些jar包排除出去，以减小打包后的jar包的大小。点击ok，然后选择build --》build artifacts，

Spark大数据配置集群

2302_80252080的博客

09-14

1277

Spark应用最终是以提交集群任务的方式运行的，因此在提交应用之前需要先启动集群，并查看集群状态，确保集群处于正常的可使用状态。值得注意的是，Scala、Java和Spark三者之间是有版本搭配限制的，可以根据官方文档提供的组合进行下载，否则会出现启动异常。安装的软件存在于 Ubuntu中配置的源服务器中,在源服务器中存储了大量的软件镜像,类似于一个软件应用商店，通过该命令，就可以通过网络从远程的应用商店中下载并安装SSH。在启动的时候如果出现需要输入密码的情况，这种情况则是因为部分文件没有设置权限。

参与评论您还未登录，请先登录后发表或查看评论

spark提交集群运行_提交第一个spark作业到集群运行

weixin_39610468的博客

12-30

204

写在前面接触spark有一段时间了，但是一直都没有真正意义上的在集群上面跑自己编写的代码。今天在本地使用scala编写一个简单的WordCount程序。然后，打包提交到集群上面跑一下...在本地使用idea开发，由于这个程序比较简单，我这里就直接给出代码。 import org.apache.spark.{SparkConf, SparkContext}object WordCount {def...

spark-submit提交jar包到spark集群上

最新发布

天冬忘忧的博客

11-06

1704

本文将深入探讨 Spark 程序在本地开发并远程提交到集群测试的过程，以及使用 spark - submit 脚本在集群模式下提交程序的相关知识，包括参数配置、运行模式等内容。

spark提交代码到集群执行

qq_42936727的博客

03-19

451

改动1：加入环境变量，让pycharmi直接提交yn的时候，知道hadoop的配置在哪，可以去读取yarn的信息。如果在PyCharml中直接提交到yarn,依赖了其它的python文件，可以通过设置属性来指定依赖代码。#–py-files可以帮你指定你依赖的其它python代码，支持.zip(一堆)，也可以单个.py文件。#如果在代码中运行，那么依赖的其它文件，可以通过spark.submit.pyFiles属性来设置。#在集群运行，本地文件就不可以用了，需要用hdfs文件。

如何将spark程序打jar包并上传至本地集群环境运行

weixin_41765352的博客

12-28

5342

如何将spark程序打jar包，并上传至本地集群环境运行

spark系列之spark-submit提交spark程序

liu_xue_xue的专栏

08-02

2196

通过spark-submit提交第一个spark 应用到集群中运行 bin/spark-submit --master spark://node-4:7077,node-5:7077 --class org.apache.spark.examples.SparkPi --executor-memory 2048mb --total-executor-cores 12 --executor-cores 1 examples/jars/spark-examples_2.11-2.2.0.jar 1000

spark提交jar到集群环境的步骤和注意事项

liaomingwu的专栏

02-23

2262

spark提交jar到集群环境的步骤和注意事项

Spark任务提交执行（二）

qq_32323239的博客

10-18

590

Spark任务提交全流程的源码的类调用时序图本篇博客主要是Spark任务提交到执行的全流程中的第二部分：从在本地执行代码碰到Action算子进行runJob到最后Task提交到Executor上执行。 1、RDD类中，Action算子触发任务提交 1、这里RDD调用算子生成新的RDD的候，会把前一个RDD传入到下一个RDD的构造函数作为成员变量。 2、当为Action算子的时候会调用SparkContext.runJob()去提交任务。并且在runJob()方法中调用了DAGSchedule.

本地IDEA提交Flink/Spark任务到集群的工具

大数据星球-浪尖

11-16

940

作者链接：https://www.jianshu.com/p/ae1919fdf399文章中所述的spark/flink提交任务的github工程：https://github.com/t...

spark程序提交到集群上_win10下将spark的程序提交给远程集群中运行

weixin_39734493的博客

12-23

367

一，开发环境：操作系统：win19 64位IDE：IntelliJ IDEAJDK：1.8scala:scala-2.10.6集群：linux上cdh集群，其中spark为1.5.2,hadoop:2.6.0(其实我也想用spark最新版和hadoop的最新版，但1.6以前有spark-assembly-1.x.x-hadoop2.x.x.jar)二，实现步骤：1，设置maven的pom.xml4...

Spark作业提交到集群执行详解

Spark技术咖的博客

08-16

2382

Spark作业提交到集群的命令格式如下 ./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... # other optio...

pyspark提交到集群运行

qq_35224503的博客

10-27

776

【代码】pyspark提交到集群运行。

Spark项目打包上传---虚拟机（服务器）运行

weixin_72357231的博客

12-27

738

spark打包上传---集群运行

掌握大数据之旅：Hadoop到Spark的进化与架构解析

大数据框架学习：从Hadoop到Spark **Hadoop简介** Hadoop是一个开源的大数据处理框架，其设计初衷是解决大规模数据的存储和处理问题。它的核心在于其分布式计算模型，能够利用廉价的服务器集群实现对PB级别的数据...