使用spark ,spark sql编写word count程序

Halosec_Wei

于 2019-08-28 09:04:15 发布

阅读量805

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/qq_41686130/article/details/100112094

本文详细介绍了使用Spark和SparkSQL进行大规模数据处理的方法。通过具体示例，展示了如何配置Spark环境，读取HDFS文件，使用flatMap和reduceByKey等操作进行单词计数，并通过SparkSQL进行更高级的数据查询和分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark 版本

val conf=new SparkConf.setAppName("wc").setMaster("local[*]")
val sc=SparkConText(conf, 2)
val lines sc.textFile("hdfs://wc")
val paris=lines.flatMap(_.spilt(" "))
val word =paris.map(_,1)
val result=word.reduceByKey(_+_).SortBy(x->x._1,false)

spark sql版本2.x

val sc=SparkSession.builder().SetAppname("wc—sparkSql").master("local[*]").getOrcreat()
val lines=sc.read.textFile("hdfs://node-1:9000/words")
val word=lines.flatMap(_.spilt(" "))
import spark.implicits._
word.createTempView("v_wc")
val result=spark.sql("select value,count(*) counts from v_wc GroupBy value")
result.show()
spark.stop()