Spark2.0编译版适配Hive2.3与Hadoop2.7.6教程

TGZ文件

下载需积分: 36 | 102.13MB | 更新于2025-04-27 | 88 浏览量 | 举报收藏

立即下载

在处理大数据的过程中，Apache Spark已经成为了一个非常重要的工具。它是一个强大的开源分布式计算系统，具有内存计算、实时处理和容错等特点。而Hive是建立在Hadoop上的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。在早期版本中，Hive通常运行在MapReduce上，而随着Spark的崛起，Hive on Spark作为新一代的查询引擎，使得Hive的查询处理速度大大提升。提到的"spark2.0编译版-适用于hive2.3的hive on spark"涉及到如何将Apache Spark与Apache Hive集成，并且针对特定的版本进行编译和配置以确保兼容性。以下是围绕这个主题的知识点详解： ### Spark 2.0版本特性 - **核心组件更新**: Spark 2.0引入了大量更新，比如Spark SQL的改进，包括对SQL查询优化器的重构，以及对Parquet文件格式的改进。 - **性能提升**: Spark 2.0的执行引擎得到增强，以提供更快的处理速度和更高效的资源利用。 - **DataFrame API**: 提供了更高级的API，基于DataFrame和Dataset的概念，这些API为用户提供了更多功能，并简化了复杂数据处理过程。 ### Hive 2.3版本特性 - **性能改进**: Hive 2.3优化了查询执行计划，并增强了其优化器，从而提高了查询效率。 - **存储格式支持**: 在Hive 2.3中，对新的存储格式（如ORC文件格式）的支持被进一步改进。 - **安全特性**: 增加了对Kerberos认证和SQL标准安全模型的支持。 ### Hive on Spark - **集成动机**: 将Hive与Spark结合是为了利用Spark的高性能处理能力。因为Spark可以更高效地处理数据，所以当与Hive集成时，可以更快地运行SQL查询。 - **运行机制**: 在传统模式中，Hive使用MapReduce作为执行引擎，而在Hive on Spark模式下，Hive SQL查询将通过Spark进行计算。 - **优势**: 使用Spark作为执行引擎可以减少对磁盘I/O的依赖，提高查询效率；并且Spark支持内存计算，可以进一步加快处理速度。 ### 编译与配置 - **不包含Hive Jar包**: 通常，Spark自带Hive支持，但在某些场景中，如与特定版本的Hive或Hadoop集成时，可能需要重新编译Spark，以确保不包含与目标环境冲突的Hive Jar包。 - **适配特定环境**: 在本例中，需要编译一个不带Hive的Spark版本，并确保它与Hive 2.3和Hadoop 2.7.6兼容。 - **编译步骤**: 1. 下载Spark 2.0.2源代码包。 2. 修改build文件，移除对Hive Jar的依赖。 3. 使用Maven或者SBT（Scala构建工具）进行编译，指定Hadoop 2.7.6为依赖环境。 4. 在编译过程中，确保选择不包含Hive的选项。 5. 编译完成后，会生成编译版的Spark压缩包。 ### 文件说明 - **spark-2.0.2-bin-hadoop2-without-hive**: 这个文件是编译完成的Spark 2.0.2版本，其特点是不包含Hive支持，并且针对Hadoop 2.7.6进行了优化配置。 - **安装与部署**: 在安装时，需要将这个压缩包解压到Hadoop环境中的指定目录下，并确保环境变量配置正确。 - **验证**: 配置完成后，可以通过启动Spark shell，并尝试执行一些简单的Hive查询来验证配置是否成功。总结来说，本知识点详细介绍了如何将Spark 2.0版本与Hive 2.3版本进行集成，并且解释了为什么需要重新编译Spark以及如何进行编译。由于环境适配是大数据解决方案成功实施的关键，所以特别强调了针对特定版本Hadoop和Hive环境下的兼容性配置。这些信息对于大数据开发者和架构师来说都是非常重要的，因为它们直接影响到系统性能和稳定性。通过理解和掌握这些内容，可以更好地构建和优化大数据处理平台。

资源目录

收起资源包目录

Spark2.0编译版适配Hive2.3与Hadoop2.7.6教程（771个子文件）

spark-2.0.2-yarn-shuffle.jar 6.82MB

jackson-core-2.6.5.jar 253KB

scala-xml_2.11-1.0.2.jar 633KB

metrics-core-3.1.2.jar 110KB

make.bat 193B

spark-graphx_2.11-2.0.2.jar 664KB

make2.bat 6KB

spark-submit.cmd 1012B

core-1.1.2.jar 161KB

scopt_2.11-3.3.0.jar 119KB

.gitignore 49B

netty-all-4.0.29.Final.jar 1.96MB

_SUCCESS 0B

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

antlr4-runtime-4.5.3.jar 295KB

lpsa.data 10KB

full_user.avsc 240B

mesos-0.21.1-shaded-protobuf.jar 1.22MB

pyspark.css 2KB

.part-r-00007.gz.parquet.crc 12B

commons-math3-3.4.1.jar 1.94MB

spark-submit2.cmd 1KB

spark-sql_2.11-2.0.2.jar 6.11MB

hk2-utils-2.4.0-b34.jar 116KB

beeline.cmd 899B

breeze_2.11-0.11.2.jar 12.83MB

_metadata 743B

jtransforms-2.4.0.jar 747KB

scala-parser-combinators_2.11-1.0.4.jar 414KB

_SUCCESS 0B

json4s-core_2.11-3.2.11.jar 576KB

scala-library-2.11.8.jar 5.48MB

spire_2.11-0.7.4.jar 6.94MB

jline-2.12.1.jar 209KB

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

avro-mapred-1.7.7-hadoop2.jar 177KB

jersey-client-2.22.2.jar 163KB

user.avsc 185B

univocity-parsers-2.1.1.jar 284KB

pyrolite-4.13.jar 93KB

janino-2.7.8.jar 599KB

leveldbjni-all-1.8.jar 1021KB

javax.servlet-api-3.1.0.jar 94KB

spark-mllib_2.11-2.0.2.jar 5.58MB

kryo-shaded-3.0.3.jar 350KB

pyspark2.cmd 1KB

users.avro 334B

commons-net-2.2.jar 207KB

jersey-server-2.22.2.jar 929KB

netty-3.8.0.Final.jar 1.17MB

commons-lang3-3.3.2.jar 403KB

py4j-0.10.3.jar 112KB

jersey-guava-2.22.2.jar 949KB

stream-2.7.0.jar 170KB

lz4-1.3.0.jar 231KB

hk2-api-2.4.0-b34.jar 175KB

spark-mllib-local_2.11-2.0.2.jar 174KB

spark-examples_2.11-2.0.2.jar 1.89MB

javassist-3.18.1-GA.jar 697KB

spark-shell.cmd 1010B

spark-network-common_2.11-2.0.2.jar 2.25MB

spark-yarn_2.11-2.0.2.jar 654KB

sample_tree_data.csv 113KB

scala-compiler-2.11.8.jar 14.77MB

xbean-asm5-shaded-4.4.jar 141KB

layout.html 207B

.part-r-00002.gz.parquet.crc 12B

commons-codec-1.10.jar 278KB

_common_metadata 210B

pmml-model-1.2.15.jar 639KB

.part-r-00005.gz.parquet.crc 12B

javax.ws.rs-api-2.0.1.jar 113KB

beeline 1KB

.part-r-00008.gz.parquet.crc 12B

random.data 41KB

breeze-macros_2.11-0.11.2.jar 132KB

chill_2.11-0.8.0.jar 218KB

test.data 128B

spark-catalyst_2.11-2.0.2.jar 6.58MB

hk2-locator-2.4.0-b34.jar 177KB

jackson-module-scala_2.11-2.6.5.jar 504KB

pyspark.cmd 1002B

jackson-databind-2.6.5.jar 1.12MB

ages.csv 26B

run-example.cmd 988B

RoaringBitmap-0.5.11.jar 197KB

sparkR2.cmd 1014B

load-spark-env.cmd 2KB

spark-class2.cmd 2KB

jersey-common-2.22.2.jar 682KB

arpack_combined_all-0.1.jar 1.14MB

spark-streaming_2.11-2.0.2.jar 1.99MB

spark-class.cmd 1012B

scalap-2.11.8.jar 784KB

ivy-2.4.0.jar 1.22MB

.part-r-00004.gz.parquet.crc 12B

scala-reflect-2.11.8.jar 4.36MB

spark-core_2.11-2.0.2.jar 11.19MB

sparkR.cmd 1000B

spark-shell2.cmd 1KB

共 771 条

奇妙探险家

粉丝: 34

Spark2.0编译版适配Hive2.3与Hadoop2.7.6教程

spark-hive-2.11和spark-sql-以及spark-hadoop包另付下载地址

spark 2.3.1 支持Hive Yarn Hadoop 2.7 已编译版本

Hive3.1.2编译源码

hadoop2.6.3-spark1.5.2-hbase-1.1.2-hive-1.2.1-zookeeper-3.4.6安装指南

java8看不到源码-docker-spark-hive-zeppelin:docker-spark-hive-zeppelin

spark2.3.1-with-hive

spark--bin-hadoop2-without-hive.tgz

spark--bin-hadoop3-without-hive.tgz

spark-2.4.0-bin-hadoop-2.7.3-hive.tgz

spark-2.4.8-bin-2.6.0-with-hive.tgz

spark-2.4.0-hive-hbase-Api.7z

spark-2.3.0-bin-hadoop2-without-hive

spark-3.2.0-bin-hadoop3-without-hive

编译的spark-hive_2.11-2.3.0和 spark-hive-thriftserver_2.11-2.3.0.jar

spark-sql-2.3-source-code-interpretation:spark sql 2.3原始代码理解自己的阅读源码后的总结，欢迎大家阅读-spark source code

spark-1.6.3-bin-hadoop2.4-without-hive.tgz

linux搭建hive on spark环境(spark-1.6.3-without-hive+hadoop2.8.0+hive2.1.1)

sparksql与hive整合（spark-on-hive）

spark-3.1.2-bin-hive3.1.2.tgz安装

最新资源