本篇安装软件版本
mysql5.6
spark3.2.1-hadoop3.2
presto0.272
zeppelin0.11.2
kafka_2.13_3.7.2
doris2.1
Apache Celeborn 0.5.4
mysql
安装步骤见-》 https://blog.csdn.net/dudadudadd/article/details/110874570
spark
安装步骤见-》https://blog.csdn.net/dudadudadd/article/details/109719624
安装的时候要注意的点如下
:
1、3.x的spark一定要在env中改默认的master-web端口,默认的8080会导致内部资源404,本质上是和REST服务的默认端口冲突了,直接访问找不到API路径
2、3.x的spark和下面的hive3.x一样需要将jars下的guava-14包改个名字,不用自带的,将hadoop中share/hadoop/common/lib/guava-27.0-jre.jar包复制到jars目录下
3、3.x的spark在env文件中指定master的地址时,用的是SPARK_MASTER_HOST,而不再是SPARK_MASTER_IP,这一点一定要注意
4、在较新版本的spark中,当你spark on yarn执行任务时,在集群spark-defaults.conf
配置文件中与yarn集群相关的配置值,不再直接透传到任务界面上,比如为了启动速度以及节省spark集群的本地影响,一般会把spark的任务依赖的集群资源上传到hdfs上,并配置默认任务参数spark.yarn.jars
,这个参数在spark2.x版本中,可以在Environment
中看到,但3.x之后Environment中该参数展示为空,但可以从启动日志中看到资源正常从hdfs抽取
presto
安装步骤见-》https://blog.csdn.net/dudadudadd/article/details/109726023 presto安装的时候虽然搭建在hadoop3.0体系上,但并不受影响,正常按照之前的方式配置hive的catalog就行
zeppelin
安装步骤见-》https://blog.csdn.net/dudadudadd/article/details/109719624
安装要注意
:这个版本改动默认spark执行器的配置时,页面上的提示不准,需要正常的设置spark.master=yarn
、spark.submit.deployMode=cluster
才可以。随后要测试spark-submit能不能用,我这边测试时不认部分脚本参数,就很难受。你也可以换一个其他版本试试
kafka
安装步骤见–》https://blog.csdn.net/dudadudadd/article/details/109679296
需要注意的时较新的kafka版本在操作的时候,已经不再需要--zookeeper zookeeper集群地址
这个配置了,你如果直接使用的话会提示你这个参数已经不再有效了,现在较新的kafka指定自身的bootstrap-server就行,底层在运行的时候会自动识别和处理zookeeper的链接信息,如下
[root@node1 ~]# /opt/kafka2.13_372/bin/kafka-topics.sh --create --bootstrap-server node1:9092 --replication-factor 1 --partitions 1 --topic test
Created topic test.
[root@node1 ~]# /opt/kafka2.13_372/bin/kafka-topics.sh --bootstrap-server node1:9092 --list
test
doris
Apache Doris 最初是百度广告报表业务的 Palo 项目。2017 年正式对外开源,2018 年 7 月由百度捐赠给 Apache 基金会进行孵化。在 Apache 导师的指导下,由孵化器项目管理委员会成员进行孵化和运营。2022 年 6 月,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Apache 顶级项目(Top-Level Project,TLP)
国内使用由于jdk的限制最高使用到2.1