Spark_SparkSQL_参数

1 执行参数

        spark.sql.crossJoin.enabled=true:控制是否允许 cross join.

        spark.sql.decimalOperations.allowPrecisionLoss=false:控制在进行小数运算时是否允许精度损失.


2 性能优化参数

        spark.executor.memory=15G:控制每个Executor的Java堆内存大小,用于存储数据和执行任务,设置小了可能导致内存溢出.

        spark.yarn.executor.memoryOverhead=2G:控制每个Executor的额外内存开销,用于JVM开销、数据序列化等.一般设置为 spark.executor.memory 的10%左右.

        spark.sql.autoBroadcastJoinThreshold=104857600:设置自动广播连接的阈值.

        spark.sql.shuffle.partitions= 40:设置Shuffle操作中的分区数量,直接影响到生成的文件数量和并行度.

        spark.sql.parquet.output.maxRecordsPerFile=1000000:控制在写入Parquet文件时每个文件的最大记录数,默认为1000万.数据量大时须适当调小,以平衡读写性能和并行度.

        spark.default.parallelism:指定默认的并行度.


3 资源管理参数

        spark.sql.adaptive.enabled=true:启用自适应查询执行.

        spark.sql.adaptive.advisoryPartitionSizeInBytes=256m:自适应查询中,设置目标分区大小,并将单个大分区拆分为多个较小的分区,小分区的大小控制在128m-1g之间.如果分区太大,可能会导致单个任务处理时间过长.

        spark.sql.adaptive.shuffle.targetPostShuffleInputSize=256m:自适应查询中,设置Shuffle后的目标分区大小.一般和 advisoryPartitionSizeInBytes 设置为相同的值.

        spark.sql.adaptive.skewJoin.skewedPartitionThresholdlnBytes=512m:自适应查询中,数据倾斜的分区的大小阈值,用于检测和处理数据倾斜.通常比 advisoryPartitionSizeInBytes 和 targetPostShuffleInputSize 大一些.

        spark.dynamicAllocation.enabled:启用或禁用动态资源分配功能.

        spark.dynamicAllocation.minExecutors:指定动态资源分配模式下的最小执行器数量.

4 安全参数

### 调优参数对比 #### Hive on Spark 参数设置 Hive on Spark 使用了 Hive 查询优化器,这意味着许多配置项都继承自 Hive 配置文件 `hive-site.xml`。然而,由于最终执行是由 Spark 完成的,所以也允许调整一些特定于 Spark 的属性。 - **资源分配** - 可以通过 `spark.executor.memory`, `spark.driver.memory` 来控制内存大小。 - 设置 `spark.executor.cores` 和 `spark.task.cpus` 控制CPU核心数[^1]。 - **并行度管理** - 利用 `spark.sql.shuffle.partitions` 设定Shuffle操作后的分区数量,默认值通常较低(如200),可以根据集群规模适当增加此数值以提高并发处理能力。 - **广播变量与缓存机制** - 对于小表可启用广播连接(`hive.auto.convert.join=true`),减少数据传输量。 - 合理利用持久化级别 (`persist()`, `cacheTable()` 方法) 将常用的数据集保存到内存中加快访问速度。 ```sql SET hive.execution.engine=spark; SET spark.sql.broadcastTimeout=600; -- 广播超时时间设为600秒 ``` #### Spark SQL 参数设定 Spark SQL 更加灵活地暴露了许多可以直接影响性能表现的关键参数: - **动态分区裁剪** - 开启选项 `spark.sql.hive.metastorePartitionPruning=true` 改善读取大宽表时的表现[^4]。 - **自动Broadcast Join阈值** - 修改 `spark.sql.autoBroadcastJoinThreshold` (单位字节),当右表小于该值会触发broadcast join而非shuffle hash join。 - **CBO(基于代价估算的优化)** - 如果开启了统计信息收集,则可以通过 `spark.sql.cbo.enabled=true` 让查询计划更加智能化。 ```scala // Scala代码示例:修改Session级别的配置 val session = SparkSession.builder().appName("example").getOrCreate() session.conf.set("spark.sql.sources.partitionOverwriteMode", "dynamic") // 动态覆盖模式 ``` 尽管两者共享部分相似之处,但在某些方面还是有所区别的。例如,在Hive on Spark环境中更多依赖于Hive本身的特性来进行初步优化,而Spark SQL则提供了更为丰富的内置调优手段供用户选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值