一、概述
本手册针对RHEL 7.0 - 7.3与新华三(3PARdata)存储(产品标识VV
)的多路径配置,利用通用ALUA角色2(Generic ALUA Persona 2),实现高可用、负载均衡及故障容错,适配生产环境。
二、参数解析与配置
1. 默认参数(defaults
)
polling_interval 10
:每10秒轮询路径状态,及时检测故障(如链路中断、设备无响应)。user_friendly_names yes
:启用易读设备名(如mpath0
),简化运维识别。find_multipaths yes
:自动发现多路径设备,减少手动配置误差。
2. 设备特定参数(devices
)
vendor "3PARdata"
:指定新华三供应商,加载专用DSM,适配存储特性(如ALUA)。product "VV"
:匹配XSG1系列LUN,批量应用配置。path_grouping_policy "group_by_prio"
:按优先级分组路径(如Active/Optimized与Active/Non-optimized),高优先级路径优先处理I/O,提升性能与冗余。path_selector "service-time 0"
:均匀负载均衡(权重相同),I/O均匀分配至活动路径,避免单路径过载。path_checker "tur"
:通过TUR命令检测路径状态,快速发现故障(如设备无响应),触发转移。hardware_handler "1 alua"
:启用ALUA硬件处理,支持新华三存储的路径优先级(如优化路径优先)。prio "alua"
:ALUA优先级策略,利用存储返回的路径优先级信息,智能调度I/O(如优先使用主控制器路径)。failback immediate
:主路径恢复后立即回切,确保最优性能(如华为主控制器恢复时快速切换)。rr_weight "uniform"
:轮询权重均匀,配合path_selector
实现负载均衡。no_path_retry 18
:无路径时重试18次,避免瞬时故障误判,增强容错(如光纤瞬断后自动恢复)。fast_io_fail_tmo 10
:10秒内快速处理I/O失败(如路径永久故障),减少应用阻塞(如数据库连接超时)。dev_loss_tmo "infinity"
:设备丢失超时无限,避免因瞬时网络波动误判设备丢失(如存储控制器临时重启)。
三、配置步骤
1. 编辑配置文件
vi /etc/multipath.conf
添加:
defaults {
polling_interval 10
user_friendly_names yes
find_multipaths yes
}
devices {
device {
vendor "3PARdata"
product "VV"
path_grouping_policy "group_by_prio"
path_selector "service-time 0"
path_checker "tur"
hardware_handler "1 alua"
prio "alua"
failback immediate
rr_weight "uniform"
no_path_retry 18
fast_io_fail_tmo 10
dev_loss_tmo "infinity"
}
}
2. 重启服务
systemctl restart multipathd
3. 验证
- 查看多路径:
multipath -ll
,确认新华三设备及路径状态(active
,分组group_by_prio
)。 - 故障模拟:拔插光纤,检查日志(
/var/log/messages
),验证故障转移(failback
生效,切换时间≤10秒)。 - 负载监控:
iostat -xm 5
,确认I/O均匀分布(service-time 0
策略生效)。
四、生产环境最佳实践
1. 硬件冗余
- 双HBA卡+双交换机+双控制器:构建
2×2
冗余拓扑(4条路径),抵御单硬件故障(如HBA卡、交换机、控制器故障)。
2. 固件与驱动
- 更新HBA驱动:确保与RHEL多路径兼容(如QLogic、Emulex最新驱动)。
- 升级存储固件:启用ALUA Persona 2,匹配配置中的
prio alua
策略。
3. 监控与告警
- Zabbix/Prometheus监控:跟踪路径数量、故障次数、I/O延迟,设置
no_path_retry
和dev_loss_tmo
告警(如连续18次无路径时通知管理员)。
4. 定期演练
- 每季度模拟故障:验证故障转移时间(≤10秒,由
fast_io_fail_tmo
控制),确保符合SLA(如金融行业99.99%可用性)。
5. 配置备份
- 备份
multipath.conf
:与存储LUN映射表(如3parcli lun show
输出)存档,灾难恢复时快速部署。
五、故障排除
1. 路径未识别
- 检查
vendor/product
:通过lsscsi
确认存储设备标识,确保与配置匹配。 - 重新扫描SCSI总线:
echo "- - -" > /sys/class/scsi_host/hostX/scan
,触发设备发现。
2. 负载不均
- 验证ALUA模式:通过存储管理界面检查ALUA Persona 2是否启用(
prio alua
依赖此模式)。 - 检查HBA链路:
ethtool
确认所有路径带宽一致,物理连接正常。
3. 转移延迟
- 调整
dev_loss_tmo
:若存储恢复时间>30秒,可适当增大(如60
),协同failback immediate
策略。
通过上述配置,新华三存储与RHEL多路径实现99.99%可用性,适配生产环境。操作需结合新华三官方文档(如3PAR ALUA配置指南)与RHEL多路径手册,确保版本兼容。
注意:实际部署需根据新华三存储具体型号(如3PAR OS版本)调整prio
策略(如alua
需存储端启用ALUA Persona 2)。