Linux并行计算&国产加速器海光DCU&GPGPU深算处理器使用FAQ

目录

DCU FAQ

硬件

产品端适配(cpu、加速卡、服务器)

虚拟化

hyqua/k8s/docker等工具

运行环境

dtk底层库

性能调优

深度学习框架/三方库


DCU FAQ

DCU常见问题汇总:

  1. 硬件
  2. 产品端适配(cpu、加速卡、服务器)
  3. 虚拟化
  4. hyqua/k8s/docker等工具
  5. 运行环境
  6. dtk底层库
  7. 性能调优
  8. 深度学习框架/三方库
  1. 硬件
    • 问:lspci | grep -i Display无显示。

      答:清理DCU加速卡金手指,请确保各插槽插紧无松动。


    • 问:BMC下看不到DCU设备,DCU上信号灯第二个灯-P3V3不亮。

      答:请联系相应技术人员查看DCU电源线型号,协助更换。


    • 问:在训练模型多个epoch后机器突然重启,且重新训练后多次遇到该问题。

      答:优先考虑散热问题,请检查是否满足服务器使用的散热条件,如果在降低DCU频率(频率降低会造成性能损失)或降低环温之后不再出现宕机情况,则散热问题可能性较大,或联系服务器提供商。


  2. 产品端适配(cpu、加速卡、服务器)
    • 问:Intel CPU+DCU加速卡服务器机型,lspci无法识别DCU。

      答:需要修改bios选项,请将MMIO High Base改为2T,建议优先使用已经进行DCU适配的intel服务器机型。


    • 问:驱动加载失败,如下图:

      答:请检查系统启动项中是否包含nomodeset选项,若存在,请删除。通常在系统启动时,按 e进入内核启动修改页面,找到以 linux16 /vmlinuz 开始的行,删除 nomodeset 字段,然后按Ctrl+x启动,如图所示:

      在系统启动之后,根据不同版本的系统要求修改 grub 文件,确保该启动项永久生效。


  3. 虚拟化
    • 问:虚拟机中CPU到DCU的带宽只有0.1GB/s左右。

      答:请使用V1.32以后的驱动。

      影响范围:所有dtk主干版本


  4. hyqua/k8s/docker等工具
    • 问:怎样通过容器分割物理机上的DCU加速卡。

      答:当需要在容器中仅出现某些加速卡时,可以将”--device=/dev/dri”替换为具体设备。例如:当使用第一张和第三张加速卡时,将”--device=/dev/dri”替换为”--device=/dev/dri/card1 --device=/dev/dri/renderD128 --device=/dev/dri/card3 --device=/dev/dri/renderD130”,其中card1,renderD128为第一张加速卡,card3,renderD130为第三张加速卡。切记此时不要再添加--privileged参数,效果如下:

      影响范围:所有dtk主干版本

### 海光 DCU K100 的硬件规格与性能参数 海光 DCU K100 是一款高性能的数据中心加速卡,主要面向人工智能训练和推理任务。其设计目标是在大规模并行计算领域提供卓越的性能表现。以下是关于该产品的具体信息: #### 硬件规格 - **制程工艺**: 使用先进的制造技术,确保低功耗的同时提升运效率[^3]。 - **核心数量**: 配备大量计算单元,能够支持高并发的任务处理需求。 - **显存配置**: 提供高达 40GB 的高速 HBM 显存,满足大型模型对于内存的需求[^1]。 #### 性能参数 - **浮点运能力**: 支持 FP16 和 INT8 数据类型下的高效矩阵乘法操作,在深度学习框架中有显著优势。 - **带宽指标**: 内部互联结构经过优化,具备极高的数据传输速率,减少瓶颈效应的发生概率。 - **能耗管理**: 功率控制机制完善,能够在不同负载条件下维持稳定运行状态。 #### 应用场景 得益于上述特点,海光 DCU K100 广泛应用于以下几个方面: - **自然语言处理(NLP)**: 对超大规模预训练语言模型进行微调时表现出色,例如 Qwen 系列中的多个版本均推荐搭配此款设备使用。 - **计算机视觉(CV)**: 实现图像分类、对象检测等功能所需的复杂法加速。 - **科学计算**: 解决偏微分方程数值求解等问题所需的大规模线性代数运。 ```python import torch device = 'cuda' if torch.cuda.is_available() else 'cpu' model = YourModel().to(device) if device == 'cuda': print(f"Using GPU with {torch.cuda.get_device_name(0)}") else: print("No compatible GPU found.") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术瘾君子1573

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值