网络安全

NVIDIA DOCA 3.0 助力 AI 平台开启网络新纪元

NVIDIA DOCA 框架已发展成为新一代 AI 基础设施的重要组成部分。从初始版本到备受期待的 NVIDIA DOCA 3.0 发布,每个版本都扩展了 NVIDIA BlueField DPU 和 ConnectX SuperNIC 的功能,从而实现了前所未有的 AI 平台可扩展性和性能。

通过丰富的库和服务生态系统, DOCA充分利用 BlueField DPU 和 SuperNIC,实现了在超过 10 万个 GPU 上的超大规模部署,同时保持严格的租户隔离并优化资源利用率。DOCA 的安全功能可为容器化 AI 工作负载提供硬件级威胁检测,而不会对性能造成影响。DOCA 的智能数据加速功能解决了 AI 数据流水线中的关键瓶颈,而其编排功能则简化了复杂的 DPU 加速服务部署。

本文将介绍 DOCA 3.0,它代表了这些进步的最终成果。DOCA 3.0 为 AI 工厂提供全新升级的基础设施服务,并为 AI 数据中心基础设施提供优化的框架,为开发者提供构建安全、高效的 AI 基础设施所需的必要工具,其规模之大前所未有。如今,一个广泛且蓬勃发展的开发者社区正在使用 DOCA,这项技术将继续改变企业部署、管理和编排基础设施的方式,为未来的 AI 创新提供支持。

DOCA 3.0 简介

在当今快速发展的 AI 领域中,支持大规模 AI 部署的基础设施与模型本身同样重要。随着企业从实验性 AI 项目扩展到生产就绪型部署,底层计算、网络和存储基础设施必须不断发展,以满足前所未有的需求。DOCA 正是这一发展的核心,它正在彻底改变开发者构建、部署和管理下一代 AI 平台的方式。

最新版本的 DOCA 3.0 为开发者提供了丰富的库、驱动和 API,帮助他们为 NVIDIA BlueField DPU 和 Connect-X SuperNIC 创建高性能应用程序和服务。这一创新框架可将资源密集型任务从 CPU 卸载到专用硬件加速器,从而显著提高 AI 工作负载的性能、安全性和效率。

DOCA 3.0 的亮点包括:

  • OCA 支持 InfiniBand Quantum-X800 和 ConnectX-8 SuperNIC (GA)
  • 用于 NIM 容器威胁检测的全新 DOCA Argus 服务
  • DOCA 平台框架(DPF) 可信主机用例 (GA)
  • 使用 BlueField-3 的 DOCA SNAP Virtio-fs (测试版) 文件系统仿真
  • 适用于 AI 计算集群的 DOCA Perftest(GA) RDMA 基准工具

有关完整详细信息,请参阅 DOCA 3.0 版本说明

A diagrammatic representation of NVIDIA DOCA, highlighting the various services, libraries and drivers which make up the DOCA framework.
1NVIDIA DOCA 3.0 堆栈

超大规模 GPU 计算:扩展多租户 AI 工厂

构建具有更多参数和训练数据的更大 AI 模型的竞赛将计算需求推向了前所未有的高度。现代 AI 工厂必须支持涵盖数万个 GPU 的大规模部署,同时在租户之间保持严格的性能隔离。

DOCA 通过其网络库应对这一挑战,在多租户环境中实现高效的资源利用和工作负载隔离。具体来说,DOCA RDMA 库提供了对大规模分布式 AI 训练至关重要的高性能、低延迟通信功能。此库支持节点之间的直接内存访问,无需 CPU 参与,可显著减少多 GPU 系统中的通信用度。

DOCA GPUNetIO 库通过 GPUDirect Async Kernal-initiated 通信 (GDAKI) 在整个网络中提供 GPU 之间的直接数据路径,从而进一步增强 GPU 之间的通信,从而实现对分布式训练算法至关重要的高效集合操作。这些库与 DOCA 以太网、DOCA RDMA 或 DOCA DMA 结合使用,创建了高性能网络基础,可以扩展到支持超过 10 万个 GPU 的部署。

传统的软件定义数据中心方法可能会消耗 30% 或更多的服务器 CPU 核心。通过 DOCA Flow 等库将这些功能卸载到 BlueField DPU,DOCA 在提供相当于 30 多个 CPU 核心的性能的同时,为 AI 计算释放了宝贵的 CPU 资源。DOCA Flow 库支持复杂的数据包处理和流管理,支持大规模 AI 工厂中复杂的流量模式。

适用于 AI 工作负载的多租户隔离

DOCA 架构通过其基于主机的网络服务提供了强大的隔离机制,确保来自不同租户的工作负载保持安全分离。此服务在租户环境之间实施硬件强制屏障,防止未经授权的访问,同时允许无缝 AI 执行。对于与其他应用一起运行敏感 AI 工作负载的云提供商和企业而言,此功能至关重要。

强大的威胁检测:实时保护 AI 工作负载

随着 AI 系统对业务运营的重要性与日俱增,保护它们免受威胁也变得至关重要。DOCA 释放了 BlueField DPU 和 SuperNIC 的网络安全潜力,实现了应用程序的快速创建和集成,可卸载和加速安全任务,包括加密、分布式防火墙、入侵检测和网络微分段。

通过结合使用 DOCA 库,NVIDIA 网络安全 AI 平台利用硬件级检查来深入了解网络流量和系统行为。与依赖软件代理的传统安全解决方案不同,BlueField DPU 充当嵌入式安全处理器,分流传统 CPU 的关键网络安全任务。这种方法允许在不影响系统性能的情况下进行实时监控和保护。

基于 DOCA 的安全应用程序可以:

  • 持续分析遥测数据,以识别潜在威胁的模式和异常
  • 通过 AI 驱动的异常检测提供实时威胁检测
  • 在升级为重大安全事件之前主动降低风险
  • 在 AI 组件之间实现强大的加密和安全通信通道

对于 AI 工作负载,这种安全架构具有显著优势。AI 模型和训练数据通常代表着宝贵的知识产权,成为攻击的主要目标。DOCA 支持机密计算功能,可保护部署在 NVIDIA BlackwellNVIDIA Hopper GPU 上的 AI 模型、算法和数据的机密性和完整性。

此外,DOCA 安全功能可应对 AI 驱动环境中 IT 和 OT 系统融合所产生的复杂威胁。通过提供硬件加速的安全功能,DOCA 可确保安全措施不会成为 AI 应用的性能瓶颈。

为新一代 AI 加速数据处理

数据处理是现代 AI 工作流面临的最大挑战之一。新一代 AI 模型需要前所未有的训练数据量,这给存储和网络基础设施带来了巨大压力。

DOCA 通过其全面的数据加速功能来应对这一挑战。该框架的数据路径加速器利用 BlueField-3 DPA 编程子系统提供编程模型,用于卸载以通信为中心的用户代码,以便在专用 DPA 处理器上运行。这种卸载功能可显著降低 CPU 开销,同时通过 DPU 加速提高性能。

此外,为了优化 AI 工作流中的数据压缩,DOCA 压缩库提供了硬件加速的压缩和解压缩功能。此功能可减少数据传输时间和存储需求,而不会增加 CPU 或 GPU 的计算负载。同样,DOCA Erasure 编码库提供弹性数据存储功能,对于保护宝贵的 AI 数据集至关重要。

DOCA Flow 库还解决了与现代 AI 工作流相关的挑战,通过 DOCA Flow 库实现了 AI 数据流水线的高性能网络,它提供了复杂的数据包处理功能,以优化整个网络中的数据移动。DOCA Rivermax 库通过提供高级功能来简化存储系统和计算节点之间的数据传输,从而进一步提高网络性能。

优化 AI 数据工作流的网络性能

DOCA 基于主机的网络 (HBN) 3.0 为无控制器 VPC 网络提供了惊人的可扩展性改进,支持高达 8K 的 VTEP 和 80K 的 Type-5 路由,并计划增加对 16K VTEP 等的支持。此外,DOCA 3.0 还为 HBN 引入了两项附加功能,包括:双向转发检测 (BFD) 支持 [GA],通过主动链路监控提供快速路由收,以及 ECMP 故障转移增强功能,通过更快的故障转移确保尽可能减少停机时间。

这些功能共同使 HBN 成为 bare metal 部署的理想选择,并使 AI 平台能够处理存储系统、计算节点和外部数据源之间的海量数据流。

对于 AI 开发者而言,DOCA 智能数据平台功能可转化为:

  • 降低训练和推理工作流的数据处理延迟
  • 提高数据密集型 AI 操作的吞吐量
  • 在计算和存储基础设施中更高效地利用资源
  • 支持用于视听 AI 应用的 IPMX 等新兴标准

增强的 DOCA FireFly 服务通过硬件加速带来了先进的时间同步功能,为分布式 AI 训练工作负载提供了必不可少的高精度同步。此功能可实现跨 GPU 集群的更高效协调,这对于大规模训练和模型并行等技术尤为重要。

由 DPU 驱动的无缝基础设施服务管理

现代 AI 基础设施的复杂性需要复杂的编排功能。DOCA 平台框架 (DPF) GA 适用于 DOCA 3.0 中的可信主机,将 Kubernetes 控制平面功能扩展到 DPU,使管理员能够部署和编排 NVIDIA DOCA 服务和第三方应用。

DOCA 服务是基于 DOCA 的容器化产品,封装在容器中,可在 BlueField DPU 上快速轻松地部署。这些服务利用 DPU 功能来提供遥测、时间同步、网络解决方案等,所有这些都可以通过 NGC 目录获得。

A diagrammatic representation of NVIDIA DPF and NVIDIA DOCA and how they interact with Kubernetes and NVIDIA NIMs microservices.

2DOCA 平台框架堆栈 (GA)

通过引入专用的辅助 Kubernetes 控制平面,DPF 使管理员能够高效管理部署在 BlueField DPU 上的 DOCA 服务。该框架简化了 DPU 管理的复杂性,使管理员能够与熟悉的 Kubernetes 结构进行交互。这种方法显著简化了 AI 基础设施服务的部署和运维。

DPF 服务的功能链功能可在单个 DPU 上集成加速网络、高性能数据服务、安全功能等多种服务。这种编排功能创建了一个灵活的多供应商生态系统,从而为 AI 应用提供加速网络服务。

实际部署展示了这种方法的切实优势。NVIDIA DOCA 平台框架与 Red Hat OpenShift 的集成已显示出显著的性能提升,RDMA 测试的平均带宽达到 383.72Gb/s。这种网络性能水平对于 LLM 等数据密集型 AI 工作负载至关重要。

对于 AI 平台运营商,DOCA 基础设施服务编排功能提供:

  • 简化复杂 AI 优化基础设施的部署和管理
  • 强大的生命周期管理,实现无缝的服务更新、扩展和回滚
  • 部署前验证,确保兼容性和需求得到满足
  • 实时监测和可调试性,确保高可靠性

加速并保护 NVIDIA NIM 微服务和 AI 工作负载

利用 DOCA 平台框架的先进编排功能、DOCA HBN、OVS-DOCA、DOCA SNAP Virtio-fs 以及最新服务 NVIDIA DOCA Argus 相结合,加速和保护 NVIDIA NIM 微服务和 AI 工作负载。这凸显了 DOCA 不断发展的价值,并让我们一窥未来解决方案将如何从框架中不断涌现。

DOCA Argus 是一个网络安全框架,旨在通过在 BlueField DPU 上提供无代理实时威胁检测来保护 AI 工厂。Argus 独立于主机系统运行,其攻击检测和响应速度比传统解决方案快 1000 倍,且不会影响性能。

它与企业安全系统无缝集成,提供持续监测和自动威胁缓解。Augus 利用先进的内存取证和可操作情报,经过优化,可大规模保护容器化和多租户 AI 工作负载。

DOCA Argus 与 OVS-DOCA 和 DOCA SNAP Virtio-fs 相结合,为 NVIDIA BlueField DPU 上的 AI 工作负载形成了创新的安全解决方案,解决了不同的基础设施层问题,同时实现了跨组件威胁缓解。

3:使用 DOCA 3.0 加速并保护 NIM 微服务和 AI 工作负载

DOCA Argus (计算层) 通过 DPU 级内存和进程分析监测 AI 工作负载,并依赖 OVS-DOCA 卸载和隔离网络流量 (网络层) 。同时,DOCA SNAP Virtio-fs (存储层) 通过 DPU 模拟的 Virtio 设备虚拟化文件系统访问,将存储 IO 与主机内核隔离开来,并为 Argus 提供异常访问模式的审计日志。

该集成框架将安全性嵌入到计算层、网络层和存储层中,为 NIM 微服务实现亚毫秒级威胁响应,同时保持容器化 AI 流水线的可扩展性。

开始使用 DOCA 3.0

随着 AI 持续变革各行各业,支撑其发展的基础设施必须随之发展。NVIDIA DOCA 框架代表着开发者构建和部署 AI 平台方式的根本性转变,并通过其全面的库和服务提供前所未有的性能、安全性和效率。

DOCA SDK 围绕不同的 DOCA 库构建,旨在充分利用 BlueField DPU 的功能。借助 20 多个专用库,开发者可以通过强大的工具包来构建优化的 AI 基础设施。

DOCA 服务通过为特定用例提供容器化解决方案来补充这些库。您可以通过 NGC 目录(例如 DOCA 和 DPU)来找到它们。这种容器化方法可以快速部署并简化对 AI 运营至关重要的基础设施组件的管理。

DOCA 还在持续演进,定期更新框架并推出新功能,确保开发者能够始终处于 AI 基础设施创新的前沿。目前已有成千上万的开发者在使用 DOCA,其生态系统继续发展壮大,为 AI 应用开发带来了新的可能。

对于希望构建下一代 AI 平台的开发者,NVIDIA DOCA 提供了全面的工具包,帮助他们充分发挥 BlueField DPU 和 Connect-X SuperNIC 的潜力,以创建可以扩展的基础设施来满足未来 AI 工作负载需求。通过采用 DOCA,企业站在 AI 基础设施创新的前沿,为 AI 发展的新纪元做好准备。

NVIDIA DOCA 3.0 标志着 AI 计算网络架构和云计算基础设施的重大进步。立即下载 NVIDIA DOCA,开启您的开发之旅,享受 DOCA 提供的一切优势。

标签