术语表

TPU(张量处理单元)

了解张量处理单元 (TPU) 如何以无与伦比的效率加速机器学习任务,如训练、推理和对象检测。

张量处理单元(Tensor Processing Unit,简称 TPU)是谷歌专为机器学习(ML)和深度学习工作负载开发的一种定制硬件加速器。这些专用集成电路(ASIC)旨在显著加快张量和矩阵计算的速度,而张量和矩阵计算是训练和运行神经网络的基础。TPU 可为大规模机器学习任务提供高性能和高能效,是现代人工智能基础设施的重要组成部分。

热塑性聚氨酯的工作原理

TPU 专为处理人工智能模型所需的大量计算而设计。其架构针对神经网络的核心数学运算:矩阵乘法进行了高度优化。与通用处理器不同,TPU 专注于高吞吐量、低精度的算术运算,非常适合深度学习模型的性质。通过并行处理大量数据,TPU 可以显著缩短模型训练实时推理所需的时间。它们通常通过谷歌云平台访问,并与TensorFlowPyTorch 等 ML 框架紧密集成。

实际应用

TPU 在为当今一些要求最苛刻的人工智能应用提供动力方面功不可没。

  1. 训练大型语言模型 (LLM):谷歌使用被称为 TPU Pod 的大型 TPU 集群来训练其最先进的基础模型,包括其搜索引擎和 Gemini 等对话式人工智能背后的模型。TPU Pods 的大规模并行计算能力使其能够在其他硬件所需的一小部分时间内,训练出拥有数万亿参数的模型。
  2. 为谷歌服务提供动力:TPU 用于谷歌众多产品的推理。例如,在谷歌照片中,TPU 可实现快速图像识别,搜索人物、物体和场景。同样,它们还为谷歌翻译中的实时翻译提供动力,并用于谷歌助手中的语音识别。DeepMind 还使用 TPU 训练人工智能 AlphaGo,该人工智能击败了世界顶级围棋选手,并因此而闻名。

TPU vs GPU vs CPU

虽然 TPU、GPU 和 CPU 都是处理器,但它们的设计目的却截然不同。

  • CPU(中央处理器)计算机的 "大脑",专为通用任务而设计。中央处理器擅长按顺序处理各种指令,因此对于运行操作系统和标准软件至关重要,但对于人工智能中的大规模并行计算,其效率较低。
  • 图形处理器(GPU)图形处理器最初是为渲染图形而设计的,其架构包含数千个内核,在并行处理方面非常有效。英伟达(NVIDIA)和AMD等公司的 GPU 在性能和灵活性之间取得了很好的平衡,因此在Ultralytics YOLO11 等训练模型中很受欢迎。
  • TPU: 谷歌专为神经网络工作负载设计的高度专业化加速器。在一般计算中,TPU 的灵活性不如 GPU,但在大规模张量运算中,TPU 的每瓦性能却非常出色。这使其成为大规模模型部署和训练的绝佳选择,尤其是在使用谷歌的云生态系统时。

图形处理器在 Ultralytics 生态系统中的作用

Ultralytics 用户可以利用 TPU 加速计算机视觉项目。模型可以导出为与 TPU 兼容的格式,如用于谷歌边缘 TPU 的 TensorFlow Lite。这样就可以在Coral Dev Board边缘设备上高效部署。对于大规模训练工作,Ultralytics HUB等平台可以在各种云计算资源上协调训练,使用户能够利用 TPU 的强大功能来处理自定义数据集。这种集成促进了从培训到部署和监控的整个MLOps 生命周期

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板