使用英特尔流式SIMD扩展优化动画模型的渲染流水线

随随便便123

已于 2025-07-07 15:08:20 修改

阅读量869

点赞数

CC 4.0 BY-SA版权

分类专栏： doom3 文章标签： 3d 图形代码分析 doom3 simd

于 2017-05-20 13:43:37 首次发布

本文链接：https://blog.csdn.net/tailiangliang/article/details/72575423

doom3 专栏收录该内容

21 篇文章

订阅专栏

使用英特尔流式 SIMD 扩展优化动画模型的渲染流水线

作者JMP van Waveren， Id Software，Inc.

原文名称 Optimizing the Rendering Pipeline of Animated Models Using the Intel Streaming SIMD Extensions

介绍

以下文章描述了渲染管道中使用的各个例程，以及如何使用英特尔Streaming SIMD扩展进行优化。

今天的大部分电脑游戏都带有实时照明和阴影的动画多边形模型。电脑游戏DOOM * III（2004年8月）和Quake * 4（2005年10月）也不例外。两台电脑游戏都使用骨架动画系统。通常被称为“皮肤”的多边形网格连续地改变形状，其中底层结构通常被称为“骨架”。通过动画化骨骼，皮肤被转化。将皮肤转变的过程称为“剥皮”。两个游戏也使用阴影卷定义在遮挡物阴影的空间中的区域。阴影体积由包含多边形封堵器阴影的体积的多边形边界表示定义。

以下文章概述了SIMD优化的动画模型渲染流水线，其性能与电脑游戏DOOM III中使用的性能相当。

这个改进的渲染流水线在计算机游戏Quake 4中实现。大部分渲染流水线在CPU上运行，而管道中的几个步骤可以运行在当今许多显卡上可用的GPU上。

然而，在CPU上运行大部分管道可以提高广泛系统的兼容性。

较旧的系统可能具有不支持在GPU上执行动画和蒙皮的必要功能的图形卡

（如GeForce2和GeForce4MX）。

允许在GPU上进行皮肤化的显卡可能具有将大型骨架模型细分为多个网格的限制，

从而降低效率。

此外，需要后变换的皮肤来构建阴影卷，

并且当前的图形卡在处理之后不允许检索此数据。

阴影体积结构可以完全卸载到GPU，

但是如果闭塞器具有高三角形数量或者如果有大量阴影投射光源，

则这可能无法提高性能。

由于这些原因，电脑游戏DOOM III和Quake 4运行CPU上的大部分管道，

允许游戏在各种系统配置下运行。

此外，在CPU上运行的流水线几乎没有任何限制，

SIMD优化使得流水线与（部分）GPU实现相竞争。

渲染管道可以细分为四个一般阶段。

这些阶段是动画，皮肤，阴影体积建设和裁剪和光栅化。下图显示了这些阶段为大型浅灰色块。每个阶段被细分为更小的步骤，其中处理的数据以倾斜框显示，并且处理该数据的例程显示在较暗的灰色框中。这些框的黑色角落中的数字对应于底部描述例程的文章以及如何使用英特尔Streaming SIMD扩展进行优化。

动画系统可以混合一个或多个动画。在上图中仅显示了两个动画，

但是可以将更多的动画混合在一起以产生复杂的运动混合。

动画是一系列动画帧。

每个动画框架将骨架的姿态定义为使用四元数描述方位的关节位置和方向的列表。

关节的位置和方向与骨骼层次结构中关节的父母相关。

点击图片查看大图。

系统从动画中抽取时间t0和t1的两帧，使得当前时间在t0和t1之间。

然后系统在这两个帧之间进行插值，以获得当前时间的骨架姿势。

然后将正在播放的所有动画的内插帧混合在一起以获得骨架的最终姿态。

接下来，将关节位置和四元数变换为3×4矩阵。

此外，联合矩阵用其父母的联合矩阵进行变换，以在模型空间中创建骨架。

点击图片查看大图。（图片请参照原文........）

模型空间中的骨架用于为通常称为蒙皮的三角形网格生成动画。

基于三角形网格是用于渲染还是仅用于创建阴影卷或进行碰撞检测，

系统可以决定最佳的剥皮方法。

如果模型没有使用漫反射，法线和法线贴图，

则通常不需要在顶点位置计算正态和切线矢量。

如果不需要，可以通过不动画化和计算这些附加顶点属性来节省时间。

确定计算正态和切向矢量的剥皮方法要求将骨架的关节进行变形，

使得它们相对于被变换以创建动画网格的基础姿势的关节。

点击图片查看大图。在下一阶段，为与三角形网格相互作用的每个光源构建阴影体。

阴影体定义空间中具有附加几何的对象空间中遮挡物阴影的空间区域。

可以为点光源，聚光灯和定向光源构建阴影卷，

并始终产生像素精确但硬的阴影。

在构造任何阴影卷之前，需要导出三角形网格中三角形的平面方程。

这些平面方程用于找到面向或远离光源的三角形，并确定几何图形的阴影轮廓边缘。

这样的轮廓边缘是点燃和未点燃三角形之间的边界。

点击图片查看大图。在最后一个阶段，

通常在GPU上运行，三角形网格和阴影体被裁剪和光栅化。

阴影体被渲染到模板缓冲区，

当在屏幕上渲染三角形网格以确定哪些像素处于阴影时被查询。

要确定空间中三角形网格的阴影区域，

模板缓冲区首先被清除为全零。

然后用适当的深度测试将三角形网格的阴影卷呈现到模板缓冲区。

前面的阴影体积三角形增量和背面三角形减少模板缓冲区像素。

现在在阴影中考虑了具有不等于零的模板缓冲区值的像素。

下表显示了在渲染管道中使用的所有SIMD优化例程的概述。

该表显示了90nm技术上的Intel®Pentium®4处理器上的例程的热缓存时钟周期计数。

将例程的加速因子与执行相同计算的C / C ++中的参考实现进行比较。