加速图像处理的神器: INTEL ISPC 编译器迁移图像旋转算法 - 从 ISPC双精度到 ISPC单精度 (四)

最新推荐文章于 2025-03-20 13:40:57 发布

帅的发光发亮

最新推荐文章于 2025-03-20 13:40:57 发布

阅读量1.8w

点赞数 6

CC 4.0 BY-SA版权

分类专栏： ISPC 文章标签：编译器深度学习数据挖掘算法

本文链接：https://blog.csdn.net/weixin_44501699/article/details/116599164

ISPC 专栏收录该内容

7 篇文章

订阅专栏

本文探讨了将ISPC双精度计算转换为单精度计算的方法，并对比了性能提升。通过实验发现，在不进行额外内存访问优化的情况下，单精度计算使性能提升了1.5倍。

前面把原始的C代码转成了ISPC可编译的C代码，其中image_rotate_double_ispc函数里面的数据都是基于double双精度来运算的。我的电脑是支持AVX/AVX2指令集的，所以一次可以并发做4个double浮点的运算，理论上可以提升4倍的算力。

在这里插入图片描述

通过ISPC的编译，实际获得了3.74X倍的性能加速。

从上图YMM寄存器的宽度和浮点数据的宽度来看，YMM寄存器可以一次做8个单精float型数据的计算。这次就来试试把image_rotate_double_ispc函数里面的计算全部改为单精浮点运算，看看性能有多少提升。

代码改动

把所有的double替换成float
定义float常量的后缀是f, 定义double常量的后缀是d

#define M_PI_F 3.1415926535f
 
export void image_rotate_float_ispc(uniform const uint8 srcImg[], uniform uint8 dstImg[], uniform float center_x,uniform float center_y, uniform int Width, uniform int Height, uniform float RotateDegree)
{
	uniform float angle = (float)RotateDegree*M_PI_F / 180.0;
	uniform float alpha = cos(angle);
	uniform float beta = sin(angle);
	uniform float m[6];
 
	m[0] = alpha;
	m[1] = -beta;
	m[2] = (1.0 - alpha) * (float)center_x + beta * (float)center_y ;
	m[3] = beta;
	m[4] = alpha;
	m[5] = (1.0 - alpha) * (float)center_y - beta * (float)center_x;
 
	for (uniform int row = 0; row < Height; row++)
		foreach (col = 0 ... Width) {
			float x, y;
			int leftX, rightX, topY, bottomY;
			float w00, w01, w10, w11;
			float fxy;
 
			x = m[0] * (float)col + m[1] * (float)row + m[2];
			y = m[3] * (float)col + m[4] * (float)row + m[5];
 
			leftX = floor(x);
			topY = floor(y);
			rightX = leftX + 1.0;
			bottomY = topY + 1.0;
 
			w11 = abs(x - leftX)*abs(y - topY);
			w01 = abs(1.0 - (x - leftX))*abs(y - topY);
			w10 = abs(x - leftX)*abs(1 - (y - topY));
			w00 = abs(1.0 - (x - leftX))*abs(1.0 - (y - topY));
 
			if ((int)leftX >= 0 && (int)rightX < Width && (int)topY >= 0 && (int)bottomY < Height) {
				fxy = (float)srcImg[topY*Width+ leftX]*w00 +    
					  (float)srcImg[bottomY*Width+ leftX]*w01 +
					  (float)srcImg[topY*Width+ rightX]*w10 + 
					  (float)srcImg[bottomY*Width+ rightX]*w11;
 
				fxy = round(fxy);
				if (fxy < 0)
					fxy = 0;
				if (fxy > 255)
					fxy = 255;
 
				dstImg[row*Width+ col] = (uint8)(fxy);
			}
			else
				dstImg[row*Width + col] = 0;
		};
};