自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(725)
  • 资源 (28)
  • 收藏
  • 关注

原创 精通 triton 使用 MLIR 的源码逻辑 - 第002节:再掌握一些 triton 语法 — 通过 02 softmax

为,Softmax 函数的。

2025-07-18 12:31:58 694 1

原创 精通 triton 使用 MLIR 的源码逻辑 - 第001节:triton 的应用简介

OpenAI Triton 是一个开源的编程语言和编译器,旨在简化 GPU 高性能计算(HPC) 的开发,特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码,又不必过度关注底层硬件细节。这样,通过简化高性能计算,可以加速新算法的实现和实验。传统 GPU 编程(如 CUDA)需要深入理解硬件架构和复杂的优化技术,而 Triton 旨在提供更高层次的抽象,降低开发门槛,但是设计 triton 语言及其编译器本身,门槛却非常高。

2025-07-17 12:18:45 610

原创 使用 pdb 来 debug 调试 python 程序

使用 pdb(Python Debugger)是 python 自带的,即内置的调试工具。调试 Python 源代码时,掌握基础命令和高级技巧可以大幅提高调试效率。以下是 全面的技术总结和高级技巧,涵盖从基础到进阶的调试方法。被调试源码:a.py。

2025-07-15 18:46:58 885

原创 cuDNN 的 IMPLICIT_GEMM 算法

cuDNN 的 IMPLICIT_GEMM 是一种高效的卷积计算方法,它通过 隐式索引计算 避免了显式数据展开(im2col),从而减少内存占用和带宽需求。其核心优化包括:共享内存缓存寄存器优化向量化加载Tensor Core 加速(在支持的情况下)它特别适合 小/中 batch 的卷积计算,而大 batch 场景可能更适合显式 GEMM 或 Winograd 算法。YXWX。

2025-07-12 21:37:47 977

原创 全文 -- Triton: An Intermediate Language and Compiler forTiled Neural Network Computations

在深度学习领域,新研究理念的验证与应用常常受到限制,原因在于某些基础原语缺乏高效的计算核心。特别是,那些无法利用现有供应商库(如 cuBLAS、cuDNN)的操作,除非由专家编写自定义实现,否则往往面临设备利用率低下的问题 —— 而这通常会以牺牲可移植性为代价。因此,开发新的编程抽象以最低的性能成本来指定自定义深度学习工作负载变得至关重要。我们提出了 Triton,这是一种围绕 “tile(瓦片)” 概念构建的语言和编译器,其中 “ tile” 指的是静态形状的多维子数组。

2025-07-12 18:41:27 561

原创 第九章:缓存一致性的高级题目 A Primer on Memory Consistency and Cache Coherence - 2nd Edition

在第 7 章和第 8 章中,我们在最简单的系统模型背景下介绍了窥探式(snooping)和目录式(directory)一致性协议,这些模型足以解释这些协议的基本问题。在本章中,我们将从多个方向扩展对一致性的阐述。在 9.1 节中,我们将讨论为更复杂的系统模型设计一致性协议所涉及的问题。在 9.2 节中,我们将描述适用于窥探式和目录式协议的优化方法。在 9.3 节中,我们将解释如何确保一致性协议保持活性(即避免死锁、活锁和饥饿)。

2025-07-09 14:32:46 639

原创 cutlass v2.0.0 简介 01 -- 编译,测试,简单分析源码

因为 cutlass 2.0.0 版本相对简单一些,这里先分析 这个版本。

2025-07-03 18:57:24 687

原创 LaTeX 常用宏包(数学论文场景)

在撰写数学论文时,合适的宏包能大幅提升公式排版效率与专业性。

2025-06-30 20:41:03 641

原创 快速傅里叶变换 FFT

这次使用化简友好的书写格式,DFT 的定义式为:其中:(旋转因子,Twiddle Factor)直接计算 DFT 需要次复数乘法和加法,计算量较大。FFT 步骤操作1. 分治分解 将 N-点 DFT 分解为 2 个 N/2-点 DFT(奇偶分离)2. 递归计算 对更小的 DFT 继续分解,直到 N = 13. 对称合并 利用减少计算量4. 最终结果 通过逐层合并,得到完整的 DFT 频谱FFT 的优势计算复杂度从降到,适用于实时信号处理。

2025-06-30 16:28:41 818

原创 DFT 离散傅立叶变换的分析

虽然上一篇写过了,为了方便阅读,这里再次给出 DFT 的定义:对于长度为 N 的离散序列,其DFT定义为:其中:是频域中的第 k 个频率分量。是正交基函数,表示离散频率的复指数。逆离散傅立叶变换(IDFT)为:这里的index k 和 n 沿用了信号处理中的符号传统。的角色:在DFT中通常隐含归一化(),但实际物理系统中需通过还原频率单位。频率覆盖范围:DFT 的频率范围是,但由于周期性,通常仅显示(避免混叠)。归一化角频率覆盖 0 到。

2025-06-30 15:16:24 414

原创 从傅立叶级数到傅里叶变换和离散傅里叶变换及其逆变换:FS FT DFT IDFT

通过数学分析的学习,我们都知道,宽至满足 Dirichlet 条件的周期函数,都可以分解展开成为傅里叶级数FS;通过欧拉公式和其推导,可以将 FS 扩展为 傅里叶变换 FT。但是,教材可能不会主动讲解可以FS的函数,与可以FT 的函数之间的区别。通过离散傅里叶变换(DFT)及其逆变换(IDFT)定义和实例,可以更好地体会其公式中各个参数的细节和意义。离散傅里叶变换(DFT)对于长度为 N 的离散序列(其中),其逆离散傅里叶变换(IDFT)对于 DFT 结果,其。

2025-06-28 21:36:19 937 1

原创 Ubuntu 下降 Linux Kernel 的版本备忘

此处以 ubuntu 22.04 为示例系统,来降低其 Linux kernel 的版本。

2025-06-26 18:13:28 552

原创 从 RSA 公钥体系原理 引出量子计算

RSA(Rivest-Shamir-Adleman)是一种非对称加密算法,使用公钥加密、私钥解密,或者私钥签名、公钥验签。预计算攻击(Precomputation Attack),即预先计算大量大整数的质因数分解并存储,然后在破解 RSA 时直接查询。2048-bit RSA:n 是 2048 位(约 617 位十进制数),p 和 q 各约 1024 位。4096-bit RSA:n 是 4096 位,p 和 q 各约 2048 位。2048-bit RSA(推荐),4096-bit(更高安全需求)。

2025-06-26 17:17:17 866

原创 量子隐形传态(Quantum Teleportation)协议中整个过程需要操作几遍?

在 Alice 和 Bob 的量子隐形传态过程中,2nd 和 3rd 粒子先量子纠缠,将 2nd 粒子发给 Alice,将 3rd 粒子发给 Bob。Alice 处,1st 和 2nd 粒子再发生量子纠缠,产生纠缠交换。然后 Alice 测量 1st 和 2nd 的纠缠态,并通过经典信道将测量结果传送给 Bob。最后,Bob 测量 3rd 粒子的量子态。结合 1st 和 2nd 粒子的纠缠态,可以推得 1st 粒子最初的量子态。

2025-06-25 17:59:11 322

原创 MPI 进程同步最佳实践

MPI 提供了多种同步方式,主要分为:显式同步(如 MPI_Barrier)隐式同步(如 MPI_Send/MPI_Recv 的阻塞通信)集合通信(如 MPI_Bcast, MPI_Reduce)

2025-06-24 15:57:11 446

原创 第八章 目录一致性协议 A Primer on Memory Consistency and Cache Coherence - 2nd Edition

目录协议的核心创新在于建立一个目录,用于维护每个块的一致性状态的全局视图。目录跟踪哪些缓存持有每个块以及块的状态。想要发出一致性请求(如 GetS)的缓存控制器会将请求直接发送到目录(即单播消息),目录查询块的状态以确定后续操作。例如,目录状态可能表明请求的块由核心 C2 的缓存拥有,因此请求应转发给 C2(如使用新的 Fwd-GetS 请求)以获取块的副本。当 C2 的缓存控制器收到转发请求时,会向请求缓存控制器单播响应。对比目录协议和窥探协议的基本操作具有启发性。

2025-06-22 20:45:37 682

原创 量子叠加,量子相干,Rabi 震荡,能量量子化,量子纠缠,量子行走问题汇总

是量子计算的。

2025-06-21 21:23:12 484

原创 从内网其他机器复制 docker image

在内网中,将 docker 镜像从一个机器拷贝到另一个机器,需要三个步骤:先导出保存为tar文件,然后使用scp 传输,最后在目标机上导入,具体如下。

2025-06-19 10:26:21 197

原创 python 的 c 语言扩展 入门小示例

Python扩展模块可以看作是一个用C或C++编写的动态链接库(DLL)或共享对象(SO),它实现了一些Python对象和函数,这些对象和函数可以在Python程序中像其他Python对象和函数一样使用。如果精通 C 语言编程,那么向 Python 添加新的内置模块是相当容易的。,以及。本文给一个简单示例,调用了 libc 库函数中的两个数学函数:sin,cos。为了支持扩展,Python API(应用程序编程接口)定义了一组函数、宏和变量,这些接口提供了对 Python 运行时系统大部分功能的访问。

2025-06-17 12:47:39 906

原创 用 C 或 C++ 扩展 Python —— Extending Python with C or C++

这些接口提供了对。

2025-06-16 17:48:11 873

原创 从源码安装 python 3.12 步骤

建议通过 update-alternatives 管理多版本,而非直接替换系统 Python。确保使用 sudo 或指定用户可写的 --prefix(如 $HOME/.local)。安装依赖时遗漏 libffi-dev,重新安装后重新编译。(或者将 3.12.0 替换为自己需要的版本号):生成共享库(.so 文件,供其他程序链接)。如果安装了多个 python,可以选择当前版本。=install:包含 pip 工具。:启用优化(会延长编译时间)。

2025-06-16 15:53:42 617

原创 在 cuda 基础环境中安装完整的cupy

cd nccl/cd cupygit branchgit branch。

2025-06-13 17:58:07 998

原创 apt 国内源 ubuntu 24.0x ,22.04,20.04 备忘

【代码】apt 国内源 ubuntu 24.0x ,22.04,20.04 备忘。

2025-06-13 12:42:07 206

原创 第七章 监听一致性协议 A Primer on Memory Consistency and Cache Coherence - 2nd Edition

监听协议基于一个核心思想:所有一致性控制器以相同顺序 “监听”(snoop)一致性请求,并协同 “执行正确操作” 以维护一致性。通过要求发往同一缓存块的请求按顺序到达,监听系统使分布式一致性控制器能够正确更新代表缓存块状态的有限状态机。传统监听协议将请求广播到所有一致性控制器(包括发起请求的控制器),请求通常通过有序广播网络(如总线)传输。有序广播确保所有控制器以相同顺序观察到一系列请求,即请求具有全局顺序。由于全局顺序涵盖了每个块的顺序,这保证了所有控制器能正确更新缓存块状态。

2025-06-07 18:58:10 979

原创 第六章 缓存一致性协议 A Primer on Memory Consistency and Cache Coherence - 2nd Edition

如 6.1 节所述,一致性协议设计者必须为系统中每种类型的一致性控制器选择状态、事务、事件和状态转移逻辑。稳定状态的选择在很大程度上与协议的其他部分无关。例如,存在监听(snooping)和目录(directory)两类不同的一致性协议,架构师可以使用相同的稳定状态集合设计监听协议或目录协议。我们将在 6.4.1 节独立于具体协议讨论稳定状态。类似地,事务的选择也基本独立于特定协议,相关内容在 6.4.2 节讨论。

2025-06-03 13:34:09 1098

原创 业界宽松内存模型的不统一而导致的软件问题, gcc, linux kernel, JVM

而且,验证工具需配置不同的内存模型参数。综上,内存模型的分裂导致开发者必须在性能、正确性和可移植性之间做出艰难权衡,而统一的标准化的内存模型(如 RISC-V 的 WMO 或 C++ 的内存模型)是减少这类问题的关键。难点2,内存屏障下降时的指令选择上,std::memory_order_seq_cst 在 x86 可能仅需 MFENCE,而在 ARM 上需要 DMB SY。具体来说,例如,在x86上可以安全删除冗余的LOAD指令(因TSO保证),但在ARM上做同样的删除就有可能导致读取到陈旧数据。

2025-05-31 17:53:34 1192

原创 备忘一个简单的脚本

【代码】备忘一个简单的脚本。

2025-05-30 11:10:50 115

原创 第五章 宽松内存一致性模型 A Primer on Memory Consistency and Cache Coherence - 2nd Edition

此处我们采用与前两章一致的符号和方法形式化定义 XC。仍用 L (a) 和 S (a) 分别表示对地址 a 的加载和存储操作,顺序 < p 和 < m 分别定义单处理器程序顺序和全局内存顺序。程序顺序 < p 是单处理器全序,描述每个核心逻辑上(顺序)执行内存操作的顺序;全局内存顺序 < m 是所有核心内存操作的全序。

2025-05-28 18:14:08 1043

原创 第四章 总存储序与 x86 内存模型 A Primer on Memory Consistency and Cache Coherence - 2nd Edition

TSO 执行需满足以下条件:程序顺序约束所有核心必须按程序顺序<p将其加载和存储操作插入全局内存顺序<m中,无论操作是否针对同一地址(即 a==b 或 a≠b)。若 L (a) <p L (b),则 L (a) <m L (b) /* 加载→加载 */若 L (a) <p S (b),则 L (a) <m S (b) /* 加载→存储 */若 S (a) <p S (b),则 S (a) <m S (b) /* 存储→存储 */

2025-05-22 10:09:52 739

原创 gcc 源码目录文件夹功能简介

将 libstdc++.so 和头文件安装到系统目录(如 /usr/lib/ 和 /usr/include/c++/)。)的实现,它是 GCC 的一部分,负责提供 C++ 标准(如 C++11/14/17/20/23)的核心功能(如。bits/:标准库的核心实现(如 std::vector、std::string 的具体实现)。c++20/:C++20 新特性的实现(如 std::format, std::span)。c++17/:C++17 新特性的实现(如 std::filesystem)。

2025-05-17 15:08:28 1010

原创 GCC 版本与C++ 标准对应关系

该版本 GCC 不提供该标准的支持。:部分特性可能缺失或存在 Bug。:该标准的所有主要特性均已实现。

2025-05-16 17:20:24 638

原创 scons user 3.1.2

SCons 是一款下一代软件构建工具,或者称为 make 工具,即一种用于构建软件(或其他文件)并在底层输入文件发生更改时使已构建的软件保持最新状态的软件实用程序。SCons 最显著的特点是其配置文件实际上是用 Python 编程语言编写的脚本。这与大多数其他构建工具形成鲜明对比,后者通常会发明一种新语言来配置构建过程。当然,学习 SCons 仍然需要一定的过程,因为您必须知道调用哪些函数才能正确设置构建过程,但对于任何看过 Python 脚本的人来说,所使用的底层语法应该是熟悉的。

2025-05-14 19:56:05 737

原创 MacOS 上构建 gem5

MacOS 中只存在 python3,但是scons 只认 python,不在 系统中创建 软连接,一个是因为比较难操作;另一个是尽量不要更改系统。

2025-05-12 14:00:10 422

原创 第三章:内存一致性的动机与顺序一致性 A Primer on Memory Consistency and Cache Coherence - 2nd Edition

上一小节中的示例说明了共享内存行为很微妙,这凸显了精确定义以下两点的重要性:(a) 程序员可以期望的行为;(b) 系统实现者可以使用的优化。内存一致性模型消除了这些问题的歧义。内存一致性模型,或更简单地说,内存模型,是对使用共享内存执行的多线程程序的允许行为的规范。对于使用特定输入数据执行的多线程程序,它指定了动态加载操作可能返回的值。与单线程执行不同,多线程执行通常允许多种正确的行为。

2025-05-09 01:53:08 935

原创 全文 AMD GPGPU 通信问题 - Understanding Data Movement in AMD Multi-GPU Systems with Infinity Fabric

现代 GPU 系统在不断发展,以满足科学和机器学习领域中计算密集型应用的需求。然而,硬件性能与实际应用中可实现的性能之间通常存在差距。这项工作旨在更深入地了解 AMD GPU 和 CPU 上的 Infinity Fabric 互连技术。我们提出了一种测试和评估方法,用于描述多 GPU 系统上数据传输的性能,重点研究 AMD MI250X GPU 上的不同通信方式,包括点对点通信和集合通信,以及 GPU 之间和主机 CPU 的内存分配策略。

2025-05-05 01:47:31 1162

原创 学习方法讨论——正论科举精神的内核

世界不存在绝对的善,也不存在绝对的恶,可以尝试举例;再者,物极必反,当对一个事情的批判一面倒的否定之时,可能需要开始思考它正面的部分。

2025-05-04 18:33:11 897 3

原创 第二章:一致性基础 A Primer on Memory Consistency and Cache Coherence - 2nd Edition

我们偏好的一致性定义是从实现的角度来定义它的 —— 指定了关于不同核心对内存位置的访问权限以及核心之间传递的数据值的硬件强制不变量。还存在另一类从程序员的角度来定义一致性的定义,类似于内存一致性模型如何指定从体系结构上可见的加载和存储操作的顺序。一种类似一致性的指定一致性的方法与顺序一致性的定义相关。顺序一致性(SC)是我们将在第 3 章深入讨论的一种内存一致性模型,它规定系统必须以一种尊重每个线程的程序顺序的全序方式来执行所有线程对所有内存位置的加载和存储操作。

2025-05-03 20:33:05 1047

原创 第一章:A Primer on Memory Consistency and Cache Coherence - 2nd Edition

这本入门读物的第二版与近十年前(2011 年)出版的第一版有所不同,主要是新增了两章内容,并且做了一些小的改动。新增的第 10 章讨论了非 CPU 加速器方面的前沿研究成果,主要是通用图形处理器(GPU),这类加速器通常将一致性和缓存一致性结合起来实现。新增的第 11 章介绍了自这本入门读物第一版发行以来在一致性和缓存一致性方面取得重大进展的形式化研究工作和工具。其他改动相对较小,包括以下内容:第 2 章扩展了缓存一致性的定义,纳入了与第 10 章中类似 GPU 的解决方案;

2025-05-02 21:19:03 1040

原创 cmake 构建未内建新语言项目,以cuda示例

pk.hpk.cumain.cppCMakeLists.txt3,编译运行

2025-04-30 15:41:01 264

原创 scons 基本示例介绍

SConstruct编译:scons清理:scons -c。

2025-04-29 02:18:47 265

能通过一张照片(2D)得到3D的模型吗

能通过一张照片(2D)得到3D的模型吗

2017-06-30

NS基础与安装---NS2 是一款开放源代码的网络仿真软件

NS2 是一款开放源代码的网络仿真软件,最初由UC Berkeley 开发而成。他最初为了研 究大规模网络以及当前和未来的网络协议交互行为而开发。它为有线和无线网络上的TCP、 路由和多播等协议的仿真提供了强有力的支持。

2008-11-05

bootia32.efi

ubuntu遇到32位EFI UEFI。如果安装ubuntu时提醒找不到bootia32.efi,那么将此文件放入U盘的/EFI/BOOT/中。会发现其中只有**64.efi

2018-04-07

麒麟使用手册_国产LINUX操作系统

麒麟(kylin)是第一款国产操作系统,这里是它的使用手册内容介绍详尽,200多页的pdf

2007-06-02

tbb2017_20170226oss_win.zip

tbb2017年最新版64bit,分数怎么自动跳到了50分了呀,还需要手动改正过来。是为了给其他tbb资源一些机会么?那也挺好的,可以都积累一些分数,方便互相下载

2017-03-22

chisel官方教程20201010版本.7z

资源许可证允许自由传播、修改,甚至是商业用途。 许可证网址: https://creativecommons.org/licenses/by-sa/4.0/ Share — copy and redistribute the material in any medium or format 因此可以放心自由使用

2020-10-11

带几何解释的线性代数讲义

带几何解释的线性代数讲义,讲解了解析几何以及线性代数工具下的几何定义,几何意义扩展线索下的代数定义,Euclidean Space,酉空间定义,正定矩阵的定义

2020-12-02

英中双语版_flex与bison_pdf.7z

Flex and bison are tools designed for writers of compilers and interpreters, although they are also useful for many applications that will interest noncompiler writers. Any application that looks for patterns in its input or has an input or command language is a good candidate for flex and bison.

2020-11-03

Digital Design With Chisel_20201010edition.7z

资源许可证书:可以自由传播、改变、甚至是商业用途。 https://creativecommons.org/licenses/by-sa/4. Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) This is a human-readable summary of (and not a substitute for) the license. Disclaimer. You are free to: Share — copy and redistribute the material in any medium or format

2020-10-11

libQGLViewer-2.6.3.zip

这个版本有些难找,所以挂在这里。请先尝试网络下载。用于cgal开发所用,其他版本的没有编译通过。cgal

2017-09-28

龙书DirectX9.0\3D游戏开发编程基础 源代码 d3dUtility.cpp

代码是全的,d3dUtility.cpp等全套书的所有c++源码

2016-11-22

llvm_cookb_LLVM_IR骨架语法领进门资料.7z

llvm cook学习资料——LLVM IR语言核心概念入门 核心内容汇总,基本应用命令入门,先用再分析,然后才能进一步结合编译原理看llvm编译器clang的实现代码。

2021-04-25

python27_d.lib python27_d.dll python27_d.pdb

从Python2.7.13源码 手工编译的 python27_d.lib python27_d.dll python27_d.pdb,vs2015 win10 64bit,因为vtk支持python的需要。本想免费,但至少要填1分。

2017-09-13

automata theory language.7z

automata理论资料,内容详实,解决了编程语言的设计,编译器的开发,自然语言语言翻译理论,习题链接,

2021-04-24

FIRRTL_spec_2020Oct_EditionPDF.7z

The ideas for FIRRTL (Flexible Intermediate Representation for RTL) originated from work on Chisel, a hardware description language (HDL) embedded in Scala used for writing highly-parameterized circuit design generators.

2020-10-19

Downloads.7z

SystemC from the Ground up (2nd edition) pdf and examples source code

2020-07-18

linux动态链接机制研究及应用

linux动态链接机制研究及应用 一篇科技论文,专注与linux内核机制

2008-11-04

Downloads.zip

B3 和 B4 两个版本 WISHBONE System-on-Chip (SoC)Interconnection Architecturefor Portable IP Cores Brought to You By OpenCores

2020-07-21

CImg 2.0.5_pre092517

cimg.h 这个头文件在里面,以前对这个lib不熟悉,由于CGAL的原因才用到的。

2017-09-28

基于OODB技术的GIS空间查询和空间分析模型研究

科技论文,关于面向对象的数据库在地理信息系统中的应用。主要关于数据库技术。

2008-10-30

ACPI spec 4.0 and 3.0

Advanced Configuration and Power Interface Specification Hewlett-Packard Corporation Intel Corporation Microsoft Corporation Phoenix Technologies Ltd. Toshiba Corporation Revision 3.0a December 30, 2005 Advanced Configuration and Power Interface Specification Hewlett-Packard Corporation Intel Corporation Microsoft Corporation Phoenix Technologies Ltd. Toshiba Corporation Revision 4.0 June 16, 2009

2024-08-24

矩阵计算国际级大家之作,amd gpu mi300 isa spec

矩阵计算国际级大家之作,amd gpu mi300 isa spec

2024-06-21

bash-shell matrix-computations llvm-cook loader-linker sparse-ma

bash_shell matrix_computations llvm_cook loader_linker sparse_matrix block_Jacobi_svd regular_expression

2024-01-23

llvm编译器cookbook 中英 SSAbook

llvm编译器cookbook 中英 SSAbook

2024-01-14

Linux kernel 高并发开发

深入理解并行编程V2.0 中英文,示例源码网址: example source code: https://github.com/paulmckrcu/perfbook/tree/master

2024-01-14

mpi学习教程等-都志辉-配合下文https环境搭建

使用openmpi搭建mpi环境 https://blog.csdn.net/eloudy/article/details/135293911 另含: 链接器与加载器 gpu优化

2023-12-29

实分析 I II 英文版 可结合中文纸质书一起阅读

实分析 I II 英文版 可结合中文纸质书一起阅读

2023-10-20

代数多重网格理论资料 AMG AMGX原理

代数多重网格理论与算法and its application AMG AMGX 多份中英文资料,全面系统地说明了 多重网格算法的原理和历史脉络等

2023-09-28

opencl 学习资源pdf and source code

opencl programming guide opencl programming by example and source code opencl 2.1 spec

2023-05-22

常用数值算法集C语言与 Numerical Methods Using Matlab 4th Ed Mathews

常用数值算法集C语言 源程序源码 与 Numerical Methods Using Matlab 4th Ed Mathews pdf英文版

2023-04-12

比利时的 鲁汶大学 计算机系教授 Philip Dutré 的全局光照教程,和他与合作者在 2002年 SIGGRAPH ppt

比利时的 鲁汶大学 计算机系教授 Philip Dutré 的全局光照教程,和他与合作者在 2002年 SIGGRAPH ppt

2022-09-17

Realistic Ray tracing pdf and source codes

Realistic Ray tracing pdf and source codes

2022-09-17

RoofLine 理论的出处、起因、理论和示例

RoofLine 理论的出处、起因、理论和示例

2022-05-09

LLVM IR MLIR: Scaling Compiler Infrastructure for Domain Specifi

LLVM Language Reference Manual 即 LLVM IR MLIR: Scaling Compiler Infrastructure for Domain Specifi

2022-05-06

SSA_LLVMCookBook_DirectMethodSparseLinearSystem

static single assignment book, LLVM Cook book, Direct method sparse linear system solver suite sparse theory

2022-05-05

并行计算稀疏线性系统求解

并行计算稀疏线性系统求解

2022-03-07

x264-164.tar.gz

x264 c语言源代码

2022-01-02

pexports-0.44.tar.gz

dll -> lib

2022-01-02

cuda_matrix_inverse.7z

计算逆矩阵并且验证计算结果,用cuda实现

2021-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除