Eloudy-CSDN博客

原创 CUDA Context-Independent Module Loading

大多数CUDA开发者都熟悉cuModuleLoad API及其相关功能，这些接口用于将包含设备代码的模块加载到CUDA上下文中。在多数情况下，开发者需要在所有设备上加载相同的设备代码，这就要求显式地将设备代码加载到每个CUDA上下文中。此外，那些无法控制上下文创建与销毁的库和框架必须主动追踪上下文状态，以显式地加载和卸载模块。本文重点介绍CUDA 12.0引入的上下文无关加载机制，该机制有效解决了上述问题。

2025-09-02 13:48:26 855

原创 cudaFuncAttribute 成员的作用解释

这些属性用于精细控制内核函数在GPU上的执行行为，特别是在Ampere及更新架构中引入的集群（Cluster）和共享内存相关特性。

2025-09-01 16:24:12 754

原创写一个 RTX 5080 上的 cuda gemm fp16

由于会用到cpu 的gemm 与 gpu gemm 的对比验证，所以，这里稍微解释一下 cpu 计算fp16 gemm 的过程。这里为了简化理解，cpu 中不使用 avx 相关的 fp16 运算器，而是直接使用 cpu 原先的 ALU 功能。这里使用一个示例来做这件事情。

2025-08-31 20:40:35 686

原创第1记 cutlass examples 00 的认真调试分析

这一篇似乎是第0记的重复，目标不太一样。上一篇是破冰，这篇主要是抓各种 cuda 的细节。为后边讨论更高阶的 cutlass 的原理与应用做好要点铺垫。编译catlass 在上一篇中有详述，这里略过。再贴一遍。

2025-08-29 20:39:26 1166

原创第0记 cutlass 介绍及入门编程使用

CUTLASS 是 NVIDIA 开发的一个开源 CUDA C++ 模板头文件库，用于在 NVIDIA GPU 上实现高性能矩阵乘法（GEMM）和相关计算。它的设计目标是模块化和可扩展性让研究人员和开发者能够轻松地构建、组合和优化自己的 GEMM 内核，而无需从零开始编写复杂的 CUDA 代码。分层与组合将复杂的 GEMM 操作分解为多个层次化的、可重用的组件（如线程块、Warp、线程级别的计算）。模板元编程使用 C++ 模板在编译时确定算法、数据类型和硬件特性，以实现最大性能。接近硬件的性能。

2025-08-29 17:34:18 982

原创 CuTe C++ 简介01，从示例开始

这里先仅仅关注 C++ 层的介绍，python DSL 以后再说。在 ubuntu 22.04 X64 中，RTX 5080。

2025-08-28 18:25:24 356

原创帕累托边界 Pareto Frontier 简介

（帕累托前沿，也译作帕累托边界）这个概念非常重要，广泛应用于经济学、工程学、机器学习、社会科学和商业决策等多个领域，用于分析和优化存在的问题。

2025-08-27 13:11:13 530

翻译 Install GCC on AlmaLinux 8

【代码】Install GCC on AlmaLinux 8。

2025-08-27 10:17:00 25

原创 numactl 安装和简介

numactl是一个用于控制策略的 Linux 工具集。它允许你查看系统的 NUMA 拓扑结构，并将进程或共享内存绑定到特定的 CPU 节点和内存节点，从而优化应用程序的性能，尤其是在多路服务器上。

2025-08-26 20:55:20 763

原创 NVIDIA GPU 中的 L2 Cache

如果熟悉缓存一致性协议的话，对这个cache 的工作机制会比较容易理解。接下来介绍一下其在 GPU 存储器层次结构中的位置和作用。

2025-08-26 17:08:13 492

原创全文- ThunderKittens: Simple, Fast, and Adorable AI Kernels

ThunderKittens摘要将AI架构映射到GPU硬件的挑战正成为AI发展的关键瓶颈。尽管付出了巨大努力，手工编写的定制内核仍无法达到其理论性能阈值，即使在线性注意力等成熟操作上也是如此。GPU多样化的硬件能力可能意味着我们需要大量技术来实现高性能。然而，我们的研究探索了是否可以通过少量关键抽象大幅简化这一过程。我们提出了ThunderKittens（TK），一个用于编写高性能AI内核的框架，同时保持易用性和可维护性。我们的抽象映射到GPU层次结构的三个级别：（1）在warp级别，我们提

2025-08-25 13:00:32 1213

原创 AlmaLinux 上 Python 3.6 切换到 Python 3.11

方法优点缺点适用场景SCL (方法一)安全、简单、官方支持需要手动启用环境大多数情况下的首选，尤其是服务器环境源码编译 (方法二)灵活，可安装任意版本步骤复杂，有潜在风险需要高度定制化或特定版本的高级用户虚拟环境 (方法三)最安全，项目隔离每个项目都需配置Python 开发的最佳实践，强烈推荐<1> 如果你只是想运行一些需要 Python 3.11 的应用或脚本，使用方法一 (SCL)。<2> 如果你是一名开发者，请务必使用方法三 (虚拟环境)

2025-08-24 21:34:45 1039

原创全文 part1 - DGEMM Using Tensor Cores, and Its Accurate and Reproducible Versions

本文提出了一种在 NVIDIA 图形处理器（GPU）的张量核心（Tensor Cores，仅含 FP16、INT8 等 GEMM 计算功能）上实现FP64（双精度，DGEMM）和FP32（单精度，SGEMM）稠密矩阵乘法的方法。张量核心是一种特殊的处理单元，可对FP16输入执行内联图形矩阵乘法并以FP32精度运算，最终返回FP32精度的结果。该方法采用Ozaki方案 ——一种基于无误差变换的精确矩阵乘法算法。所提方法具有三大显著优势：其一，可基于cuBLAS库的例程，借助张量核心操作构建；其二，

2025-08-21 17:19:50 635

原创 MPICH 的包安装、编译安装及运行示例步骤整理

确保编译时链接了 MPICH 库（使用。的完整步骤，适用于 Linux/macOS 系统。是否包含 MPICH 的。

2025-08-19 15:59:51 394

原创 alma linux 安装 lsmod rmmod insmod 等的工具包: kmod

在 AlmaLinux 中，lsmodrmmod和insmod是用于管理内核模块的工具，它们属于 kmod包，这是 Linux 系统中核心的工具集。通常情况下，这些工具会默认安装在 AlmaLinux 中，因为它们属于基础系统组件。

2025-08-19 10:13:39 219

原创 Alma Linux 8 中解决掉 Failed to set locale, defaulting to C.UTF-8

在AlmaLinux 8中遇到"Failed to set locale, defaulting to C.UTF-8"错误提示，通常是因为系统尝试设置的区域设置(locale)不可用或未生成。

2025-08-18 12:47:02 310

原创全文 - Error-free transformations of matrix multiplication by using fast routines of matrix mult

本文研究浮点算术下的精确矩阵乘法。近期，Rump等人（SIAM J Sci Comput 31(1):189–224, 2008）提出了一种精确求和算法，其核心是通过。

2025-08-17 21:00:26 1222

原创 Blackwell 和 Hopper 架构的 GPGPU 新功能全面综述

Blackwell 和 Hopper 架构通过 TMA、集群共享内存、增强的 FP8 支持等功能，显著提升了 GPU 的计算能力和效率。这些新特性特别适合现代 AI 和高性能计算工作负载，能够提供更高的性能和能效比。开发者可以通过合理利用这些新功能来优化现有应用程序或开发新的高性能计算解决方案。请注意，要运行这些示例代码，需要:支持 Hopper 或 Blackwell 架构的 GPUCUDA 12.0 或更高版本适当的编译标志 (如或。

2025-08-16 21:54:20 970

原创 2^{-53} 单位舍入误差、机器精度、舍入的最大相对误差界限

在 IEEE 754 双精度浮点数（binary64）中，有效位数（尾数）为 52 位（隐含最高位 1，共 53 位精度）。（unit roundoff），而非“相对舍入误差单位”。有时也被定义为可表示的大于 1 的最小浮点数与 1 的差（即。在数值算法中（如矩阵乘法、求解线性方程组），误差累积常以。浮点运算（加、减、乘、除等）的每一步都可能因精度限制引入舍入误差，而。下的严格定义，直接关联于 53 位有效精度。这里的“单位”指“1个单位”的舍入误差，即。），但更常见的定义与单位舍入误差。

2025-08-16 20:55:58 439

原创全文第1第2节 - ACCURATE FLOATING-POINT SUMMATION PART I: FAITHFUL ROUNDING

给定一个浮点数向量，其精确和为【注，数学精确和】，我们提出一种算法来计算的忠实舍入，即结果是的紧挨着的浮点邻居之一。若和本身是浮点数【注，计算机能表示的浮点数集合double 类型的】，我们证明该算法的结果就是。该算法能去适应求和的条件数，即对于条件数适中的求和，算法速度很快，且计算时间随条件数的对数增长而成比例地缓慢增加。所有结论在存在下溢的情况下仍然成立【注，正规数区间，相邻两个正规数之间的步长为，如果发生减法，结果可能为或者其几倍数，远小于最小正规数，发生下溢。

2025-08-13 14:14:08 976 3

原创两个 cuda TMA 代码示例

【代码】两个 cuda TMA 代码示例。

2025-08-12 19:11:33 245 1

原创 IEEE754 double 类型步长规律，从1.0的二进制表示、紧挨着1.0略大和略小的数开始归纳

在 IEEE 754 双精度（double）浮点数格式（64 位）中，给定的二进制表示对应于 1.0。其结构如下：符号位（1 位）：（正数）指数位（11 位）：（十进制值 1023，实际指数为 1023 - 1023 = 0）尾数位（52 位）：（隐含前导 1，因此尾数值为 1.0）2.0 比1.0 略大的那个 double 数在浮点数表示中，相邻的可表示数是通过增加尾数的最小有效位（LSB）得到的。尾数有 52 位，因此最小可表示的增量（

2025-08-11 19:36:22 1086

原创 Knuth‘s TwoSum Algorithm 原理详解

特性说明等号含义数学精确相等（非浮点近似）误差补偿捕获了的舍入误差适用条件IEEE 754 双精度 + 四舍五入模式 + 无溢出精度保证利用亚正规数表示微小量应用场景高精度求和算法的基础（如 Kahan 求和、补偿求和）该算法通过巧妙的误差分离，在浮点数系统中实现了数学精确性，是数值计算中处理精度的基石技术。yb%29。

2025-08-10 21:36:41 842 1

原创 IEEE 754 中的正规浮点数（Normal Floating-Point Numbers）和亚正规浮点数（Subnormal Floating-Point Numbers）

IEEE 754 双精度的亚正规浮点数：通过指数域全 0 + 尾数域非 0标识；；核心意义：以逐渐损失精度为代价，避免下溢归零，增强数值稳定性；

2025-08-10 17:57:00 1043

原创求和算法的向后稳定性 backward stable

浮点数求和算法的向后稳定性 backward stable 说明。

2025-08-09 19:20:28 709

原创矩阵的条件数向量的条件数

条件数（）衡量输入微小变化时，函数或系统输出的敏感程度。在数值分析和线性代数中，条件数常用于评估矩阵或问题的稳定性。条件数越大，问题越“病态”（输出对输入变化越敏感）；条件数越小，问题越“良态”。对于非奇异矩阵，其条件数定义为：其中是矩阵的 p-范数。常用的是：）：基于奇异值，）：向量的条件数通常指其范数的条件数。例如，对于向量，其 p-范数的条件数是：对于线性函数，向量的条件数与矩阵的条件数相关。

2025-08-09 17:44:21 760

原创量子查询模型（Quantum Query Model）

经典查询：经典算法通过输入索引 ii 查询黑箱函数的值（例如：是数据库，查询返回第 3 项的值）。量子查询：量子算法通过量子叠加态同时查询多个，利用干涉（interference）提取全局信息。设是一个布尔函数，量子查询模型通过量子 oracle实现查询：其中：是输入寄存器（是辅助量子比特（通常初始化为是模 2 加法（XOR）。查询复杂度：算法调用的次数称为量子查询复杂度（Quantum Query Complexity）。

2025-08-09 01:16:34 759

原创酉矩阵（Unitary Matrix）和随机矩阵

酉矩阵（Unitary Matrix）是复数域上的方阵，满足以下条件：其中：是的共轭转置（即 Hermitian 转置，是单位矩阵。特殊情形（实数域）：如果是实矩阵，则随机矩阵（也称为概率矩阵或马尔可夫矩阵）是指满足以下两个条件的非负实矩阵行和为1（行随机矩阵）：元素非负：变体：列随机矩阵：列和为 1（即是行随机矩阵）。双随机矩阵：行和与列和均为 1。

2025-08-07 18:50:53 1279 1

原创浮点乘法器设计主体思路

浮点乘法运算定义为：其中和为操作数，结果需按标准舍入到最接近的可表示浮点数。

2025-08-07 13:41:51 1737

原创 ubuntu 22.04 中安装python3.11 和 3.11 的 pip

22.04 中默认apt 源中只有 3.10 python.如果手上有一个 cp311 的 python wheel，这时候最好安装一个 python3.11，作为 python3 来使用。

2025-08-06 17:45:57 339

原创 AlmaLinux8 平替 manylinux_2_28-python 的 GPG密钥管理、安装 cuda sdk

https://hub.docker.com/r/almalinux/8-base/tags下载镜像：创建一个容器： 1. Alma 安装软件以安装 wget 为例：2. 安装软件时报 Error: GPG check FAILED 在 AlmaLinux 8 中使用安装软件包时遇到 GPG 检查失败（）的问题，通常是由于软件源的 GPG 密钥未正确导入或已过期。在 AlmaLinux（及其他基于 RPM 的 Linux 发行版）中，GPG（GNU

2025-08-05 16:01:05 337 1

原创 Pauli 矩阵指数函数展开为显式矩阵 e^A -＞ B

要展开表达式为普通矩阵，其中是 Pauli 矩阵，是单位向量，是实数。

2025-08-04 00:36:29 315

原创量子态演化算符性质与形成原因总结

时间演化算符将初始态映射到时刻的态：对于。

2025-08-03 19:51:42 402

原创量子物理学的前沿意义虚无、形式混乱

主流学术界认为，物理学前沿的“混乱”反映了量子物理正在突破经典框架的边界。这种“虚无”并非无意义，而是新物理诞生前的阵痛——类似20世纪初量子力学革命前的“紫外灾难”。关键在于找到连接数学抽象与物理实在的新桥梁。

2025-08-03 18:55:58 1357

原创 Munge 安全认证和授权服务的工作原理，以及与 Slurm 的配合

Munge 是一个专门为高性能计算（HPC）环境设计的轻量级认证服务，它在 Slurm 等作业调度系统中扮演着关键的安全角色。

2025-08-02 21:29:17 1045

原创 gdrcopy 原理、安装与示例

ucx 通常需要 gdrcopy 才能更高效传递数据。

2025-08-01 17:41:39 528

原创量子测量的物理场景与理论

特性投影测量一般测量（POVM）测量算符正交投影算符任意正算符正交性必须正交可非正交测量后状态严格坍缩到可能非唯一坍缩实验场景理想探测器、Stern-Gerlach非理想探测器、量子态层析数学工具厄密算符正算符一般测量（POVM）适用于所有量子测量，包括非理想情况（如探测器效率损失）。而投影测量是一种理想化的测量，要求测量算符是正交投影算符。而且，进一步，态矢量和密度矩阵均可用于计算测量概率：纯态混合态投影测量是量子计算中最常用的测量方式。

2025-07-31 15:28:59 1065

原创矩阵指数函数 e^A

方面，对角化法适用于可对角化矩阵，而数值方法（如级数截断）处理一般情况。通过泰勒级数，矩阵指数将抽象的线性算子与具体的物理操作（如量子门）联系起来，成为量子理论与计算的核心数学工具。为底、指数部分包含矩阵的泰勒级数展开，是描述矩阵指数函数。的泰勒级数是理解量子演化、线性系统和控制理论的基础。的展开直接对应量子门的实现（如旋转门、哈密顿模拟）。代表不同阶的量子相互作用，级数收敛保证幺正性。对无法对角化的矩阵，截断泰勒级数前。：泰勒级数收敛可能较慢，需大量项才能精确。是一个方阵）的核心工具。

2025-07-30 17:58:14 942

原创量子图灵机 Quantum Turing Machine, QTM

定义量子图灵机由以下几个核心组件构成，量子态空间（Hilbert Space）经典图灵机的配置（状态、磁带内容、读写头位置）被推广为量子态，允许叠加形式：其中为复数概率幅，满足。有限状态集包含初始状态和接受/拒绝状态（测量时坍缩到这些状态）。字母表磁带符号（含空白符号），支持量子叠加的符号写入。量子转移函数对每个，输出一组可能的及其概率幅，需满足幺正性（即整体演化算符是幺正的：。在量子图灵机（QTM）的转移函数定义中，符号的数学含义和物理意义接下来分开说明。

2025-07-30 16:37:23 1060

原创正则语言/上下文无关语言/MO-1 QFA 的泵引理

泵引理是。

2025-07-29 15:18:25 673

能通过一张照片(2D)得到3D的模型吗

2017-06-30

NS基础与安装---NS2 是一款开放源代码的网络仿真软件

NS2 是一款开放源代码的网络仿真软件，最初由UC Berkeley 开发而成。他最初为了研究大规模网络以及当前和未来的网络协议交互行为而开发。它为有线和无线网络上的TCP、路由和多播等协议的仿真提供了强有力的支持。

2008-11-05

bootia32.efi

ubuntu遇到32位EFI UEFI。如果安装ubuntu时提醒找不到bootia32.efi，那么将此文件放入U盘的/EFI/BOOT/中。会发现其中只有**64.efi

2018-04-07

麒麟使用手册_国产LINUX操作系统

麒麟(kylin)是第一款国产操作系统，这里是它的使用手册内容介绍详尽，２００多页的pdf

2007-06-02

tbb2017_20170226oss_win.zip

tbb2017年最新版64bit，分数怎么自动跳到了50分了呀，还需要手动改正过来。是为了给其他tbb资源一些机会么？那也挺好的，可以都积累一些分数，方便互相下载

2017-03-22

chisel官方教程20201010版本.7z

资源许可证允许自由传播、修改，甚至是商业用途。许可证网址： https://creativecommons.org/licenses/by-sa/4.0/ Share — copy and redistribute the material in any medium or format 因此可以放心自由使用

2020-10-11

带几何解释的线性代数讲义

带几何解释的线性代数讲义，讲解了解析几何以及线性代数工具下的几何定义，几何意义扩展线索下的代数定义，Euclidean Space，酉空间定义，正定矩阵的定义

2020-12-02

英中双语版_flex与bison_pdf.7z

Flex and bison are tools designed for writers of compilers and interpreters, although they are also useful for many applications that will interest noncompiler writers. Any application that looks for patterns in its input or has an input or command language is a good candidate for flex and bison.

2020-11-03

Digital Design With Chisel_20201010edition.7z

资源许可证书：可以自由传播、改变、甚至是商业用途。 https://creativecommons.org/licenses/by-sa/4. Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) This is a human-readable summary of (and not a substitute for) the license. Disclaimer. You are free to: Share — copy and redistribute the material in any medium or format

2020-10-11

libQGLViewer-2.6.3.zip

这个版本有些难找，所以挂在这里。请先尝试网络下载。用于cgal开发所用,其他版本的没有编译通过。cgal

2017-09-28

龙书DirectX9.0＼3D游戏开发编程基础源代码 d3dUtility.cpp

代码是全的，d3dUtility.cpp等全套书的所有c++源码

2016-11-22

llvm_cookb_LLVM_IR骨架语法领进门资料.7z

llvm cook学习资料——LLVM IR语言核心概念入门核心内容汇总，基本应用命令入门，先用再分析，然后才能进一步结合编译原理看llvm编译器clang的实现代码。

2021-04-25

python27_d.lib python27_d.dll python27_d.pdb

从Python2.7.13源码手工编译的 python27_d.lib python27_d.dll python27_d.pdb，vs2015 win10 64bit，因为vtk支持python的需要。本想免费，但至少要填1分。

2017-09-13

automata theory language.7z

automata理论资料，内容详实，解决了编程语言的设计，编译器的开发，自然语言语言翻译理论，习题链接，

2021-04-24

FIRRTL_spec_2020Oct_EditionPDF.7z

The ideas for FIRRTL (Flexible Intermediate Representation for RTL) originated from work on Chisel, a hardware description language (HDL) embedded in Scala used for writing highly-parameterized circuit design generators.

2020-10-19

Downloads.7z

SystemC from the Ground up (2nd edition) pdf and examples source code

2020-07-18

linux动态链接机制研究及应用

linux动态链接机制研究及应用一篇科技论文，专注与linux内核机制

2008-11-04

Downloads.zip

B3 和 B4 两个版本 WISHBONE System-on-Chip (SoC)Interconnection Architecturefor Portable IP Cores Brought to You By OpenCores

2020-07-21

CImg 2.0.5_pre092517

cimg.h 这个头文件在里面，以前对这个lib不熟悉，由于CGAL的原因才用到的。

2017-09-28

基于OODB技术的GIS空间查询和空间分析模型研究

科技论文，关于面向对象的数据库在地理信息系统中的应用。主要关于数据库技术。

2008-10-30

ACPI spec 4.0 and 3.0

Advanced Configuration and Power Interface Specification Hewlett-Packard Corporation Intel Corporation Microsoft Corporation Phoenix Technologies Ltd. Toshiba Corporation Revision 3.0a December 30, 2005 Advanced Configuration and Power Interface Specification Hewlett-Packard Corporation Intel Corporation Microsoft Corporation Phoenix Technologies Ltd. Toshiba Corporation Revision 4.0 June 16, 2009

2024-08-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

能通过一张照片(2D)得到3D的模型吗

NS基础与安装---NS2 是一款开放源代码的网络仿真软件

bootia32.efi

麒麟使用手册_国产LINUX操作系统

tbb2017_20170226oss_win.zip

chisel官方教程20201010版本.7z

带几何解释的线性代数讲义

英中双语版_flex与bison_pdf.7z

Digital Design With Chisel_20201010edition.7z

libQGLViewer-2.6.3.zip

龙书DirectX9.0＼3D游戏开发编程基础 源代码 d3dUtility.cpp

llvm_cookb_LLVM_IR骨架语法领进门资料.7z

python27_d.lib python27_d.dll python27_d.pdb

automata theory language.7z

FIRRTL_spec_2020Oct_EditionPDF.7z

Downloads.7z

linux动态链接机制研究及应用

Downloads.zip

CImg 2.0.5_pre092517

基于OODB技术的GIS空间查询和空间分析模型研究

ACPI spec 4.0 and 3.0

矩阵计算国际级大家之作，amd gpu mi300 isa spec

bash-shell matrix-computations llvm-cook loader-linker sparse-ma

llvm编译器cookbook 中英 SSAbook

Linux kernel 高并发开发

mpi学习教程等-都志辉-配合下文https环境搭建

实分析 I II 英文版 可结合中文纸质书一起阅读

代数多重网格理论资料 AMG AMGX原理

opencl 学习资源pdf and source code

常用数值算法集C语言与 Numerical Methods Using Matlab 4th Ed Mathews

比利时的 鲁汶大学 计算机系教授 Philip Dutré 的全局光照教程，和他与合作者在 2002年 SIGGRAPH ppt

Realistic Ray tracing pdf and source codes

RoofLine 理论的出处、起因、理论和示例

LLVM IR MLIR: Scaling Compiler Infrastructure for Domain Specifi

SSA_LLVMCookBook_DirectMethodSparseLinearSystem

并行计算稀疏线性系统求解

x264-164.tar.gz

pexports-0.44.tar.gz

cuda_matrix_inverse.7z

空空如也

龙书DirectX9.0＼3D游戏开发编程基础源代码 d3dUtility.cpp

实分析 I II 英文版可结合中文纸质书一起阅读

比利时的鲁汶大学计算机系教授 Philip Dutré 的全局光照教程，和他与合作者在 2002年 SIGGRAPH ppt