- 博客(775)
- 资源 (28)
- 收藏
- 关注
原创 CUDA Context-Independent Module Loading
大多数CUDA开发者都熟悉cuModuleLoad API及其相关功能,这些接口用于将包含设备代码的模块加载到CUDA上下文中。在多数情况下,开发者需要在所有设备上加载相同的设备代码,这就要求显式地将设备代码加载到每个CUDA上下文中。此外,那些无法控制上下文创建与销毁的库和框架必须主动追踪上下文状态,以显式地加载和卸载模块。本文重点介绍CUDA 12.0引入的上下文无关加载机制,该机制有效解决了上述问题。
2025-09-02 13:48:26
855
原创 cudaFuncAttribute 成员的作用解释
这些属性用于精细控制内核函数在GPU上的执行行为,特别是在Ampere及更新架构中引入的集群(Cluster)和共享内存相关特性。
2025-09-01 16:24:12
754
原创 写一个 RTX 5080 上的 cuda gemm fp16
由于会用到cpu 的gemm 与 gpu gemm 的对比验证,所以,这里稍微解释一下 cpu 计算fp16 gemm 的过程。这里为了简化理解,cpu 中不使用 avx 相关的 fp16 运算器,而是直接使用 cpu 原先的 ALU 功能。这里使用一个示例来做这件事情。
2025-08-31 20:40:35
686
原创 第1记 cutlass examples 00 的认真调试分析
这一篇似乎是 第0记 的重复,目标不太一样。上一篇是破冰,这篇主要是抓各种 cuda 的细节。为后边讨论更高阶的 cutlass 的原理与应用做好要点铺垫。编译catlass 在上一篇中有详述,这里略过。再贴一遍。
2025-08-29 20:39:26
1166
原创 第0记 cutlass 介绍及入门编程使用
CUTLASS 是 NVIDIA 开发的一个开源 CUDA C++ 模板头文件库,用于在 NVIDIA GPU 上实现高性能矩阵乘法(GEMM)和相关计算。它的设计目标是模块化和可扩展性让研究人员和开发者能够轻松地构建、组合和优化自己的 GEMM 内核,而无需从零开始编写复杂的 CUDA 代码。分层与组合将复杂的 GEMM 操作分解为多个层次化的、可重用的组件(如线程块、Warp、线程级别的计算)。模板元编程使用 C++ 模板在编译时确定算法、数据类型和硬件特性,以实现最大性能。接近硬件的性能。
2025-08-29 17:34:18
982
原创 CuTe C++ 简介01,从示例开始
这里先仅仅关注 C++ 层的介绍,python DSL 以后再说。在 ubuntu 22.04 X64 中,RTX 5080。
2025-08-28 18:25:24
356
原创 帕累托边界 Pareto Frontier 简介
(帕累托前沿,也译作帕累托边界)这个概念非常重要,广泛应用于经济学、工程学、机器学习、社会科学和商业决策等多个领域,用于分析和优化存在的问题。
2025-08-27 13:11:13
530
原创 numactl 安装和简介
numactl是一个用于控制策略的 Linux 工具集。它允许你查看系统的 NUMA 拓扑结构,并将进程或共享内存绑定到特定的 CPU 节点和内存节点,从而优化应用程序的性能,尤其是在多路服务器上。
2025-08-26 20:55:20
763
原创 NVIDIA GPU 中的 L2 Cache
如果熟悉缓存一致性协议的话,对这个cache 的工作机制会比较容易理解。接下来介绍一下其在 GPU 存储器层次结构中的位置和作用。
2025-08-26 17:08:13
492
原创 全文- ThunderKittens: Simple, Fast, and Adorable AI Kernels
ThunderKittens摘要 将AI架构映射到GPU硬件的挑战正成为AI发展的关键瓶颈。尽管付出了巨大努力,手工编写的定制内核仍无法达到其理论性能阈值,即使在线性注意力等成熟操作上也是如此。GPU多样化的硬件能力可能意味着我们需要大量技术来实现高性能。然而,我们的研究探索了是否可以通过少量关键抽象大幅简化这一过程。我们提出了ThunderKittens(TK),一个用于编写高性能AI内核的框架,同时保持易用性和可维护性。我们的抽象映射到GPU层次结构的三个级别:(1)在warp级别,我们提
2025-08-25 13:00:32
1213
原创 AlmaLinux 上 Python 3.6 切换到 Python 3.11
方法优点缺点适用场景SCL (方法一)安全、简单、官方支持需要手动启用环境大多数情况下的首选,尤其是服务器环境源码编译 (方法二)灵活,可安装任意版本步骤复杂,有潜在风险需要高度定制化或特定版本的高级用户虚拟环境 (方法三)最安全,项目隔离每个项目都需配置Python 开发的最佳实践,强烈推荐<1> 如果你只是想运行一些需要 Python 3.11 的应用或脚本,使用方法一 (SCL)。<2> 如果你是一名开发者,请务必使用方法三 (虚拟环境)
2025-08-24 21:34:45
1039
原创 全文 part1 - DGEMM Using Tensor Cores, and Its Accurate and Reproducible Versions
本文提出了一种在 NVIDIA 图形处理器(GPU)的张量核心(Tensor Cores,仅含 FP16、INT8 等 GEMM 计算功能)上实现FP64(双精度,DGEMM)和FP32(单精度,SGEMM)稠密矩阵乘法的方法。张量核心是一种特殊的处理单元,可对FP16输入执行内联图形矩阵乘法并以FP32精度运算,最终返回FP32精度的结果。该方法采用Ozaki方案 ——一种基于无误差变换的精确矩阵乘法算法。所提方法具有三大显著优势:其一,可基于cuBLAS库的例程,借助张量核心操作构建;其二,
2025-08-21 17:19:50
635
原创 MPICH 的包安装、编译安装及运行示例步骤整理
确保编译时链接了 MPICH 库(使用。的完整步骤,适用于 Linux/macOS 系统。是否包含 MPICH 的。
2025-08-19 15:59:51
394
原创 alma linux 安装 lsmod rmmod insmod 等的工具包: kmod
在 AlmaLinux 中,lsmodrmmod和insmod是用于管理内核模块的工具,它们属于 kmod包,这是 Linux 系统中核心的工具集。通常情况下,这些工具会默认安装在 AlmaLinux 中,因为它们属于基础系统组件。
2025-08-19 10:13:39
219
原创 Alma Linux 8 中解决掉 Failed to set locale, defaulting to C.UTF-8
在AlmaLinux 8中遇到"Failed to set locale, defaulting to C.UTF-8"错误提示,通常是因为系统尝试设置的区域设置(locale)不可用或未生成。
2025-08-18 12:47:02
310
原创 全文 - Error-free transformations of matrix multiplication by using fast routines of matrix mult
本文研究浮点算术下的精确矩阵乘法。近期,Rump等人(SIAM J Sci Comput 31(1):189–224, 2008)提出了一种精确求和算法,其核心是通过。
2025-08-17 21:00:26
1222
原创 Blackwell 和 Hopper 架构的 GPGPU 新功能全面综述
Blackwell 和 Hopper 架构通过 TMA、集群共享内存、增强的 FP8 支持等功能,显著提升了 GPU 的计算能力和效率。这些新特性特别适合现代 AI 和高性能计算工作负载,能够提供更高的性能和能效比。开发者可以通过合理利用这些新功能来优化现有应用程序或开发新的高性能计算解决方案。请注意,要运行这些示例代码,需要:支持 Hopper 或 Blackwell 架构的 GPUCUDA 12.0 或更高版本适当的编译标志 (如或。
2025-08-16 21:54:20
970
原创 2^{-53} 单位舍入误差、机器精度、舍入的最大相对误差界限
在 IEEE 754 双精度浮点数(binary64)中,有效位数(尾数)为 52 位(隐含最高位 1,共 53 位精度)。(unit roundoff),而非“相对舍入误差单位”。有时也被定义为可表示的大于 1 的最小浮点数与 1 的差(即。在数值算法中(如矩阵乘法、求解线性方程组),误差累积常以。浮点运算(加、减、乘、除等)的每一步都可能因精度限制引入舍入误差,而。下的严格定义,直接关联于 53 位有效精度。这里的“单位”指“1个单位”的舍入误差,即。),但更常见的定义与单位舍入误差。
2025-08-16 20:55:58
439
原创 全文 第1第2节 - ACCURATE FLOATING-POINT SUMMATION PART I: FAITHFUL ROUNDING
给定一个浮点数向量,其精确和为【注,数学精确和】,我们提出一种算法来计算的忠实舍入,即结果是的紧挨着的浮点邻居之一。若和本身是浮点数【注,计算机能表示的浮点数集合double 类型的】,我们证明该算法的结果就是。该算法能去适应求和的条件数,即对于条件数适中的求和,算法速度很快,且计算时间随条件数的对数增长而成比例地缓慢增加。所有结论在存在下溢的情况下仍然成立【注,正规数区间,相邻两个正规数之间的步长为,如果发生减法,结果可能为或者其几倍数,远小于最小正规数,发生下溢。
2025-08-13 14:14:08
976
3
原创 IEEE754 double 类型步长规律,从1.0的二进制表示、紧挨着1.0略大和略小的数开始归纳
在 IEEE 754 双精度(double)浮点数格式(64 位)中,给定的二进制表示 对应于 1.0。其结构如下: 符号位(1 位):(正数) 指数位(11 位):(十进制值 1023,实际指数为 1023 - 1023 = 0) 尾数位(52 位):(隐含前导 1,因此尾数值为 1.0)2.0 比1.0 略大的那个 double 数 在浮点数表示中,相邻的可表示数是通过增加尾数的最小有效位(LSB)得到的。尾数有 52 位,因此最小可表示的增量(
2025-08-11 19:36:22
1086
原创 Knuth‘s TwoSum Algorithm 原理详解
特性说明等号含义数学精确相等(非浮点近似)误差补偿捕获了的舍入误差适用条件IEEE 754 双精度 + 四舍五入模式 + 无溢出精度保证利用亚正规数表示微小量应用场景高精度求和算法的基础(如 Kahan 求和、补偿求和)该算法通过巧妙的误差分离,在浮点数系统中实现了数学精确性,是数值计算中处理精度的基石技术。yb%29。
2025-08-10 21:36:41
842
1
原创 IEEE 754 中的 正规浮点数(Normal Floating-Point Numbers) 和 亚正规浮点数(Subnormal Floating-Point Numbers)
IEEE 754 双精度的亚正规浮点数:通过指数域全 0 + 尾数域非 0标识;;核心意义:以逐渐损失精度为代价,避免下溢归零,增强数值稳定性;
2025-08-10 17:57:00
1043
原创 矩阵的条件数 向量的条件数
条件数() 衡量输入微小变化时,函数或系统输出的敏感程度。在数值分析和线性代数中,条件数常用于评估矩阵或问题的稳定性。条件数越大,问题越“病态”(输出对输入变化越敏感);条件数越小,问题越“良态”。对于非奇异矩阵,其条件数定义为:其中是矩阵的 p-范数。常用的是:): 基于奇异值,):向量的条件数通常指其范数的条件数。例如,对于向量,其 p-范数的条件数是:对于线性函数,向量的条件数与矩阵的条件数相关。
2025-08-09 17:44:21
760
原创 量子查询模型(Quantum Query Model)
经典查询:经典算法通过输入索引 ii 查询黑箱函数的值(例如:是数据库,查询返回第 3 项的值)。量子查询:量子算法通过量子叠加态同时查询多个,利用干涉(interference)提取全局信息。设是一个布尔函数,量子查询模型通过量子 oracle实现查询:其中:是输入寄存器(是辅助量子比特( 通常初始化为是模 2 加法(XOR)。查询复杂度:算法调用的次数称为量子查询复杂度(Quantum Query Complexity)。
2025-08-09 01:16:34
759
原创 酉矩阵(Unitary Matrix)和随机矩阵
酉矩阵(Unitary Matrix)是复数域上的方阵,满足以下条件:其中:是的共轭转置(即 Hermitian 转置,是单位矩阵。特殊情形(实数域):如果是实矩阵,则随机矩阵(也称为概率矩阵或马尔可夫矩阵)是指满足以下两个条件的非负实矩阵行和为1(行随机矩阵):元素非负:变体:列随机矩阵:列和为 1(即是行随机矩阵)。双随机矩阵:行和与列和均为 1。
2025-08-07 18:50:53
1279
1
原创 ubuntu 22.04 中安装python3.11 和 3.11 的 pip
22.04 中默认apt 源中只有 3.10 python.如果手上有一个 cp311 的 python wheel,这时候最好安装一个 python3.11,作为 python3 来使用。
2025-08-06 17:45:57
339
原创 AlmaLinux8 平替 manylinux_2_28-python 的 GPG密钥管理、安装 cuda sdk
https://hub.docker.com/r/almalinux/8-base/tags下载镜像: 创建一个容器: 1. Alma 安装软件 以安装 wget 为例:2. 安装软件时报 Error: GPG check FAILED 在 AlmaLinux 8 中使用 安装软件包时遇到 GPG 检查失败()的问题,通常是由于软件源的 GPG 密钥未正确导入或已过期。 在 AlmaLinux(及其他基于 RPM 的 Linux 发行版)中,GPG(GNU
2025-08-05 16:01:05
337
1
原创 量子物理学的前沿意义虚无、形式混乱
主流学术界认为,物理学前沿的“混乱”反映了量子物理正在突破经典框架的边界。这种“虚无”并非无意义,而是新物理诞生前的阵痛——类似20世纪初量子力学革命前的“紫外灾难”。关键在于找到连接数学抽象与物理实在的新桥梁。
2025-08-03 18:55:58
1357
原创 Munge 安全认证和授权服务的工作原理,以及与 Slurm 的配合
Munge 是一个专门为高性能计算(HPC)环境设计的轻量级认证服务,它在 Slurm 等作业调度系统中扮演着关键的安全角色。
2025-08-02 21:29:17
1045
原创 量子测量的物理场景与理论
特性投影测量一般测量(POVM)测量算符正交投影算符任意正算符正交性必须正交可非正交测量后状态严格坍缩到可能非唯一坍缩实验场景理想探测器、Stern-Gerlach非理想探测器、量子态层析数学工具厄密算符正算符一般测量(POVM)适用于所有量子测量,包括非理想情况(如探测器效率损失)。而投影测量是一种理想化的测量,要求测量算符是正交投影算符。而且,进一步,态矢量和密度矩阵均可用于计算测量概率:纯态混合态投影测量是量子计算中最常用的测量方式。
2025-07-31 15:28:59
1065
原创 矩阵指数函数 e^A
方面,对角化法适用于可对角化矩阵,而数值方法(如级数截断)处理一般情况。通过泰勒级数,矩阵指数将抽象的线性算子与具体的物理操作(如量子门)联系起来,成为量子理论与计算的核心数学工具。为底、指数部分包含矩阵的泰勒级数展开,是描述矩阵指数函数。的泰勒级数是理解量子演化、线性系统和控制理论的基础。的展开直接对应量子门的实现(如旋转门、哈密顿模拟)。代表不同阶的量子相互作用,级数收敛保证幺正性。对无法对角化的矩阵,截断泰勒级数前。:泰勒级数收敛可能较慢,需大量项才能精确。是一个方阵)的核心工具。
2025-07-30 17:58:14
942
原创 量子图灵机 Quantum Turing Machine, QTM
定义量子图灵机由以下几个核心组件构成,量子态空间(Hilbert Space)经典图灵机的配置(状态、磁带内容、读写头位置)被推广为量子态,允许叠加形式:其中为复数概率幅,满足。有限状态集包含初始状态和接受/拒绝状态(测量时坍缩到这些状态)。字母表磁带符号(含空白符号),支持量子叠加的符号写入。量子转移函数对每个,输出一组可能的及其概率幅,需满足幺正性(即整体演化算符是幺正的:。在量子图灵机(QTM)的转移函数定义中,符号的数学含义和物理意义接下来分开说明。
2025-07-30 16:37:23
1060
NS基础与安装---NS2 是一款开放源代码的网络仿真软件
2008-11-05
bootia32.efi
2018-04-07
tbb2017_20170226oss_win.zip
2017-03-22
chisel官方教程20201010版本.7z
2020-10-11
带几何解释的线性代数讲义
2020-12-02
英中双语版_flex与bison_pdf.7z
2020-11-03
Digital Design With Chisel_20201010edition.7z
2020-10-11
llvm_cookb_LLVM_IR骨架语法领进门资料.7z
2021-04-25
python27_d.lib python27_d.dll python27_d.pdb
2017-09-13
FIRRTL_spec_2020Oct_EditionPDF.7z
2020-10-19
Downloads.zip
2020-07-21
ACPI spec 4.0 and 3.0
2024-08-24
bash-shell matrix-computations llvm-cook loader-linker sparse-ma
2024-01-23
Linux kernel 高并发开发
2024-01-14
mpi学习教程等-都志辉-配合下文https环境搭建
2023-12-29
代数多重网格理论资料 AMG AMGX原理
2023-09-28
opencl 学习资源pdf and source code
2023-05-22
常用数值算法集C语言与 Numerical Methods Using Matlab 4th Ed Mathews
2023-04-12
比利时的 鲁汶大学 计算机系教授 Philip Dutré 的全局光照教程,和他与合作者在 2002年 SIGGRAPH ppt
2022-09-17
LLVM IR MLIR: Scaling Compiler Infrastructure for Domain Specifi
2022-05-06
SSA_LLVMCookBook_DirectMethodSparseLinearSystem
2022-05-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人