- 博客(468)
- 收藏
- 关注
原创 【CUDA高级开发者学习路线图】库与框架生态
⚠️ 由于篇幅有限,代码仅演示最典型的用例;若要使用于生产环境,请根据实际 GPU 型号、驱动版本和库版本进一步调优。若你使用的是旧版,请相应调整头文件和 API。文件里),随后展示如何将其拆分为多文件。的完整实现(所有子模块均包含在同一个。)如何在同一程序里串联使用。,但拆分文件有助于后期维护。生态中最常用的几个库(下面的示例代码演示了。你可以把全部代码放在。
2025-08-31 23:16:51
10
原创 【CUDA高级开发者学习路线图】性能分析与调优工具
本文介绍了CUDA矩阵乘法从基础实现到优化的完整过程。基础版本通过行列遍历实现,但存在全局内存访问效率低、缺乏共享内存利用等问题。优化方案采用分块(Tiled)和共享内存技术,通过预加载数据到共享内存显著提升性能。文章还提供了使用warp-shuffle的替代方案,并给出完整的主程序实现和性能分析工具使用方法。最后总结了常见优化挑战及对策,强调从简单实现开始,逐步引入优化并验证性能提升。
2025-08-31 23:07:09
26
原创 【CUDA高级开发者学习路线图】多GPU与分布式计算
,确认所有设备间 P2P 能正常工作,再逐步加入分布式框架或混合 CPU/GPU 计算。:在正式部署前先跑一个。
2025-08-31 23:00:13
6
原创 【CUDA高级开发者学习路线图】编译与运行时体系
本文详细介绍了CUDA编程中的关键技术与实践方法。主要内容包括:1)通过完整代码示例演示nvcc前端/后端流程,展示C++到PTX再到SASS的编译过程,并提供PTX级别的优化技巧;2)对比分析Runtime API和Driver API在上下文管理、错误处理和性能方面的差异,给出两种API的具体实现示例;3)介绍如何使用Driver API查询GPU设备能力(SM数量、寄存器数等);4)提供多平台编译指南和常见问题解决方案。文章强调实践性,所有代码均可直接编译运行,帮助开发者深入理解CUDA底层机制并实现
2025-08-31 22:43:49
9
原创 【CUDA高级开发者学习路线图】CUDA 核心概念
本文摘要: CUDA编程核心概念解析: 编程模型:采用Host-Device分离架构,通过grid→block→thread三级线程层级实现并行计算,演示向量加法kernel实现; 内存体系:对比Global/Shared/Constant内存性能,使用Shared内存优化计算吞吐,结合Unified Memory简化数据管理; 执行单元:利用warp shuffle指令实现线程间高效数据交换,避免共享内存访问,分析线程分支导致的性能损耗; 同步机制:通过__syncthreads()实现块内线程同步,结合
2025-08-31 22:35:41
5
原创 从论文到代码:AI算法实现与写作指南
本专栏致力于连接学术理论与工程实践。每篇文章将精选一篇前沿AI论文,提供一套完整、高质量、可复现的实现方案。内容涵盖核心思想解读、代码架构设计、关键模块实现、实验复现,直至结果分析与论文图表绘制。旨在帮助读者不仅能跑通代码,更能深入理解算法精髓,并为自己的研究与论文写作提供坚实参考。以下是详细的论文列表。
2025-08-22 15:18:06
240
原创 【研究生论文课题】基于多尺度特征的医学多模态融合:从方法到验证 已实现 源码在文末
多模态医学影像(如 MRI、CT、PET)在空间结构与功能代谢等信息上具有天然互补性,但临床场景中存在分辨率不一、模态不齐、跨设备域移等挑战。本文面向“实验室验证有效/已有同类文章发表”的成熟度,系统综述多模态融合的代表性技术,并提出一套可复现实验方案与模型蓝图:一种多尺度跨模态融合网络(MS-CMFN)。该网络以金字塔式多尺度表示为基础,引入跨尺度可变形交互注意力与门控专家路由,兼顾细粒度结构与全局上下文;同时以注册对齐、缺失模态鲁棒性训练与自监督预训练提升泛化与可用性。
2025-08-22 15:07:09
29
原创 【研究生论文课题】 基于对比学习的医学视觉问答
输入医学影像 xxx(如X光、CT切片或病理图)与自然语言问题 qqq,生成医学上且的不确定性的答案 aaa。1)跨模态对齐难:影像-文本语义鸿沟;2)医学知识稀疏且术语复杂;3)开/闭式问答兼容与事实一致性;4)小样本数据与域外泛化。:在的基础上,引入与,同时结合与,提升检索-对齐-生成一体化能力。为中文/英文双语问答适配 SLAKE 与其它公开数据集。SLAKE 为、含与的Med-VQA数据集,适合区域对齐与可解释性评估。
2025-08-22 14:43:50
21
原创 【研究生论文课题】无人机智能体辅助的城市IoT服务优化
例如,SynDrone数据集314提供了72,000个标注样本,包含多高度、多模态(图像与3D数据)的城市场景信息,支持语义分割等任务,大大降低了真实数据收集的成本。时间被划分为T个时隙,无人机在每个时隙根据环境观测调整悬停位置,并为覆盖范围内的设备提供服务。每架无人机在本地训练模型,定期将模型参数上传至中央服务器进行聚合(如FedAvg算法),再将更新后的全局模型分发至各无人机。通过本研究,我们期望为智慧城市中的无人机辅助IoT服务提供一套高效、安全的解决方案,推动低空经济与城市数字化的发展。
2025-08-22 14:41:49
22
原创 【研究生论文课题】基于知识图谱补全的关系推理与实体预测
本章提出一个结构化嵌入 + 关系图神经网络 + 可微路径/规则推理的混合框架,兼顾可扩展性、表达力与可解释性(图略)。输入层:为每个实体/关系初始化嵌入与类型特征,构造带向/带标的多关系图。对每个关系显式增广逆关系 r−1r^{-1}r−1,有助于训练稳定与收敛(“reciprocal relations”技巧)。表达层(Relation-aware GNN):采用关系感知的消息传递学习实体上下文表征,兼收路径/邻域证据(3.3 节)。R-GCN/CompGCN 的思想表明,多关系图卷积可显著提升补全精度。
2025-08-22 14:23:07
22
原创 【研究生论文课题】基于检索增强生成(RAG)的知识增强问答与推理
在过去数年中,大语言模型(Large Language Models, LLMs)取得了显著突破,其在开放域问答、自然语言推理、知识对话等任务中展现出接近甚至超越人类的表现(OpenAI, 2023;这类模型通过大规模预训练捕获了丰富的语言模式和通用知识,使其能够在单跳问答等任务中生成自然流畅且语义合理的回答。然而,LLM 的知识来源完全依赖于训练数据,因而存在显著局限:一方面,模型的参数化知识是静态且有限的,难以覆盖动态更新的事实信息;
2025-08-22 13:43:01
56
原创 【研究生论文课题】隐私保护的大语言模型分布式联合训练 完整代码 稍微修改即可发表
以 Transformer 为核心架构的 LLM(如 GPT 系列、LLaMA 系列等)通常依赖海量语料与长周期训练,常见手段包括数据并行、模型并行与流水线并行,以支撑大参数规模与长上下文长度。我们希望以 FL 为骨架,引入安全聚合与差分隐私,保证训练过程中各参与方的原始数据不出域,且对可见的模型更新进行噪声化或加密处理,降低推断攻击与重构风险。服务器侧周期性整合全局知识,提升通用性。机制:客户端以小模型进行就地训练与快速迭代,服务器端与/或部分算力充足节点维护大模型,对聚合的小模型知识进行吸收与反哺。
2025-08-22 12:48:42
36
原创 研究生课题 医学大模型参数高效微调(PEFT)的理论与实证研究
最后,基于公开的医学问答数据集(MedMCQA),我们提供了一套完整的、可复现的实证分析流程,展示了如何在单张GPU上高效微调7B规模的医学大模型,并验证了该方法的有效性。这些常数本身也会占用可观的内存。理论分析表明,LoRA的低秩假设是其有效性的基础,而QLoRA通过创新的量化和内存管理技术,极大地降低了微调的硬件门槛。LoRA的理论基石是Aghajanyan等人的研究发现:尽管预训练模型嵌入在一个高维参数空间中,但它们在适应下游任务时展现出极低的“内在维度”(intrinsic dimension)。
2025-08-20 14:18:52
33
原创 【研究生课题】 端侧多模态大模型的理论与实践:模型压缩与高效架构的协同研究
最后,本文提供了一套完整的实证分析流程,展示了如何构建一个由MobileViT和Gemma-2B组成的多模态模型,并通过PEFT微调与4-bit量化,最终实现一个可在端侧高效运行的视觉问答模型。通过将轻量级视觉主干与小型LLM结合,并利用LoRA进行高效的特定任务适配,最后通过GPTQ等高级量化技术进行极致压缩,我们能够在保持可接受性能的同时,将复杂的MLLMs部署到资源受限的设备上。我们可以使用一个强大的云端MLLM(教师模型,如LLaVA-13B)来指导一个轻量级的端侧模型(学生模型)的训练。
2025-08-20 14:14:17
29
原创 【PINN高级教程】范式融合与前沿应用 第 6讲:AI 与传统数值方法的共生
本章聚焦于把 AI 模型作为嵌入成熟的 HPC 工作流,而不是全盘替代传统求解器。通过可微物理模拟器、神经闭包模型以及 AI‑加速迭代求解器三大技术路线,阐明它们如何在数学层面实现互补,并给出关键的理论分析与数值稳定性保证。
2025-08-19 23:39:32
1109
原创 【PINN高级教程】第8讲:AI驱动的自动化科学发现
本讲的核心思想是将AI的角色从一个高效的求解器(例如,求解给定的PDE)转变为一个主动的发现者。这意味着AI系统需要具备自主形成科学假设、设计验证实验、并最终从数据中提炼出新的物理定律或科学知识的能力。
2025-08-19 23:36:57
25
原创 【PINN高级教程】第7讲:科学大模型 (Foundation Models for Science)
我们的目标是求解一维Burgers' Equation。我们将编写一个函数。
2025-08-19 23:22:15
28
原创 【PINN高级教程】范式融合与前沿应用 第5讲:贝叶斯推断与生成式建模的深度融合
正规化流(Normalizing Flow, NF)通过一系列可逆变换把简单分布映射为复杂后验,从而获得更好的表达能力。算子学习保持映射的物理正确性。贝叶斯推断给出了自然的框架,但直接对高维函数空间做采样(如 MCMC)几乎不可行。1️⃣ 在自己的 PDE 上跑一遍完整的 Bayesian PINN 流模型。的学习机制深度融合,以在保持物理一致性的前提下,高效地从后验分布中采样。2️⃣ 将每个 θ 直接映射到 FNO 权重,得到不同解的采样。的后验 p(θ∣x,y)p(θ∣x,y) 进行近似。
2025-08-19 22:40:15
260
原创 【PINN高级教程】 第3讲:架构设计中的物理先验 对称性、不变性与等变性
:对称性编码使模型在少量数据下实现高精度,泛化至训练分布外样本,并保证预测符合物理规律(如能量守恒、旋转不变性),显著提升科学计算的可靠性。下面给出每个方法的完整代码(Python 3.10+, PyTorch 2.x, e3nn v0.4+),并在。🧪 你可以用真实的 QM 数据替换 Lennard‑Jones 生成的数据,效果会更好。(旋转、平移、置换等)直接写进神经网络的结构里,而不是靠数据增强去逼近。通过参数化能量函数而非直接学习动力学,保证物理约束。换成相应尺寸,模型结构保持不变。
2025-08-19 21:41:55
29
原创 【PINN高级教程】 第2讲:优化方法、收敛动力学与隐式偏置 文末附代码
通过上述推导与可视化,听众可以直观理解 PINN 训练过程中的“黑箱”机制,并获得调参、加速收敛的理论依据。
2025-08-19 21:08:10
38
原创 【PINN高级教程】 第1讲:函数空间与逼近理论
结论:在解决偏微分方程(PDE)时,解往往属于某个 Sobolev 空间 HsHs,其正则性受限于 PDE 的系数与边界条件;而 PINN 在训练过程中实际上是在逼近 Barron 空间中的函数。由于 Barron 空间允许高频信息的压缩,PINN 可以在参数规模较小的情况下捕捉到 PDE 解所需的细节,但其正则性保证仍然比 Sobolev 更弱。因此,在设计 PINN 时,需要通过正则化或网络结构(如残差连接、归一化层)来“逼近”Sobolev 正则性。
2025-08-19 20:50:37
34
原创 PINN高级教程 物理驱动的AI——理论、范式与前沿(研究员深度版)
超越“维度越高越难”,从覆盖数(Covering Number)和伪维度(Pseudo-dimension)角度分析神经网络在高维PDE求解中的样本复杂度和参数复杂度。:设计在物理定律(如伽利略不变性、洛伦兹协变性)下保持等变性的网络层(如G-CNNs, Steerable CNNs, E(n)-GNNs)。:如何设计一个统一的框架,无缝地在微观(如分子动力学)和宏观(如连续介质力学)尺度之间传递信息?:将复杂的微分算子分解为一系列更简单的、可学习的算子基,提升神经算子的组合泛化能力。
2025-08-19 20:24:57
331
原创 【大模型微调与量化推理】第二章 参数高效微调(PEFT)深度解析:从原理到实践
大规模预训练模型的出现无疑是人工智能领域的一场革命。然而,其庞大的体积为下游特定任务的适配(即“微调”)带来了严峻的挑战。传统的全量微调(Full Fine-Tuning)方法,即更新模型中的每一个参数,不仅计算成本高昂、存储开销巨大,还极易引发“灾难性遗忘”(Catastrophic Forgetting)问题。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)正是在这一背景下应运而生的一种强大而优雅的解决方案。
2025-08-15 20:28:09
31
原创 【大模型微调与量化推理】第一章 前沿大模型微tuning与量化
大型语言模型(LLMs)的出现,以前所未有的规模统一了自然语言处理的诸多任务,展现出惊人的零样本(Zero-shot)和少样本(Few-shot)能力。然而,这一成功并非没有代价。一方面,预训练模型的“通用性”与特定领域或特定任务的“专用性”之间存在天然的鸿沟。另一方面,这些模型动辄数百亿甚至数万亿的参数量,带来了巨大的计算和存储开销,使得在资源受限的环境下进行高效训练和推理部署成为一个严峻的挑战。本部分提供的代码旨在揭示算法的核心逻辑,为保证清晰性,省略了部分工程化的封装,但确保了功能的完整性和高效性。
2025-08-15 20:08:08
30
原创 大模型微调与量化推理的深度解析
2.4.1 LoRA-Adapter Fusion: 模型合并与集成的最新技术 (e.g., TIES-Merging, DARE)2.2.5 最新研究(2024-2025): AdaLoRA (动态调整秩), VeRA (冻结随机矩阵) 等新兴方法的对比与分析。6.3 OQA (Outlier-aware Quantization-Fine-tuning): 协同处理离群值问题。5.3.2 结合PEFT的QAT:LORA-FA(LoRA-Fine-tuning-aware QAT)等方法的思路。
2025-08-15 20:00:52
289
原创 【具身智能】第十章 仿真到真实 (Sim-to-Real) 部署:跨越现实鸿沟
《跨越现实鸿沟:具身智能从仿真到实战的三重技术》摘要 本文深入探讨了具身智能面临的核心挑战——现实鸿沟,并提出三大关键技术解决方案。现实鸿沟表现为仿真环境与真实世界在视觉(纹理/光照/传感器噪声)和动力学(物理参数/执行器差异)两方面的差异。作者系统性地介绍了三种核心方法:域随机化通过创建多样化训练环境增强策略鲁棒性;域适应学习仿真与现实的映射关系;系统辨识精准识别真实物理参数。文章通过CartPole环境实验证明,经过域随机化训练的智能体在新环境中的平均奖励比固定环境训练的智能体高出40%。最后,详细解析
2025-08-09 14:53:17
46
原创 【具身智能】第九章 基准复现与创新:从模仿到超越的科研方法论 附完整源码
摘要:本文介绍了算法研究员ZhuChunSHU关于具身智能导航算法的系统研究,包括从原理到实践的完整流程。作者重点讲解了如何选择合适的前沿开源项目进行复现(如CLIP-Nav算法),通过消融实验分析各模块贡献,并提出创新性改进方案。文章还提供了完整的算法实现代码,包括占据栅格地图、A*路径规划、动态窗口方法等核心模块。通过SemExp架构案例,展示了从探索到目标导航的完整决策流程。该研究为算法复现与创新提供了方法论指导和实践参考。
2025-08-09 14:39:09
46
原创 【具身智能】第八章 基于LLM/VLM的导航方法 实战:前沿项目代码解析
本文分享了智能机器人系统的关键技术实现,包括提示工程、视觉语言模型处理和高效缓存机制。作者ZhuChunSHU(985硕士,算法研究员,曾获多项AI竞赛奖项)通过教学代码展示了如何:1)构建结构化提示激发LLM潜力;2)将VLM输出转化为结构化知识;3)设计基于上下文哈希的智能缓存。完整代码实现了"感知-思考-行动"闭环,包含LLM/VLM处理器、场景记忆模块和机器人控制器,演示了从寻找苹果到任务完成的完整流程。文章特别强调了提示工程如何为AI注入"灵魂",以及高效缓
2025-08-09 14:30:01
37
原创 【具身智能】第七章 基于LLM/VLM的导航方法
【摘要】本文介绍了大型语言模型(LLM)和视觉语言模型(VLM)在机器人导航中的创新应用。作者ZhuChunSHU(985硕士/算法研究员)通过三个核心范式展示技术原理:1)LLM作为认知规划器(SayCan框架),通过任务分解与可行性评估实现智能决策;2)VLM构建语义地图,为A*算法提供基于视觉的启发式函数;3)NavGPT框架结合场景记忆与多模态推理。文章包含完整代码实现,演示了如何将"感知-行动"循环升级为"感知-认知-行动"范式,并附有实际应用案例(如家庭服
2025-08-09 14:21:39
37
原创 【具身智能】第六章 模块化导航与交互方法 附完整源码
本文介绍了模块化导航与交互方法的核心组件及实现代码。主要内容包括:1)占据栅格图构建方法,通过激光扫描数据更新地图;2)A*路径规划算法实现,在栅格地图上寻找最优路径;3)动态窗口方法(DWA)局部规划器实现,用于避障导航;4)SemExp前沿模块化模型的架构级伪代码,展示语义感知探索决策流程。文章提供了完整的Python代码实现,涵盖从地图构建到路径规划的完整导航流程,适合机器人导航算法开发者参考使用。
2025-08-09 14:03:33
39
原创 【具身智能】第五章 基于世界模型的方法 (World Model-based) 完整代码在文章末尾
摘要:本文介绍了基于世界模型的强化学习方法(World Model-based),该方法通过构建环境模型在"梦境"中进行高效学习,显著提升样本效率。文章详细解析了DreamerV3和TWM(Transformer World Model)两种代表性算法,并提供了简化版实现代码。主要内容包括:1)世界模型三大核心组件(表征学习、动态预测、行为学习);2)在Pendulum和CartPole环境中的代码实现;3)与传统Model-Free方法的对比优势(样本效率高、泛化能力强、支持显式规划)
2025-08-09 13:47:07
43
原创 【具身智能】第四章 端到端导航与交互方法 含详细源码
摘要:本文介绍了端到端导航与交互方法在具身智能领域的应用,重点分析了模仿学习(IL)和强化学习(RL)两种核心算法。作者详细讲解了Dagger算法解决模仿学习中协变量偏移问题的原理,并提供了PPO算法的完整实现代码。通过两个典型案例(ZSON基于CLIP的零样本导航和PIRLNav结合模仿与强化学习的方法),展示了端到端模型在实际应用中的优势。文章包含大量可运行的Python代码示例,适合算法研究人员和AI开发者参考。
2025-08-09 13:29:58
39
原创 【具身智能】第三章 Habitat 3.0:从核心API到复杂任务的深度实践 完整代码在文章末尾
Habitat3.0深度实践指南:从API到复杂任务 本文深入探讨了Habitat3.0仿真平台的核心功能与应用。文章首先解析了环境配置、传感器系统(包括IMU和力传感器)以及动作空间设计等关键技术细节。通过一个完整的Python示例,展示了如何构建物理交互环境、配置多模态传感器,并实现物体操控和关节控制。 重点介绍了HAB基准测试的两个典型任务:"TidyaHouse"和"Prepare a Meal",分析了其面临的语义理解、任务规划和约束满足等挑战。文章提供了标
2025-08-09 13:11:45
65
原创 【具身智能】第二章 Habitat 3.0 仿真平台详解:从像素到物理,开启交互新纪元
《Habitat3.0:具身智能的物理交互新纪元》 本文深入解析Meta最新发布的Habitat3.0仿真平台,揭示其如何突破传统"观察世界"的局限,实现"改变世界"的范式革命。作为具身智能研究的重要工具,Habitat3.0通过四大创新特性构建物理交互桥梁:1)基于约束求解器的稳定物理引擎;2)支持冰箱/抽屉等关节式物体的运动学链交互;3)通过动态约束生成实现的抓取物理模拟;4)引入可交互仿真人推动人机协作研究。文章详细剖析技术原理,提供可运行的关节物体交互代码示例
2025-08-09 12:58:01
51
原创 【具身智能】第一章 目标导向导航(Goal‑Oriented Navigation, GON)——完整理论剖析 含源代码实现,代码在文末
本文介绍了一个基于深度学习的机器人目标导航系统框架,包含感知定位、语义建图、路径规划和低层控制四个模块。系统采用可微结构设计,支持端到端训练。关键技术包括:视觉-惯性里程计定位、SAM语义分割、CLIP目标对齐、GNN/Diffusion路径规划器,以及PID/MPC/Diffusion控制策略。实验在Habitat-Sim和Gazebo环境中验证,结果显示Diffusion规划器在动态环境中表现优异(SPL>0.5)。文章提供了完整的代码结构和训练流程,支持从仿真到真实环境的迁移学习。
2025-08-08 21:27:11
44
原创 具身智能:目标驱动导航的前沿理论与实战
【摘要】本专栏由985硕士、算法研究员ZhuChunSHU主持,他专注深度学习研究,曾获阿里云天池等多项算法竞赛奖项,持有发明专利,并成功辅导非科班学生转行算法领域。专栏将分享机器学习与深度学习的专业见解,助力读者成长进步。欢迎关注共同探索前沿技术世界。
2025-08-08 13:18:09
218
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人