- 博客(166)
- 收藏
- 关注
原创 【AI学习】大模型微调实践
参与了书生・浦语(InternLM)端侧小模型论文分类微调练习打榜赛,经过十多天的反复尝试和优化,最终在AB榜单中跻身前十。
2025-07-11 21:47:24
256
原创 【论文阅读】A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models
论文的核心研究动机源于当前人工智能领域,尤其是大型语言模型(LLMs)在取得显著进展的同时,其内部机制的不可解释性带来的严峻挑战。近年来,以GPT-4、Claude-3.5等为代表的LLMs在文本生成、问答系统、逻辑推理、代码编写等任务中展现出接近甚至超越人类的能力。然而,这种强大性能的背后是极为复杂的神经网络架构(如Transformer)和海量的参数量(通常超过千亿级别),导致模型决策过程高度不透明,形成了所谓的“黑箱”问题。
2025-06-22 22:02:55
1044
1
原创 【AI学习】李广密与阶跃星辰首席科学家张祥雨对谈:多模态发展的历史和未来
非常赞叹的一篇文章,说清楚了NLP、CV发展中的许多重大问题,读来醍醐灌顶!这样的文章,至少需要读三遍!
2025-06-09 15:37:44
642
1
原创 【AI学习】wirelessGPT多任务无线基础模型摘要
收看了关于WirelessGPT多任务无线基础模型的演讲视频,应该说,在无线通信大模型的探索方面,有一个非常有益的尝试。
2025-06-07 15:55:06
562
原创 【论文学习】Model Context Protocol (MCP): Landscape, Security Threats, and Future Research Directions
来自华中科技大学的研究者发了一篇MCP的综述论文。这篇文章,可以作为学习MCP的学习资料,论文全面分析了模型上下文协议(Model Context Protocol, MCP)的生态系统,探讨了其架构、核心组件、工作流程、服务器生命周期,以及在创建、运行和更新阶段的安全风险,并提出了未来研究方向和建议。
2025-06-07 15:47:49
833
原创 【AI绘画】Ottohans Beier风格雕刻版画
雕刻的线条所描绘的世界,拥有着让人沉浸其中无法自拔的独特之美,其兼具建筑般的理性与诗歌般的感性。雕刻是一门与物质博弈的艺术,雕刻刀穿透木板、金属的过程,如同在时光中凿刻永恒的密码。它摒弃了画笔的柔软,以刀锋为媒介,在雕刀与金属刻版的对抗中催生出独一无二的视觉语言——每一道刻痕都是创作者呼吸的延伸,每一块负形都是被解放的沉默之声。雕刻的魔力在于其不可逆的“减法哲学”。艺术家需在刀落之前预见线条的生命轨迹,这种在限制中迸发的创造力,让雕刻成为最接近匠人精神的当代艺术。线条不仅是轮廓的勾勒,更是情绪的震颤……
2025-05-05 17:17:22
400
原创 【论文速读】《Scaling Scaling Laws with Board Games》
其实就是想理解一下训练时计算量和测试时计算量之间的权衡关系
2025-04-30 21:48:41
1152
原创 【AI工具】DeepWiki试用
DeepWiki 是由 **Cognition AI** 公司推出的 AI 驱动平台,旨在将 GitHub 上的开源代码仓库转化为交互式、动态更新的维基百科式文档,帮助开发者快速理解复杂代码库的结构与逻辑。本文进行了初步试用
2025-04-29 18:07:42
929
原创 【AI学习】李宏毅新课《DeepSeek-R1 这类大语言模型是如何进行「深度思考」(Reasoning)的?》的部分纪要
李宏毅新课《DeepSeek-R1 这类大语言模型是如何进行「深度思考」(Reasoning)的?》的部分纪要
2025-04-29 17:41:52
630
原创 【AI学习】OpenAI:《A practical guide to building agents》(中文介绍与原文)
OpenAI最新发布《A practical guide to building agents》,比较有指导意义,做一个介绍。
2025-04-18 22:46:08
1637
1
原创 【AI学习】NVIDIA Sionna平台介绍:《Sionna: An Open-Source Library for Next-Generation Physical Layer Research》
Sionna是NVIDIA推出的面向6G无线通信物理层研究的开源库,为6G的技术研究(尤其是AI方面)提供了全新工具,非常有价值。下面对Sionna平台进行介绍。
2025-04-18 22:37:57
1427
原创 【AI绘画】热烈祝贺“木刻时光·细密风”模型获得三等奖
此模型是为了参加魔搭社区组织的“AI梦:一丹一世界”大赛,大赛最终有283个模型参赛,经过前期的入围评选和最后的专家评选,“木刻时光·细密风”模型获得三等奖。相关赛事链接:https://modelscope.cn/brand/view/dreaming。作为一个工科生,首次涉足艺术领域,就获得这样的成绩,实属来之不易,特此发博纪念!
2025-04-10 22:41:20
252
原创 【AI学习】初步了解Gradio
Gradio 是一个开源的 Python 库,专注于快速构建交互式 Web 界面,特别适用于机器学习模型、数据科学项目或任意 Python 函数的演示与部署。它通过极简的代码实现前后端一体化,无需前端开发经验即可创建功能丰富的应用。
2025-04-07 21:43:18
708
原创 【AI学习】初步了解TRL
TRL(Transformer Reinforcement Learning) 是由 Hugging Face 开发的一套基于强化学习(Reinforcement Learning, RL)的训练工具,专门用于优化和微调大规模语言模型(如 GPT、LLaMA 等)。它结合了 PPO(Proximal Policy Optimization) 等强化学习算法,使开发者能够高效地对预训练语言模型进行 RL 微调,以优化特定目标(如人类偏好对齐、任务性能提升等)。
2025-04-07 21:36:19
958
原创 【AI学习】MCP的简单快速理解
最近,AI界最火热的恐怕就是MCP了。作为一个新的知识点,学习的开始,先摘录一些信息,从发展历程、通俗介绍到具体案例,这样可以快速理解MCP。
2025-04-04 22:45:56
915
原创 【论文阅读】RadioDiff: Effective Generative Diffusion Model for Sampling-Free RadioMap Construction
RadioDiff模型对无线通信领域研究具有显著的促进作用。它为6G网络等提供了精准的无线环境信息,助力网络优化与部署。在智能交通、远程医疗等领域,能保障应用的稳定运行。其高效、精准的无线地图构建能力,为无线通信新技术的研发提供了有力支持,推动了无线通信技术的创新与发展,加速了6G网络等应用场景的实现进程。
2025-03-29 23:00:15
1552
1
原创 【AI绘画】干刻版画的建模尝试
干刻(Drypoint)是一种独特的版画雕刻技艺,其核心在于以刀代笔,直接在金属版(多为铜版或锌版)表面进行雕刻。与需要化学腐蚀的蚀刻法不同,干刻仅依靠物理刻痕完成创作,雕刻师需手持尖锐的钢针,通过手腕力量在版面上划出深浅不一的线条。这种技法最显著的特征在于刻痕边缘会翻起金属毛边(Burr),当油墨填入凹槽后,毛边会吸附更多颜料,最终在印刷时形成朦胧的灰调与柔和的过渡,赋予画面独特的颗粒感和呼吸感
2025-03-22 18:27:22
371
原创 【AI学习】从混元T1看Mamba与Transformer的融合
SSM-Transformer混合架构。具体做法是将自注意力和MLP层添加到Mamba架构中。56层的Mamba-2-Hybrid中包含4个(7.1%)自注意力层,24 个(42.9%)Mamba-2层和28个(50%)MLP 层,其中Mamba-2层使用与Mamba-2模型相同的参数。消融实验的结果还显示,混合模型中不添加旋转位置编码(RoPE)能达到更好的下游任务性能,而且Mamba层、自注意力层、MLP层的顺序也会影响模型能力。具体来说,Mamba层必须出现在架构的开头,以确保模型自然地学习到位置信息
2025-03-22 18:21:09
1276
原创 【AI学习】关于Kimi的MoBA
MoBA论文一作、知乎答主【Andrew Lu】的回答详述了研发过程中三次踩坑的经起伏历,被知友形容为「思维链背后的思维链开源」
2025-03-12 22:16:44
290
原创 【AI绘画】“木刻时光·细密风”模型发布
这一版是针对黑白木刻风格进行Lora微调的第三版模型。对比第一版,能够刻画的更加细腻,泛化性也获得大幅提升。
2025-03-06 22:28:15
451
原创 【AI学习】DeepSeek的发展与行业应对策略
一看AI的技术边界,准确判断AI真的能做什么;二看问题看增量,看自己行业、自己周边的问题和增量机会。
2025-03-06 22:23:50
1042
原创 【AI绘画】黑白木刻之希腊神话系列(一丹一世界)
在魔塔社区的AIGC专区,通过Lora技术训练了一个黑白木刻风格的模型。再通过Deepseek生成希腊神话的提示词。
2025-03-02 21:33:22
983
原创 【AI学习】DeepSeek-R1-Distill的意义和影响
在DeepSeek R1的技术报告中,还有这样一个技术:蒸馏赋予小模型推理能力。这项技术的意义和影响是什么?
2025-02-12 22:12:11
1112
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人