自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1711)
  • 收藏
  • 关注

原创 【点击领取】点击领取AI大模型2025最新学习资料、视频教程、学习路线,存下吧很难找全的!

按惯例,先说下我基本情况。我是95年的,计算机专业普通本科毕业。在一个二线城市,毕业后因为自身能力问题、认知水平问题,再加上运气不好,换过多份工作,每份工作都干不长。导致我30岁时,还一事无成,也几乎没有积累到什么经验技术、行业知识等。甚至还一度去开过网约车,送过外卖。最后还是干了老本行—程序员。作为程序猿,我也有想法转行做AI领域,之前也做过类似的开发,但是我没有算法岗的经验,对比一下刚毕业的学生,动不动就是985硕士或者博士,也没有发表过任何论文,没有做过审任何厉害开源的AI领域的项目,有的只是我对

2025-07-15 17:40:19 1088 1

原创 RAG、Agent与本体工程:企业AI落地的三大关键要素

【AI创业者的血泪顿悟:企业AI落地的灵魂是"本体工程"】 一位AI创业者自述从RAG到Agent的踩坑经历:最初迷信RAG技术,却发现其本质是"高级搜索+随机生成",导致AI把财务问题回答成食堂菜单;转向Agent框架后,数字员工却陷入无限循环的"表演式工作"。直到遇见行业老炮才明白:当前AI应用的最大瓶颈不是模型能力,而是缺乏对企业业务概念的"本体化"理解。 文章揭示了Palantir成功的核心方法论——通过"本体

2025-08-23 12:00:00 416

原创 学习上下文工程邪修版,万字详解啥是“上下文处理(Context Processing)”

本文系统介绍了大语言模型中的"上下文处理"技术,主要解决四大核心问题:处理超长上下文、多模态信息融合、结构化数据整合以及构建自优化机制。文章详细阐述了长上下文处理的架构创新(如Mamba、LongNet等)、多模态整合技术(CLIP、Q-Former等)、知识图谱与结构化数据的处理方法,以及通过元学习和记忆增强实现的自我优化框架。作者指出这些技术正在推动AI从被动执行转向自主进化,并强调在技术浪潮中持续学习的重要性。最后提供了包含104G学习资源的AI大模型入门礼包,涵盖从基础到进阶的全

2025-08-23 09:00:00 311

原创 一图看懂传统 RAG 与 Agentic RAG 实战差异:哪个更适合你?

本文对比了传统RAG与AgenticRAG两种检索增强生成技术。传统RAG采用线性"检索-生成"流程,结构简单但处理复杂查询能力有限。AgenticRAG引入智能体概念,通过查询重写、工具选择、循环迭代等机制实现更智能的决策过程,能处理多跳推理和复杂任务,但系统复杂度更高。文章指出,随着AI应用复杂度提升,AgenticRAG代表了RAG技术的发展趋势,它将LLM从被动生成器转变为能主动思考执行的智能体。文末还提供了AI大模型学习资源包信息。

2025-08-22 17:29:04 457

原创 RAG(检索增强)当主要的问题以及评估方法

RAG(检索增强生成)系统虽能提升大模型回答的准确性,但仍面临"垃圾进垃圾出"问题,主要体现在检索不精准、上下文构建不当、生成质量差和评估困难四方面。业界通过智能切分、查询重写、混合搜索、重排等技术优化检索,采用上下文压缩和图RAG改进上下文构建,并通过指令微调提升生成质量。同时涌现出LangChain、LlamaIndex等开源框架和RAGAs等评估工具,为构建高效RAG系统提供支持。

2025-08-22 17:21:12 332

原创 Java程序员转型大模型应用开发:掌握这12步就够了!

Java开发者AI转型指南 面对AI技术浪潮,Java开发者具备独特转型优势:严谨的工程化思维、企业级开发经验和分布式系统能力。本文提出渐进式转型路径,建议从AI赋能Java开发入手,逐步掌握Python、大模型原理等核心技能。关键是将Java工程经验迁移至AI项目,如设计模式应用、性能优化思维等。推荐分阶段学习计划,包含数学基础、大模型专项能力和实战项目路线(智能文档处理→知识问答系统→分布式微调平台)。转型过程中需避免"全栈式学习"误区,建议聚焦AI工程化方向,把握"保Ja

2025-08-22 16:47:31 524

原创 DeepSeek-V3.1 深入解析:四大新亮点与一个被忽略的信号

就在刚刚,DeepSeek 正式发布其最新版本 DeepSeek-V3.1 模型。一种模型,两种体验。DeepSeek-V3.1 的核心创新在于混合推理能力。用户可以通过「深度思考」按钮在思考模式和非思考模式之间自由切换。

2025-08-22 16:16:12 703

原创 从BERT到Qwen3:Embedding技术的八点总结

《通用文本嵌入技术综述:从PLM基础能力到多模态扩展》 摘要:本文系统梳理了基于预训练语言模型(PLM)的通用文本嵌入(GPTE)技术发展。核心架构采用Bi-Encoder+对比学习范式,通过CLS/Mean等池化方法从BERT、T5等PLM中提取特征。研究揭示:1)模型规模与性能正相关,但解码器架构需更多参数;2)数据合成、对比学习和长上下文窗口是性能提升关键;3)技术正向多模态(图文/视频检索)、多语言(跨语种零样本检索)和代码嵌入(UniXcoder等)扩展。未来趋势聚焦推理能力增强、安全性和特征解耦

2025-08-22 16:08:06 440

原创 智能体(Agent)全景拆解:揭秘核心模块、技术实现与业务落地

AI智能体正成为下一代技术革命的核心,通过"大脑(LLM)+身体(工具)+记忆(知识库)+目标(任务)"的架构,实现从被动问答到主动执行的跨越。文章详细拆解了智能体的四大核心模块:感知理解、规划决策、工具调用和执行反馈,并提供了从0到1构建智能体的技术架构和业务落地指南。典型案例显示,在政务、金融、电商等领域,智能体已显著提升效率。未来将向多Agent协作、具身智能等方向发展。文章还附赠AI大模型学习资源包,帮助从业者掌握这项变革性技术。

2025-08-22 15:48:08 294

原创 智慧医疗“健康大脑”实践指南:医疗AI在医疗健康服务中的应用

摘要:智慧医疗"健康大脑"依托智能计算中枢,正推动医疗模式从"病后治疗"向"风险预测+全程管理"转型。文章系统分析了其三大核心功能(风险预测、健康管理、决策支持),指出当前面临的数据孤岛、基层适配不足、政策技术协同欠缺等挑战,并提出建立统一数据标准、优化基层应用、实现三维联动等发展路径。研究强调通过构建"以健康为中心"的医疗生态系统,可有效促进医防融合,为全生命周期健康管理提供新范式。

2025-08-22 15:41:41 670

原创 AI大模型应用开发入门指南:从小白到大神的全面攻略,大模型开发零基础到精通,非常详细收藏我这一篇就好了!

本文介绍了AI大模型应用开发的核心技术,包括LLM、RAG、Agent、Prompt等关键概念。重点解析了大模型的工作原理:通过API交互,基于Messages参数实现对话"记忆"功能,但本质上每次请求都是无状态的。文章详细阐述了RAG(检索增强生成)技术的工作流程和挑战,以及Tools参数如何让大模型调用外部工具。此外,还介绍了ReAct(推理+行动)模式的行为逻辑,并通过数学计算案例展示了Agent框架的运作方式。这些技术共同构成了AI大模型应用开发的基础体系。

2025-08-21 10:54:53 847

原创 大模型应用开发全指南:一篇超详细的流程解析,非常详细收藏这一篇就够了!

摘要 本文系统介绍了大模型应用开发的整体流程和方法。作者指出,大模型开发的核心在于通过API调用和Prompt Engineering来发挥模型的文本理解与生成能力,而非直接修改模型结构。开发流程包括:确定目标、设计功能、搭建架构(推荐LangChain框架)、构建向量数据库、Prompt工程优化、验证迭代、前后端开发(推荐Gradio/Streamlit)及持续体验优化。与传统AI开发相比,大模型开发更注重工程实现而非模型训练,通过Prompt链路替代子模型训练,显著降低了开发门槛。文章最后提供了大模型学

2025-08-21 10:51:00 705

原创 专业解读:DeepSeek R2技术让AI读长文速度提升11倍

DeepSeek与北京大学联合研发的"原生稀疏注意力"(NSA)技术获得ACL 2024最佳论文奖。该技术突破性地将稀疏注意力机制应用于完整训练流程,在保持模型性能的同时实现11倍推理加速。NSA通过模仿人类阅读策略(压缩摘要、精选重点、滑动窗口),有效解决大模型处理长文本时计算量暴增的问题。测试显示,搭载NSA的27B模型在多项基准测试中超越全注意力模型,并在64k长文本中实现100%信息检索准确率。这项技术已通过完整预训练验证,预计将应用于DeepSeek下一代大模型,显著提升长文本

2025-08-21 10:45:12 497

原创 深入解析MoE模型:一篇超全面的指南,非常详细收藏我这一篇就够了

本文系统介绍了混合专家模型(MoE)技术的核心原理、发展历程及在AI大模型领域的应用价值。MoE通过条件计算机制将庞大神经网络分解为多个专家子网络,配合门控系统实现稀疏激活,在保持模型容量的同时大幅降低计算成本。文章详细剖析了MoE的三大核心组件、训练挑战及优化技术,并对比了其与稠密模型的性能优势。随着MoE技术从NLP向视觉和多模态领域扩展,开源框架和推理引擎的完善使其成为构建万亿参数模型的关键技术。文末还提供了大模型学习的全套资源包,助力AI从业者掌握这一前沿技术。

2025-08-21 10:31:43 472

原创 大模型提示词编写与优化:超级详细教程,让你的模型更出色

要编写并优化大模型提示词,关键在于清晰明确地定义任务目标、提供充足的上下文信息、设定具体的输出期望(如格式、风格、角色扮演),并通过迭代优化逐步改进提示效果。针对特定任务(如写作、编程、数据分析),需结合任务特性设计提示词,例如分步引导、提供关键参数、明确问题与期望等。本教程将详细阐述这些原则与技巧,并提供大量实战案例。

2025-08-21 10:28:01 711

原创 LLM微调框架大比拼:4款顶级选择

【150字摘要】大模型微调工具推荐:Unsloth适合个人快速实验(2倍提速,80%显存节省);Axolotl提供YAML全流程管理;LlamaFactory支持零代码GUI操作;DeepSpeed专攻万亿级参数训练。附赠104G大模型学习资源包(含视频教程/路线图/电子书/面试题),由清华博士团队整理,适合零基础转行或技术提升。智泊AI提供"理论+实战"培养体系,覆盖数据清洗到模型部署全流程。资源免费领取,助力AI职业发展。

2025-08-21 10:20:10 702

原创 2025年,身边遍地都是失业的中年人!

2025年。北京。或者上海。或者任何一个你叫得上名字的所谓新一线城市。天气好的下午,别去写字楼。要去咖啡馆。尤其是那种开在园区里, 设计得像个北欧客厅, 一杯美式卖你38块钱的地方。你会看到奇观。遍地都是中年男人。

2025-08-21 10:17:00 754

原创 大模型部署新趋势:从 Ollama 到 vLLM 的必然之路

【大模型框架选择指南:Ollama与vLLM深度对比】 本文详细对比了两种主流LLM框架的核心差异与应用场景: 核心定位 Ollama:轻量级本地工具,适合快速原型开发与隐私敏感场景 vLLM:高性能推理引擎,专为生产级高吞吐量场景优化 关键差异 • 性能:vLLM的PagedAttention技术将内存浪费控制在4%以下,吞吐量可达Ollama的3.23倍 • 扩展性:vLLM支持多GPU并行,而Ollama仅适合单机部署 • 适用场景:Ollama适合个人开发者,vLLM适合企业级应用 决策建议 选择O

2025-08-21 10:15:02 910

原创 专业解析:AI智能体在客服质检中的应用与创新

这是一款面向客服场景的智能对话分析工具,通过四阶段自动化流程实现高效质检:1.数据预处理(文件名标准化、内容清洗与结构化);2.并行分析(摘要生成/问题分类/情感评估三模块并行);3.结果聚合(统一数据格式);4.可视化交互(支持上传/进度追踪/多维展示)。工具采用批处理架构,支持4任务并发,结合大模型技术实现智能分析,最后通过代码节点整合输出结构化报告。文末附赠104G大模型学习资源包,涵盖视频教程、技术文档及实战项目。

2025-08-21 10:01:24 621

原创 破局高薪焦虑!大模型应用开发「黄金赛道」入门系统指南:从代码白痴到项目主宰的认知逆袭

摘要:大模型技术革命正在重塑程序员职业格局,传统开发岗位薪资增幅放缓,而AI应用人才缺口达30万。本文系统拆解大模型应用开发的进阶路径:从基础认知到核心技术(Prompt工程、RAG架构等),再到实战项目锤炼。建议开发者建立系统思维、专注垂直领域,通过项目认证和社区贡献实现职业跃迁。文末提供104G大模型学习资源包,涵盖视频课程、技术文档等,助力转型AI开发。

2025-08-20 15:36:04 1010

原创 最后提醒一下大模型面试肚子里没墨水的人,大模型面试面经|入职字节大模型岗面试分享(附答案)非常详细收藏我这一篇就够了

本文介绍了Transformer和BERT模型的关键技术点。首先阐述了Self-Attention机制的计算公式及其设计原理,包括scaling的作用、Layer Norm的优势等。其次分析了BERT特有的技术:position embedding的作用、三个embedding相加的合理性、WordPiece分词的优势等。最后探讨了多头注意力的设计考量,解释了其增强模型表达能力的作用。全文通过问题和解答的形式,深入浅出地解析了这些深度学习模型的核心设计思想。

2025-08-20 15:29:40 809

原创 北京大学:走进人工智能2.0|附53页PDF文件下载

本课程系统梳理人工智能发展历程,聚焦大模型技术原理与产业应用。提供AI通识知识、技术指南及人才能力培养方案,包含视频教程、电子书籍、面试题解等104G学习资源包,适合各类学习者。由专家团队整理,涵盖理论到实践的全方位内容,帮助提升技能实现职业转型。免费获取完整学习资料。

2025-08-20 15:13:42 824

原创 2025年RAG实践手册:构建知识库和问答系统的实战指南|附132页PDF文件下载

在人工智能技术日新月异的今天,越来越多的人希望能够拥有属于自己的智能助手,提升工作效率、优化知识管理,甚至打造个人品牌。《RAG Handbook》正是为此而生。本书将系统性地介绍如何从零开始,基于RAG(Retrieval‑Augmented Generation,检索增强生成)技术,构建一个能够理解和利用个人知识库的智能聊天机器人,并将其无缝集成到你自己的网站或应用中。

2025-08-20 14:47:51 838

原创 一文读懂:人工智能(AI)产业链,非常详细收藏我这一篇就够了!

人工智能(AI)产业链已形成完整的上中下游生态体系,上游提供算力硬件和数据资源,中游聚焦算法模型开发,下游实现多场景应用落地。全球AI市场规模预计2025年突破2.3万亿元,中美领跑市场。当前发展呈现三大趋势:算力需求持续攀升推动硬件创新,端侧AI设备加速普及,人形机器人等新兴应用即将迎来商业化爆发。随着大模型技术突破,AI正深度渗透各行业,成为推动产业升级的核心驱动力。为应对人才缺口,业内已建立系统化培养体系,涵盖从技术理论到产业实践的完整学习路径。

2025-08-20 14:43:44 836

原创 12张动图全面剖析MCP/RAG/Agent/Cache/Fine-tuning/Prompt/GraphRAG核心技术,一网打尽

本文通过12张动图系统解析了AI大模型核心技术,涵盖MCP、RAG、Agent等关键概念。主要内容包括:1)LLM训练四阶段(预训练到推理微调);2)三种推理提示技巧;3)模型蒸馏技术;4)监督与强化微调区别;5)Transformer与MoE架构对比;6)传统RAG与智能体RAG的差异;7)5种AI智能体设计模式;8)图RAG解决传统RAG的局限性;9)KV缓存加速推理技术。文章还附带大模型学习资源包,包含视频教程、路线图等技术资料,适合不同基础的学习者。

2025-08-20 14:20:58 637

原创 智能化医院科教管理新时代:AI驱动的高效系统

智能AI医院科教管理系统最近一段时间没有更新了,今天我们继续基于医疗行业在智能科教信息化方面的产品设计,给大家再来继续探讨一下。在医疗健康产业数字化转型的浪潮中,人工智能技术正在深刻重构医院科研与教育管理模式。随着医学领域的快速发展,医学教育与科研的需求不断增长,对医院科教工作提出了更高的要求。作为医疗领域的产品经理,我们面临着前所未有的机遇与挑战:如何将前沿AI技术与临床科研、医学教育、医院管理深度融合?如何构建真正满足医护人员需求、提升科研效率、优化资源配置的智能系统?

2025-08-20 14:16:26 978

原创 提示词、提示词工程与上下文工程:一篇文章带你全面了解

本文系统介绍了AI提示词工程和上下文工程的技术演进与应用方法。从基础的单次提示词交互,到结构化优化的提示词工程,再到多维度信息管理的上下文工程,展现了AI交互技术的迭代发展。文章提供了两种实用提示词模板(常规任务和复杂任务),并推荐了PromptPilot、LangSmith等工具进行提示词优化和版本管理。同时介绍了"魔法词"技巧和上下文工程的三套协同方案(分层设计、动态调整、模块化模板)。文末还提供了由业内专家整理的104G大模型学习资源包,包含视频教程、学习路线、技术文档等,适合不同

2025-08-20 14:02:30 547

原创 AI产品经理面试高级指南:20个问题及解题技巧、注意事项深度解析,非常详细收藏这一篇就够了

本文为AI产品经理面试备考指南,包含20道高频真题(涵盖项目经验、数据处理、算法理解、伦理问题等),并提供了STAR/CAR结构化答题技巧。强调面试前需进行设备检查、案例准备和模拟训练,回答时需注意逻辑清晰、案例多样。文末附赠104G大模型学习资源包(含视频教程、路线图、电子书及面试题解),由资深从业者与专家联合整理,适合不同基础的学习者,助力转行AI领域。

2025-08-19 21:27:17 1181

原创 AI大模型面试面经|AI大模型面试八股含答案,大模型零基础入门到精通非常详细

本文总结了Transformer和BERT模型的核心知识点。重点包括:1)Self-Attention机制及其缩放原理,解释了为什么需要对QK进行scaling以防止梯度消失;2)LayerNorm与BN的对比分析,说明NLP中采用LayerNorm的合理性;3)BERT的三个embedding相加原理;4)多头注意力的优势及实现方式;5)WordPiece/BPE分词方法的作用,避免OOV问题同时平衡词表大小。文章还讨论了位置编码的必要性、QKV设计的考虑因素等技术细节,为理解大模型的核心机制提供了系统性

2025-08-19 21:19:22 894

原创 深入解析Agent路由(Router):模式、平台与最佳实践的专业解读

在 AI 进入“全民 Agent”时代后,越来越多的应用不再依赖单一大模型,而是通过多个专职代理(Agent)协同工作,去完成复杂任务。比如一个电商智能客服场景,用户输入“我忘了登录密码,还想查询信用卡账单”,背后可能需要登录助手、信用卡助手、知识库检索助手多个代理协同处理。问题来了:到底该把用户请求路由给哪个代理? 如果路由错了,不仅会让系统答非所问,还会增加调用成本,甚至引发用户对 AI 系统的“信任崩塌”。这就是 AI Agent路由(AI Agent Routing) 的核心价值所在。

2025-08-19 21:05:53 848

原创 谷歌AI Agent白皮书从入门到精通:企业级AI智能体落地的三大核心逻辑,全面提升技能

本文系统解读了AI智能体从实验室走向实际应用的关键路径。首先阐述了AI智能体的三大核心架构(模型、工具、编排层),然后提出了完整的运营方法论(AgentOps),重点解决工具管理、步骤追溯和持续优化三大问题。文章详细介绍了评估AI智能体的三个维度(基础能力、做事步骤、评分机制),并深入探讨了多智能体协同模式及其在科研领域的成功案例。最后指出AI智能体落地应用的三大关键要素:体系化运营、多维评估和协同合作,为AI技术从理论走向实践提供了系统化的实施框架。

2025-08-19 20:55:45 645

原创 RAG多轮会话优化:从查询重写到高级策略,如何实现高效对话?

本文探讨了如何优化RAG系统的多轮会话能力,提出查询重写(Query Rewriting)作为核心策略。通过将当前问题与对话历史结合生成独立完整的新问题,有效解决上下文依赖问题。文章以LlamaIndex和LangChain框架为例,展示了具体实现方案,包括CondenseQuestionChatEngine和ConversationalRetrievalChain的应用。此外还介绍了进阶优化策略,如上下文管理、查询扩展、混合搜索等。最后强调,查询重写是提升RAG系统对话能力的基础技术,结合更高级的技术手段

2025-08-19 20:53:07 553

原创 人机协作:开启智能新时代!揭秘基于人机协作的AI策略

文章摘要:本文探讨了AI智能体的发展现状与局限性,指出当前智能体系统虽能执行复杂任务,但仍面临模型幻觉、执行偏差等问题。文章提出"人在环路"(HITL)干预策略,建议将人类深度整合到智能体生命周期中,包括共同规划、执行、合规等环节。同时介绍了智能体AI的参考架构、风险管理框架,并强调需要针对不同场景设计专门的UI/UX支持人机协作。最后指出,有效的人机协作策略是推动企业级智能体应用落地的关键。

2025-08-19 20:24:18 874

原创 医疗AI领域的突破!DiagGym推出首个开源虚拟临床环境,开启智能诊断新篇章

【AI大模型医疗诊断新突破】研究团队推出首个开源虚拟临床训练平台DiagGym,通过强化学习训练7B-14B参数规模的DiagAgent诊断模型。该平台模拟真实诊疗流程,支持多轮交互式诊断决策,在MIMIC-IV数据集测试中,DiagAgent-14B诊断准确率达86.73%,较现有最优模型提升15.12%。创新性体现在:1)高保真电子病历模拟系统;2)闭环强化学习训练框架;3)动态检查推荐机制。所有模型已在HuggingFace开源,为医疗AI发展提供安全可靠的训练环境。

2025-08-19 19:47:40 945

原创 大模型时代来临!招聘市场疯狂,AI人才成为最热门的职业

AI大模型技术迎来爆发期:GPT-5发布领跑全球,国产模型占据开源榜前十中的六席。行业掀起人才争夺战,华为等企业开出70-154万年薪争抢AI人才,超1000家企业发布相关岗位。大模型全栈工程师成为稀缺高薪职业,需掌握Agent、RAG等前沿技术。为助力转型,某机构推出免费2小时直播课程,涵盖大模型技术原理、微调实战及商业化应用案例解析,并提供大厂内推机会和104G学习资源包,由清华博士团队研发,包含视频教程、面试题库等完整学习体系。

2025-08-19 17:57:42 501

原创 大模型的训练数据解决方案!非常详细收藏我这一篇就够了【2025最新】

本文探讨了大模型训练数据的关键要素及处理方法。研究表明,数据质量比数量更重要,微软实验显示高质量小数据集训练的模型性能可超越大规模模型。文章详细介绍了三类数据预处理方法:质量过滤(分类器/启发式)、冗余去除和隐私消除,并分析了标注数据在微调中的作用。同时列举了当前主流公开数据集(如ALIGN、CommonCrawl等),并强调自动化处理和多模态数据对齐的重要性。文末附赠大模型学习资源包,包含视频教程、技术文档和实战项目,适合不同基础的学习者提升技能。

2025-08-19 17:52:10 854

原创 通俗易懂!动画演绎Transformer工作原理,秒懂复杂算法

摘要:本文详细解析了Transformer的工作原理及其在GPT模型中的应用。Transformer通过四阶段处理流程(Embedding向量化、Attention注意力机制、MLPs多层感知机、Unembedding输出)实现高效信息处理。其中,Embedding将文本转化为向量表示,Attention机制建立语义关联,MLPs进行非线性特征提取,最终通过Softmax输出概率分布。文章还介绍了Transformer在多模态数据处理中的优势,并附带了大模型学习资源包的信息,包含视频教程、技术文档等资料,适

2025-08-19 17:43:14 536

原创 2025年,大模型继续称霸!

《2025大模型技术趋势:从万亿参数到安全对齐》摘要 本文梳理了6篇前沿大模型研究论文,揭示2025年AI发展的关键技术方向:1)BOND算法通过Best-of-N蒸馏实现高效对齐;2)Q-Misalign攻击揭示量化模型安全隐患;3)Mask-DPO提升LLM事实准确性;4)RMB基准暴露奖励模型泛化缺陷;5)ISE技术通过指令嵌入增强安全性;6)TODO算法改进三元偏好对齐。研究显示,大模型发展正从参数竞赛转向安全、对齐、轻量化等深层次优化,同时配套提供了104G大模型学习资源包,涵盖提示工程、RAG等

2025-08-19 17:30:47 757

原创 大模型学习,到底该怎么做?过来人无保留分享,一篇解决你的所有困惑!

《从零到亿:大模型技术全栈学习指南》作者自述2019年入行AI领域的经历,当时国内仍以传统NLP技术为主。随着Transformer架构的突破,作者系统整理了大模型技术体系,推出8章完整学习路径:1)基础理论(词向量、Transformer等);2)训练推理技术;3)微调与蒸馏;4)评估方法;5)优化技术;6)主流模型解析;7)分布式训练;8)面试题库。该指南涵盖从理论到实践的完整知识体系,配套104G学习资源包,适合各阶段学习者,旨在帮助更多人把握AI时代机遇。

2025-07-30 14:08:52 929

原创 【腾讯二面】高频考点:BF16和FP16的区别,深度解析助你通关!

浮点数由符号位、指数位和尾数位组成,不同格式(如FP16、BF16、FP32)在范围和精度上各有特点。BF16因与FP32兼容、计算高效且训练稳定,成为AI大模型训练的首选。为帮助学习AI技术,提供包含104G从入门到进阶的免费学习资源包,涵盖教程、路线图、电子书和实战项目,适合各类学习者提升技能或转行。

2025-07-30 14:06:05 786

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除