
探索大语言模型(LLM)
文章平均质量分 88
大语言模型的基础概念与公式
艾醒(AiXing-w)
一个摸鱼区的鸽子博主,佛系更新,可私信催更。欢迎大家来群里玩呀 :466120702
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
探索大语言模型(LLM):提升 RAG 性能的全方位优化策略
本文深入探讨了提升检索增强生成(RAG)系统性能的多维度优化策略。文章从标准RAG流程出发,系统介绍了查询增强(假设性问题生成、HyDE、子查询拆分)、索引优化(自动合并文档、分层索引)、检索器升级(句子窗口检索、元数据过滤)、生成器调优(提示压缩、chunk排序)以及全流程增强(自反思、Agent路由)五大类方法。这些技术通过优化RAG各环节,显著提高系统在准确性、效率和鲁棒性方面的表现。文章建议开发者根据具体业务场景(如数据规模、查询复杂度等)选择合适的技术组合,并提供了实践指导原则,为构建高性能RAG原创 2025-07-23 17:31:58 · 823 阅读 · 0 评论 -
探索大语言模型(LLM):Lora vs. QLora:参数高效微调的双生花,你该选谁?
在大型语言模型(LLM)的微调江湖中,参数高效微调(PEFT)技术正以“四两拨千斤”的姿态颠覆传统训练范式。其中,Lora(Low-Rank Adaptation)与QLora(Quantized Low-Rank Adaptation)这对“双生花”凭借独特优势,成为开发者手中的利器。本文将深入剖析二者的技术内核、资源消耗与适用场景,助你在资源与精度间找到完美平衡点。原创 2025-06-19 15:23:15 · 837 阅读 · 0 评论 -
探索大语言模型(LLM):使用EvalScope进行模型评估(API方式)
EvalScope是阿里巴巴魔搭社区开发的开源模型评估框架,提供模型压力测试和性能评估功能。安装过程包括创建conda虚拟环境、安装Jupyter内核和EvalScope组件。压力测试可通过命令行执行,测试指标包括吞吐量、延迟等关键参数。性能评估支持在线数据集和本地数据集两种模式,通过Jupyter Notebook配置评估任务。评估结果可通过可视化看板查看,执行evalscope app命令后访问本地端口即可查看详细报告。该框架为开发者提供了一站式的模型评估解决方案原创 2025-06-10 09:42:19 · 1271 阅读 · 0 评论 -
探索大语言模型(LLM):参数量背后的“黄金公式”与Scaling Law的启示
过去十年,人工智能领域最震撼的变革之一,是模型参数量从百万级飙升至万亿级。从GPT-3的1750亿参数到GPT-4的神秘规模,再到谷歌Gemini的“多模态巨兽”,参数量仿佛成了AI能力的代名词。但参数真的是越多越好吗?这场“军备竞赛”背后,是否隐藏着更底层的规律?今天,我们拆解参数量的决定性因素,并透过Scaling Law(尺度定律)的视角,窥探AI发展的终极密码。原创 2025-06-02 16:08:30 · 681 阅读 · 0 评论 -
探索大语言模型(LLM):RSE流程详解——从文档中精准识别高相关片段
RSE(检索增强摘要生成)流程通过五个关键步骤实现高效信息提取:数据切分将文档分段向量化;相似度筛选保留高相关片段;上下文窗口查找捕捉边界信息;片段总值计算量化整体相关性;阈值筛选确定最终高相关片段。文章结合案例和Python代码示例,展示了该流程在信息检索和摘要生成中的应用优势,并展望了通过优化切分策略、相似度计算和机器学习算法进一步提升其性能的可能性。RSE流程为处理海量文本数据提供了精准高效的技术解决方案。原创 2025-06-02 16:00:40 · 971 阅读 · 0 评论 -
探索大语言模型(LLM):查漏补缺,你真的完全了解大语言模型的术语吗?
在人工智能领域,大语言模型(LLM)已成为技术革新与应用落地的核心驱动力。从参数规模到训练技术,从基础架构到前沿研究方向,理解这些术语是掌握LLM技术的关键。本文将系统解析大语言模型的核心术语,涵盖模型规模、训练方法、优化技术、部署实践及前沿研究方向,为从业者构建完整的知识结构。原创 2025-05-12 13:58:19 · 788 阅读 · 0 评论 -
探索大语言模型(LLM):国产大模型DeepSeek vs Qwen,谁才是AI模型的未来?
在AI模型“军备竞赛”愈演愈烈的今天,如何选择最适合业务场景的模型成为关键。本文将从基座模型、推理模型、Instruct模型三个核心维度,深度对比DeepSeek V3、DeepSeek R1、QwQ、Qwen2.5与Qwen3,揭示它们的底层技术差异与适用场景。原创 2025-05-12 10:07:40 · 1844 阅读 · 0 评论 -
探索大语言模型(LLM):硅基流动+Cherry studio免费白嫖Qwen3模型
Qwen3以混合推理架构与多语言能力重新定义了开源大模型性能边界,而硅基流动平台通过优化AI基础设施,显著降低了大模型的应用门槛与成本,两者共同推动了生成式AI技术的普及与商业化落地。本文将采用硅基流动+Cherry studio的方式免费尝鲜Qwen3模型。原创 2025-05-08 16:44:10 · 983 阅读 · 0 评论 -
探索大语言模型(LLM):词袋法(Bag of Words)原理与实现
词袋法通过简单的统计实现了文本的数值化,是NLP任务的基石。尽管存在局限性,但其思想仍被广泛应用于早期文本分类系统(如垃圾邮件过滤)。对于需要语义理解的任务,可进一步探索Word2Vec、BERT等深度学习模型。原创 2025-05-08 15:20:33 · 1115 阅读 · 0 评论 -
探索大语言模型(LLM):定义、发展、构建与应用
在自然语言处理(NLP)领域,大规模语言模型(Large Language Models, LLM)正引领着一场技术革命。这些模型以其庞大的参数规模、强大的语言理解能力和广泛的应用场景,成为人工智能研究与应用中的一颗璀璨明星。本文将深入探讨LLM的基本概念、发展历程、构建流程以及其在多个领域的应用。原创 2025-04-16 15:07:43 · 977 阅读 · 0 评论 -
探索大语言模型(LLM):目标、原理、挑战与解决方案
在自然语言处理(NLP)领域,语言模型(Language Model,LM)是核心组件之一,其目标是建模自然语言的概率分布,从而预测词序列出现的可能性。本文将详细介绍语言模型的目标、数学表示、面临的挑战以及解决方法,并辅以实际例子。原创 2025-04-16 17:18:41 · 992 阅读 · 0 评论 -
探索大语言模型(LLM):马尔可夫链——从诗歌分析到人工智能的数学工具
马尔可夫链由俄国数学家**安德雷·马尔可夫**于1906年提出,最初是为了挑战当时概率论中“独立性假设”的局限性。他希望通过研究**相依变量序列**,证明即使随机变量之间存在依赖关系,大数定律和中心极限定理仍然成立。原创 2025-04-17 15:46:36 · 1107 阅读 · 0 评论 -
探索大语言模型(LLM):循环神经网络的深度解析与实战(RNN、LSTM 与 GRU)
循环神经网络(RNN)为处理序列数据提供了基础框架,但其在长序列处理上的局限性促使了长短期记忆网络(LSTM)和门控循环单元(GRU)的诞生。LSTM 通过精细的门控机制和细胞状态,有效地解决了梯度问题,能够处理复杂的长序列数据。GRU 则在保持一定性能的同时,通过简化结构提高了训练效率。在实际应用中,我们需要根据具体任务的特点和需求,选择合适的模型。希望通过本文的介绍,你对 RNN、LSTM 和 GRU 有了更深入的理解,并能够在自己的项目中灵活运用它们。原创 2025-04-18 16:30:16 · 909 阅读 · 0 评论 -
探索大语言模型(LLM):Transformer 与 BERT从原理到实践
在自然语言处理(NLP)的发展历程中,Transformer 和 BERT 无疑是具有里程碑意义的技术。它们的出现,彻底改变了 NLP 领域的研究和应用格局。本文将深入探讨 Transformer 和 BERT 的背景、核心公式推导,并提供代码实现,帮助大家更好地理解和应用这两项技术。在 Transformer 出现之前,循环神经网络(RNN)及其变体长短时记忆网络(LSTM)、门控循环单元(GRU)等在 NLP 任务中占据主导地位。RNN 能够处理序列数据,通过隐状态传递信息,从而捕捉上下文依赖关系。原创 2025-04-19 14:04:35 · 1175 阅读 · 1 评论 -
探索大语言模型(LLM):ReAct、Function Calling与MCP——执行流程、优劣对比及应用场景
ReAct、Function Calling和MCP在人工智能领域都有着重要的应用价值。ReAct凭借其对模型的广泛适应性和可解释性,在众多场景中发挥作用;Function Calling在支持其功能的模型上,高效处理复杂操作;MCP则通过多智能体的协同,为复杂任务提供解决方案。在实际应用中,开发者需根据任务特点、模型能力等因素,合理选择合适的方法,也可尝试将多种方法结合使用,充分发挥它们的优势。随着技术的不断进步,未来这些方法可能会相互融合、创新,为人工智能的发展带来更多可能。原创 2025-04-21 13:14:43 · 1474 阅读 · 0 评论 -
探索大语言模型(LLM):自监督学习——从数据内在规律中解锁AI的“自学”密码
自监督学习的核心价值,在于赋予AI“自主学习”的能力——从海量数据中提炼规律,而非依赖人类灌输。这一过程不仅重塑了AI的技术范式,更预示着通用人工智能(AGI)的未来路径:当机器学会自我监督,或许离真正“理解”世界就不远了。这种“无师自通”的能力,不仅破解了数据标注的昂贵难题,更在语言模型、计算机视觉等领域催生出GPT、BERT、SimCLR等突破性成果。在自然语言处理(NLP)领域,自监督学习通过设计精巧的“伪任务”,让模型从海量无标注文本中自动挖掘监督信号,实现“用数据自问自答”的自我训练。原创 2025-04-27 16:30:17 · 1030 阅读 · 0 评论 -
探索大语言模型(LLM):语言模型从海量文本中无师自通
语言模型的自监督训练,本质是赋予AI“自主学习”的能力——从海量数据中提炼规律,而非依赖人类灌输。正如人类通过阅读书籍学习语言,AI也正在通过“阅读”互联网文本,逐步构建对世界的认知。这一过程不仅重塑了NLP的技术范式,更预示着通用人工智能(AGI)的未来路径:当机器学会自我监督,或许离真正“理解”世界就不远了。如果自监督学习能扩展到视频、蛋白质序列等领域,是否会催生新一代“多模态基础模型”?这一问题的答案,可能正在下一个十年的科研突破中。原创 2025-04-27 16:42:19 · 1143 阅读 · 0 评论 -
探索大语言模型(LLM):零基础上手硅基流动平台(附带2000万token邀请码)
SiliconFlow(硅基流动)是专注于生成式AI的计算基础设施平台,提供大模型推理引擎(SiliconLLM)、文生图/视频加速库(OneDiff)及模型云服务平台(SiliconCloud),旨在降低AI模型的部署和推理成本。原创 2025-04-03 15:08:40 · 7558 阅读 · 0 评论 -
探索大语言模型(LLM):Qwen3速测指南(transformers调用)
Qwen3发布后4小时内GitHub获1.7万星标,刷新开源大模型热度纪录。本篇文章将以transformers调用的方式快速进行Qwen3调用。原创 2025-05-04 15:11:04 · 1578 阅读 · 0 评论