
企业LLM实战
文章平均质量分 86
Lemo`s Studio
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一文带你读懂 Google LangGraph 项目,快速入门 AI Agent 全栈开发
Google开源了一个基于LangGraph的智能Agent项目,该项目展示了如何构建一个具备"生成-搜索-反思-合成"完整流程的AI研究员系统。项目采用React前端和Python后端(FastAPI+LangGraph)架构,支持Google搜索API和Gemini模型,可生成带引用的结构化答案。核心亮点是通过LangGraph低代码方式编排AI代理流程,实现了深度自定义的智能问答功能。项目提供从环境搭建到核心代码解析的完整指南,适合希望了解LangGraph实践或构建智能搜索系统的原创 2025-07-09 19:05:33 · 1161 阅读 · 0 评论 -
一台A100让32B模型“吊打“GPT-4?3个月验证结果公布
老板给了个任务:做AI代码检视系统。条件是一台A100双卡,预算基本为零,3个月出效果。当时我心想:这能干啥?那些动辄几百G显存的大模型咱们根本跑不了。结果现在回头看,这个"限制"反而成了好事。原创 2025-06-10 22:05:13 · 608 阅读 · 0 评论 -
搭建企业知识库踩了37个坑,最后一个坑让我差点放弃
搭建Confluence AI知识库时踩了37个坑,包括技术方案选择(Dify响应慢)、版本升级(RAGFlow准确率骤降)、模型不一致等关键问题。最险时刻是老板因"模型幻觉"差点叫停项目。最终实现2秒响应,83%准确率,40+并发用户。完整踩坑清单涵盖技术选型、部署、调优等37个问题及解决方案。更多细节可关注公众号文章。原创 2025-06-10 21:59:15 · 576 阅读 · 0 评论 -
「LLM企业实战08」实战复盘:大模型企业落地的经验、教训与未来展望
本文总结了企业级大语言模型(LLM)落地实践的核心经验与未来展望。关键经验包括:技术选型需因地制宜而非追求银弹,数据处理是隐形工程,需采用小步快跑迭代策略,Prompt工程需要精细化设计,以及重视运维细节。当前仍面临成本控制、性能平衡、准确性提升等挑战。展望未来,预计将出现更强大基础模型、更智能RAG技术,以及AI Agent的崛起。建议企业从真实痛点出发,采用PoC先行策略,拥抱开源但审慎选择,重视数据质量并保原创 2025-05-30 12:12:14 · 841 阅读 · 0 评论 -
「LLM企业实战07」AI辅助代码审查:不完美中寻求有效价值的实践之路
LLM在代码审查中的实践与优化 本文探讨了利用大语言模型(LLM)优化代码审查流程的实际经验。作者团队发现,虽然LLM具备自动审查代码的潜力,但在实际应用中面临五大核心挑战:结果可靠性差、大型Diff处理困难、复杂指令理解偏差、上下文干扰问题以及审查效率瓶颈。针对这些问题,团队提出了系统性的解决方案:通过严格模型选型降低幻觉风险、按文件拆分Diff提升处理精度、采用任务分解策略设计专用Prompt、使用无状态API调用保持审查独立性,以及优化自动化流程控制总体耗时。实践表明,经过这些优化后,LLM能够在3-原创 2025-05-27 22:52:35 · 1032 阅读 · 0 评论 -
「LLM企业实战06」从零搭建Code RAG:完整技术栈选型与实现详解
本文详细介绍了如何从零开始搭建一个Code RAG(检索增强生成)系统原型。作者分享了经过实践验证的技术栈选择,包括使用LlamaIndex进行代码编排与索引管理、Weaviate作为向量数据库、Ollama/VLLM提供LLM服务、Hugging Face开源模型处理嵌入与重排,以及Streamlit构建快速交互界面。文章提供了具体的环境配置指南、Weaviate部署方法和数据加载流程,包含可直接参考的代码片段和配置示例。通过模块化设计和灵活组件选择,该系统能够有效处理既有语义又有精确标识符的原创 2025-05-27 22:49:27 · 1269 阅读 · 0 评论 -
「LLM企业实战05」让 AI 读懂代码:Code RAG 的原理、挑战与构建思路
本文探讨了利用LLM和RAG技术提升企业内部代码库理解和利用效率的解决方案。针对50万行C++核心代码库面临的注释不全、文档分散等挑战,作者分析了普通RAG方法在代码处理上的不足,强调了代码特有的结构性、上下文依赖等特性。实践部分详细介绍了分块策略的演进过程(从通用工具到基于注释的自定义分块)以及专用代码嵌入模型的选型考量。初步应用表明,Code RAG在理解复杂模块和发现可复用代码方面展现出超越传统搜索的优势,验证了该技术在提升研发效率方面的潜力。文章指出构建有效Code RAG系统的关键在于针对代码特性原创 2025-05-26 20:33:57 · 840 阅读 · 0 评论 -
「LLM企业实战04」破解知识孤岛:打造基于Confluence的企业智能问答系统
企业内部的Confluence知识库常因信息分散、格式复杂和上下文依赖严重而难以有效利用,导致员工查找信息耗时费力。RAG(Retrieval-Augmented Generation)技术结合LLM(大语言模型)为解决这一问题提供了可能。RAG通过加载、分块、嵌入、存储、检索和生成等步骤,能够从复杂文档中提取信息并生成回答。然而,Confluence文档的复杂性,尤其是表格、代码块、流程图等非文本信息,给RAG的分块环节带来了挑战。为此,RAGFlow因其深度文档理解和布局感知分块能力被选为处理Confl原创 2025-05-20 20:10:40 · 1376 阅读 · 0 评论 -
「LLM企业实战03」三大引擎对决:Ollama、Xinference与VLLM服务框架实测
文章探讨了在硬件就位后,如何通过选择合适的LLM服务框架来高效运行模型。重点对比了Ollama、Xinference和VLLM三个框架的特点、适用场景及运维注意事项。Ollama以其简单易用和快速上手的特点,适合本地开发和低并发场景;Xinference则以其灵活性和对多GPU资源的优化利用,适合企业级应用,尤其是需要动态量化和多模型支持的场景;VLLM则在高吞吐和长上下文处理能力上表现优异,适合性能要求较高的应用。文章强调,选择框架时应根据具体需求和实际限制进行权衡,不存在“最好”的框架,只有“最适合”的原创 2025-05-18 19:57:07 · 2388 阅读 · 0 评论 -
「LLM企业实战02」算力之基:企业级 LLM 私有化部署的硬件选型与 TCO 避坑实录
本文探讨了大型语言模型(LLM)私有化部署中的硬件选型问题,重点分析了核心性能指标、GPU选型及显存需求。文章指出,私有化部署的首要考虑是硬件资源,尤其是GPU的显存容量和带宽。核心性能指标包括每秒处理的Token数(TPS)、并发用户数和上下文长度,这些指标直接影响用户体验和系统性能。GPU选型时,显存容量是关键,模型参数和KV Cache的显存需求需根据并发用户数和上下文长度进行估算。文章还通过实际案例,展示了与主流供应商的硬件方案探讨,帮助企业在LLM项目中做出更明智的硬件选择。原创 2025-05-15 22:49:18 · 1094 阅读 · 0 评论 -
「LLM企业实战01」从Demo到生产:大模型企业落地的现实鸿沟
大语言模型(LLM)如ChatGPT在企业应用中展现出巨大潜力,如提升内部知识检索效率、辅助代码开发及自动化流程等。然而,企业实际部署LLM时面临诸多挑战,包括数据安全与合规、硬件选型与成本、内部数据处理、技术选型、系统集成与运维、效果验证与调优等。本系列文章旨在分享实战经验,提供选型依据,展示具体做法,并点明潜在风险,帮助企业加速LLM落地进程。下一篇将深入探讨硬件选型,分享与供应商打交道的真实数据和经验。原创 2025-05-15 22:33:42 · 885 阅读 · 0 评论