大模型知识增强生成的难点与对策分析

极昆仑智慧

已于 2025-01-10 14:12:24 修改

阅读量984

点赞数 30

CC 4.0 BY-SA版权

分类专栏：知识图谱大模型文章标签：人工智能知识图谱自然语言处理

于 2025-01-10 14:12:07 首次发布

本文链接：https://blog.csdn.net/weixin_36502282/article/details/145057137

近期，极昆仑连续推出了一系列关于大模型知识增强生成的深度文章，如GraphRAG能让大模型落地应用转起来吗？、检索增强生成(RAG)为何Demo易，落地难？以及大模型检索知识增强策略三板斧——预训练、微调、推理等。这些文章系统性地阐述了GraphRAG、RAG等检索增强生成技术的原理、诞生背景以及它们各自的技术优势与局限，为我们清晰地勾勒出大模型知识增强应用的进展轨迹和未来方向。这些方法的出现是为了满足对更智能、更准确的信息处理需求，旨在克服传统语言模型知识更新难、推理能力有限的问题。它们利用外部知识库或文档检索系统来增强模型的表现，使得生成的内容更加丰富和精确。

然而，从现有技术到企业应用的实际需求之间，仍存在距离。大部分企业经年累月沉淀了大量业务数据，理论上，可以为大模型知识增强工作提供知识数据支持，然而大部分缺乏从数据到知识的提炼，知识质量较低。而知识质量对模型效果的影响是显著的（无论是基于文本的检索，还是图的检索）。这不仅体现在检索的准确性，还体现在用户意图识别的准确性上。检索范围内的数据质量不高，结果不准确，后续的排序、生成的意义大打折扣；而意图识别不准确，甚至可能是答非所问的效果。

为获得高质量数据，需要精细化数据治理方法论与技术，这是大部分技术团队不具备的、也不愿意投入的地方（成本过高）。

在大模型理解与生成能力出现质的提升前（也许GPT5? 也或许很难看到，毕竟Scaling Laws后继乏力），知识的质量依然是最不应该被忽略的地方，知识质量的劣化会极大地削弱检索增强生成的价值。

1,大模型知识增强生成难点在于知识质量

1）未精炼处理的繁杂知识数据，增加计算消耗和精度损失。

繁杂的、无关的或低质量的知识数据会导致模型在处理和存储时需要更多计算资源，因为模型必须处理大量冗余信息，导致计算开销暴增。如果注入的信息中包含无关或噪声数据，模型会受到这些不相关知识的影响，生成的内容很容易出现偏差，降低模型准确性和有效性。例如，未加区分地直接注入多义实体的多个语义，会让模型难以选择正确的语义，导致模型生成的回答可能不可靠、偏离正确答案，甚至产生误导，而处理这些多义实体，又需要更多的工程方法。如果使用的是基于提示(prompt)的方法，那则会导致高昂的token消耗成本，比如，企业级智能客服项目，极容易出现收入难以覆盖token成本，而客户满意度也难以保证。

在模型注入知识之前，应进行严格的筛选和过滤，确保只有高质量、相关性强的知识被加入，这不仅能减少计算消耗，还能提高生成结果的准确性。然而，实际落地项目中，要做到这一点，对企业级知识数据的管理、运营、理解要求非常高，属于劳动密集型、业务知识密集型项目，尤其是ToB项目中，缺少用户反馈，这也是导致大部分项目落地困难的重要原因之一。

2）知识的顺序敏感性考虑不足，容易导致上下文不一致和信息过载。

在大规模语言模型中，知识的顺序和上下文的关联性非常重要，尤其是在外部知识检索增强时，如果检索到的文档和查询简单拼接后直接输入模型，未充分考虑文档的排序和与查询的相关性，可能导致模型在生成回答时缺乏有效的上下文连接。例如，模型可能将不相关的信息与重要内容混合，导致输出不精确或无法回答实际问题。拼接多个文