大模型项目整体规划、技术选型和案例分析经验分享

原创

已于 2024-04-14 19:18:18 修改 · 2.4k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自然语言处理 #语言模型

于 2024-04-14 19:14:43 首次发布

本文分享了大模型项目从整体规划、技术选型到案例分析的经验。在规划阶段，强调了明确场景、准确度和合规性要求；技术选型涉及高质量数据、算力、模型选择和推理时间的考量；案例部分涵盖了办公大模型、对话系统、内容生成等多个应用场景。文章还探讨了大模型的微调、知识库问答和Agent问题的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 项目整体规划

1.1 明确场景

toB or toC（面向企业还是面向消费者）
- toB（面向企业）：指的是产品或服务主要面向其他企业或组织。这类产品通常需要解决特定的商业问题，强调效率和集成性，并且可能需要定制化服务。
- toC（面向消费者）：指的是产品或服务直接面向最终用户。这类产品通常更加注重用户体验、易用性和娱乐性。
准确度要求，合规性要求
- 准确度要求：根据应用场景的不同，对AI的输出结果的准确性要求也会有所不同。例如，在医疗诊断领域，准确度要求极高，而在推荐系统中，准确度要求相对较低。
- 合规性要求：某些行业（如金融、医疗等）有严格的法律法规要求，AI系统必须遵守这些规定，确保数据处理、隐私保护等方面的合规性。
替代人还是辅助人
- 替代人：指的是AI系统能够完全取代人类的工作，如自动化流水线上的机器人。
- 辅助人：指的是AI系统作为人类的助手，帮助提高工作效率或完成某些任务，如智能助手、推荐系统等。
一次交付 vs 反复迭代
- 一次交付：在某些项目中，客户可能希望一次性交付一个完整的AI系统，后续不需要频繁更新或迭代。
- 反复迭代：在许多情况下，AI系统需要不断地更新和优化，以适应不断变化的环境或用户需求。这需要持续的数据收集、分析和模型调整。
产品边界的划分
- 产品边界指的是产品功能的范围和限制。明确产品边界有助于确定AI系统的功能、性能和责任范围，避免因过度承诺而导致的风险和责任问题。

1.2 技术选型

高质量训练数据
- 在技术选型时，首先要考虑的是是否有充足的高质量训练数据。高质量数据是指那些真实、准确、全面并且能够代表实际应用场景的数据。数据的真实性和代表性直接影响模型的训练效果和泛化能力。
算力vs数据vs模型
- 算力：指的是硬件的计算能力。A100 80G的卡一张FP16 40B表示拥有强大的浮点运算能力，这对于训练大规模和复杂的模型非常重要。
- 数据：是AI系统的燃料。即使拥有强大的算力，如果数据质量不高或数据量不足，模型的性能也会受到影响。
- 模型：是AI系统的核心，它决定了如何从数据中学习。模型的选择和设计需要根据问题的复杂性和数据的特性来决定。
推理时间：在线vs离线
- 推理时间指的是模型在接收到输入后给出预测结果所需的时间。
- 在线推理要求模型能够快速响应，通常用于实时性要求高的场景，如在线推荐、实时监控等。
- 离线推理则允许模型在较长时间内给出结果，适用于对实时性要求不高的场景，如批量数据处理、历史数据分析等。
规则系统
- 规则系统：在某些应用中，尤其是对可解释性要求高的场景，规则系统是一个重要的技术选型。规则系统基于明确的逻辑和规则进行决策，易于理解和解释。
- 解决badcase能力：规则系统在处理特定的问题时，可以通过精细化的规则设计来避免模型常见的错误，从而提高系统的整体性能。
产品运营
- 产品运营是指AI产品上线后的持续管理和优化过程。它包括数据监控、性能评估、用户反馈收集、模型迭代更新等。
- 产品运营的目的是确保AI产品能够持续满足用户需求，发现并解决潜在问题，提升用户体验。

1.3 如何选择合适的大模型

选择合适的大模型涉及到多个方面的考量，包括硬件兼容性、应用场景、模型的能力以及可用的开源大模型。

硬件驱动
- 不同的模型可能对硬件有特定的要求，因此在选择模型时需要考虑可用的硬件资源。例如，4090、V100、A10、A600、A100等不同型号的GPU卡有着不同的计算能力和内存容量，这会影响到模型的选择和性能。
场景驱动
- 通用问题vs专业问题：通用问题通常需要模型具有广泛的知识和理解能力，而专业问题可能需要模型在特定领域有深入的理解和专业知识。
- 英文vs中文：不同的语言可能需要不同的模型架构和训练数据，因此需要根据应用场景的语言要求选择合适的模型。
常见主流开源大模型
- 清华chatglm6B：由清华大学开发的开源聊天机器人模型，适用于通用对话和问答场景。
- 通义千问 13B 72B：阿里巴巴开发的通用预训练模型，适用于多种自然语言处理任务。
- Llama系列，百川，零一万物：这些是其他开源的大型预训练模型，各自有不同的特点和优势，适用于各种自然语言处理任务。

2 技术选型

2.1 大模型的能力

知识能力：
- RAG：一种结合了检索和生成能力的模型，能够利用外部知识库来增强回答问题的能力。
- 例如，模型能够回答“生孩子能休几天产假？”这样的知识性问题。
逻辑能力：
- 逻辑能力是指模型理解和应用逻辑推理的能力。例如，模型能够理解“生鱼片其实是死鱼片”这样的逻辑性陈述。
- 百度弱智吧：这可能是指百度贴吧中的一个社区，其中的讨论可能涉及到逻辑推理或幽默表达。
推理能力：
- 推理能力是指模型能够进行逻辑推断和合理推理的能力。例如，模型能够回答“男职工能否休产假？”这样的问题，需要对相关法律法规和社会习俗有一定的了解。