『大模型笔记』为什么我们需要基于大语言模型(LLMs)的流式应用? |
文章目录
- 大语言模型(LLM)和其他机器学习模型有一个很大的不同点:它们在返回完整答案时需要较长的时间,通常会花费几秒钟甚至更久。那么我们该怎么办?难道只能在屏幕前看着“加载中”的转圈图发呆吗?现在人们连等亚马逊 Prime 几小时送货都嫌慢,更别提让他们等一个 LLM 给出答案了。为了解决这个问题,一个非常有效的办法是:在模型生成回答的同时就将其__实时传输出来,也就是所谓的“流式输出”。接下来我会一步步教你怎么实现它。
- 如果你正在部署一个用于生成文本的大语言模型,那么构建一个支持_流式功能的应用程序可能是个不错的选择。比如说,你用过 ChatGPT 或 Claude 这类应用时会发现,它们的回答是一个字一个字、一个词一个词地出现在屏幕上的,这就是“流式传输”在起作用。为什么这么做?因为解码完整的内容通常非常耗时,如果等生成完整结果后再一次性发送给