没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
近期大语言模型(LLMs)的突破性进展催生了超越单一模型能力的代理型人工智能系统。通过赋予LLMs感知外部环境、整合多模态信息和与各种工具交互的能力,这些代理系统在复杂任务中表现出更大的自主性和适应性。这一演变带来了推荐系统(RS)的新机遇:基于LLM的代理型推荐系统(LLM-ARS)可以提供更加互动、情境感知和主动的推荐服务,可能重塑用户体验并拓宽推荐系统的应用范围。尽管早期结果令人鼓舞,但基本挑战仍然存在,包括如何有效融入外部知识、平衡自主性与可控性以及在动态多模态环境中评估性能。在本文视角论文中,我们首先对LLM-ARS进行了系统分析:(1) 澄清核心概念和架构;(2) 强调代理能力(如规划、记忆和多模态推理)如何提升推荐质量;(3) 提出关键研究问题,涉及安全性、效率和终身个性化等领域。我们还讨论了开放问题和未来方向,认为LLM-ARS将推动推荐系统的下一轮创新。最终,我们预见推荐体验将向智能化、自主化和协作化的方向转变,更贴近用户不断变化的需求和复杂的决策过程。
资源推荐
资源详情
资源评论






























原论文:https://arxiv.org/pdf/2503.16734
多模态大语言模型时代的代理推荐系统展望
黄成凯
1
, 吴俊达
2
, 夏宇
2
, 余子旭
2
, 王茹涵
3
, 尹童
4
, 张睿一
4
, Ryan A. 罗斯
4
,
Branislav Kveton
4
, 周东若
3
, Julian 麦克奥利
2
, 姚丽娜
1,5
1
新南威尔士大学,
2
加州大学圣地亚哥分校,
3
印第安纳大学,
4
Adobe Research,
5
CSIRO's Data61
chengkai.huang1, [email protected], juw069, yux078, ziy040,
[email protected], ruhwang, [email protected], tyu, ruizhang, rrossi,
摘要
近期大语言模型(LLMs)的突破性进展催生了超越单一模型能力的代理型人工智能系统
。通过赋予LLMs感知外部环境、整合多模态信息和与各种工具交互的能力,这些代理系
统在复杂任务中表现出更大的自主性和适应性。这一演变带来了推荐系统(RS)的新机
遇:基于LLM的代理型推荐系统(LLM-
ARS)可以提供更加互动、情境感知和主动的推荐服务,可能重塑用户体验并拓宽推荐
系统的应用范围。尽管早期结果令人鼓舞,但基本挑战仍然存在,包括如何有效融入外部
知识、平衡自主性与可控性以及在动态多模态环境中评估性能。在本文视角论文中,我们
首先对LLM-ARS进行了系统分析:(1) 澄清核心概念和架构;(2)
强调代理能力(如规划、记忆和多模态推理)如何提升推荐质量;(3)
提出关键研究问题,涉及安全性、效率和终身个性化等领域。我们还讨论了开放问题和未
来方向,认为LLM-
ARS将推动推荐系统的下一轮创新。最终,我们预见推荐体验将向智能化、自主化和协
作化的方向转变,更贴近用户不断变化的需求和复杂的决策过程。
<ccs2012> <concept>
<concept_id>10002951.10003317.10003347.10003350</concept_id>
<concept_desc>信息系统 推荐系统</concept_desc>
<concept_significance>500</concept_significance> </concept> </ccs2012>
1 引言
随着在线服务的迅速增长,推荐系统(RS)已成为解决用户信息需求和缓解信息过载的
重要工具 (Ricci, Rokach, 和 Shapira 2015; S. Zhang 等人 2019)
。这些系统在电子商务、电影、音乐等多个领域提供个性化推荐。尽管推荐任务的多样性
(如Top-
K推荐和序列推荐),其核心目标始终一致:预测用户对每个候选项目的偏好,并生成针
对用户的排序列表 (Lin 等人 2023) 。

然而,当前的RS在满足多样化用户需求方面仍面临多个显著限制。首先,当前的RS通常
依赖于特定领域或平台内的ID基础特征。它们无法整合开放领域的知识(如常识推理和跨
平台行为模式),这极大地限制了其在更广泛背景下解释和建模用户兴趣的能力。其次,
当前方法通常优化从历史交互数据中得出的明确定义的参与度指标(例如点击率和购买历
史)。虽然这些方法对于局部目标函数可能是有效的,但它们常常混淆可观察行为与潜在
用户意图,因为隐式反馈机制无法区分临时动作与持久偏好。因此,这些模型表现出两大
主要局限:(i) 缺乏关于偏好归属的透明性,影响了可解释性;(ii)
对引导用户行为的多面动机过度简化,特别是在需要时间或情境适应的情况下。结果,这
些隐式建模框架无法捕捉动态用户状态与后续决策过程之间的因果关系。最后,大多数传
统RS以相对静态、单向的方式运行,为用户提供有限机会通过自然语言或实时反馈迭代
改进建议。这种单向流动偏离了强调互动和适应对话的人机交互原则,以揭示用户偏好。
尽管会话RS开始解决这一问题,但它们在整合开放式自然语言理解和个性化排名方面仍
然有限,特别是在需要多轮澄清以解决模糊用户查询的情况下。
近年来,大语言模型(LLMs)和多模态LLMs(MLLMs)的发展大大提高了语言理解和
认知处理能力 (OpenAI 2023; Jaech 等人 2024)
。凭借更强的推理和规划能力,(M)LLM-
based代理能够解释人类语言、制定策略并执行复杂任务。这些突破为增强RS的适应性
、个性化和以用户为中心提供了新的途径。最近关于LLM驱动的RS研究的激增从一项最
新调查引用的290篇参考文献中可见一斑 (Lin 等人 2023; P. Liu, Zhang 和 Gulla 2023;
C. Huang 等人 2024) ,以及该领域众多有影响力的论文(例如, (Rajput 等人 2023)
)。然而,现有工作大多集中于应用LLMs改进当前的RS。此外,
现有研究尚未充分探讨LLMs或LLM代理将如何长期影响RS的未来。
我们认为基于LLM的代理推荐系统(LLM-
ARS)是一个有前景的研究方向,提供了关于推荐中的自主性、适应性和互动决策的新
视角。为了充分发挥LLM-
ARS的潜力,必须解决几个开放问题,包括如何利用代理能力(如规划、协作、角色扮
演)来改进用户建模和系统决策,以及如何平衡自主性与可控性以确保安全、透明的交互
。我们在第 5
节中详细讨论了这些挑战和关键研究问题,突出最紧迫的问题并概述可能的解决方案。
我们提出了第一篇关于由(M)LLMs驱动的ARS视角论文
。我们首先介绍这一新兴方向的初步知识和背景(§2),然后讨论LLM-
ARS的重要性(§3)和正式问题公式(§4)。接下来,我们从代理的角度分析LLM-
ARS(§5),并从RS的角度引入关键研究问题(§6)。为了解决这些问题,我们提供深
入比较和讨论,提供领域见解(§7 和
§8)。最后,我们强调需要进一步探索的开放问题和未来机会(§9)。总之,本视角论
文的关键贡献如下:
� 我们将LLM-
ARS置于RS发展的更广泛轨迹中,介绍了四个级别的演变,强调从静态、单向推
荐转向支持自主性和互动决策的代理范式的转变。

� 我们提出了LLM-ARS的形式任务公式,详细描述了核心组件——
用户画像、规划、记忆和行动——这些共同使持续适应和主动推荐成为可能。
� 我们确定了关键研究问题和开放问题,即如何利用代理能力(如规划、角色扮演、
协作)来改进用户建模、系统决策和整体推荐效果。
2 初步知识与背景
基于LLM的AI的快速发展促使Agent
AI取得重大进展,从根本上改变了系统与复杂环境的交互方式。近年来,研究人员为LLM
代理配备了核心组件——记忆、规划、推理、工具使用和行动执行——
这些对于自主决策和动态交互至关重要 (Durante 等人 2024) 。以下小节结合图
[fig:enter-label] 提供了单代理和多代理框架近期发展的概述。
2.1 基于LLM的单代理系统
单代理系统利用统一模型集成多个相互依赖的模块。
1
2
内存组件充当结构化存储库,用于存储和检索上下文相关的信息,例如用户偏好和历史交
互 (Zeyu Zhang 等人 2024)
。这种持久内存对于维持连贯的长期交互至关重要,并构成了推荐场景中个性化的基础。
规划模块与高级推理能力紧密相连。近期研究识别了诸如任务分解、多计划选择、外部模
块辅助规划、反思与改进以及增强型规划等方法 (X. Huang 等人 2024)
。这些技术使代理能够分解复杂任务,根据不断变化的情境选择和改进策略,并利用外部
知识源。集成推理进一步通过允许系统动态适应新情境来增强决策能力。像ReAct (S.
Yao 等人 2022) 和 Reflexion (Shinn 等人 2023)
这样的框架展示了如何通过交织推理与具体行动(如网页浏览或工具调用)显著提高系统
稳健性和适应性。除了内部认知过程,这些代理越来越依赖工具使用来与外部数据和服务
接口。像WebGPT (Nakano 等人 2021)
这样的系统展示了使用外部模块(如网络搜索引擎)检索实时信息的有效性。其他作品,
如Retroformer (W. Yao 等人 2023) 和 AvaTaR (S. Wu 等人 2024)
,分别通过策略梯度优化和对比推理进一步优化这些交互,以微调工具使用并随时间提高
性能。
2.2 基于LLM的多代理系统
相比之下,基于LLM的多代理系统强调不同自主代理之间的协作。这些系统旨在通过促进
代理间通信、任务专业化和协调决策来模拟复杂的人类工作流程。像CAMEL (G. Li 等人
2023) 和 AutoGen (Q. Wu 等人 2023)
这样的框架展示了具有不同角色的代理如何通过交互比单一的整体代理更有效地解决问题
。通过分配专门功能——从创意生成和规划到评估——
这些框架实现了分工,增强了整体系统能力和灵活性。进一步的进展见于MetaGPT
(Hong 等人 2023) 和 AgentLite (Z. Liu 等人 2024)

,它们通过元编程技术和轻量级库动态分配角色并协调复杂工作流。这些结构化的交互不
仅提高了任务效率,还在动态问题解决环境中提供了稳健性。最近的发展还包括像ChatE
val (Chan 等人 2023) 和 ChatDev (C. Qian 等人 2023)
这样的系统,它们利用代理间辩论和评价反馈产生更细致和可靠的输出。这种类似于人类
的代理间讨论在开放式自然语言生成任务和复杂的软件开发过程中特别有益。
3 为什么现在是代理推荐系统?
近年来,推荐系统的进步主要集中在增强交互能力上,大多数研究努力仍处于高级推荐系
统(Level 1)和智能推荐系统(Level 2)阶段,如表 [tab:evolution]
所示。然而,它们本质上仍然是反应式的,依赖于预定义的模型架构和用户驱动的反馈循
环。下一个前沿,代理推荐系统(Level
3),旨在超越反应式参与,实现自主、适应和主动的推荐策略,由于最近在(M)LLMs
方面的突破,这变得越来越可行。我们确定了三个关键因素:

� 利用(M)LLMs进行推荐:
集成LLMs引入了类似代理的能力,如规划、记忆保留和上下文学习,使得自适应
和进化的推荐策略成为可能。与需要明确重新训练的传统系统不同,基于LLM的代
理可以根据顺序用户交互和外部情境提示动态细化推荐。此外,协作多代理系统可
以通过使多个AI代理交换信息、集体推理和优化决策来进一步增强推荐。
� 扩展信息模态:
RS主要依赖于基于ID和文本信息,限制了它们充分理解用户偏好的能力。相反,
多模态代理系统可以处理多样化的输入信号,包括图像、音频、结构化元数据和行
为线索,从而实现更丰富和更情境感知的推荐。因此,代理系统可以捕捉到用户的
整体意图,弥合隐性和显性偏好信号之间的差距。
剩余26页未读,继续阅读
资源评论


Paper易论
- 粉丝: 5347
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
