📖标题:OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use
🌐来源:https://os-agent-survey.github.io/
🌟摘要
🔸创造像《钢铁侠》中虚构的J.A.R.V.I.S一样有能力、多才多艺的人工智能助手的梦想长期以来一直吸引着人们的想象力。随着(多模态)大型语言模型((M)LLM)的演变,这一梦想更接近现实,因为(M)基于LLM的代理通过在操作系统(OS)提供的环境和界面(例如图形用户界面(GUI))内操作来使用计算设备(例如计算机和移动电话)来自动化任务,已经取得了显著进展。
🔸本文对这些高级代理(称为OS代理)进行了全面的调查。我们首先阐明了操作系统代理的基本原理,探索了它们的关键组成部分,包括环境、观察空间和行动空间,并概述了理解、规划和接地等基本能力。然后,我们研究了构建操作系统代理的方法,重点关注特定领域的基础模型和代理框架。对评估协议和基准的详细审查突出了如何在不同任务中评估操作系统代理。最后,我们讨论了当前的挑战,并确定了未来研究的有前景的方向,包括安全和隐私、个性化和自我进化。
🔸这项调查旨在巩固操作系统代理研究的现状,为指导学术探究和产业发展提供见解。开源GitHub存储库作为动态资源进行维护,以促进该领域的进一步创新。
🛎️文章简介
🔸研究问题:如何构建和评估基于多模态大语言模型(MLLM)的操作系统代理(OS Agents),以提升其在通用计算设备上的任务执行能力?
🔸主要贡献:论文提供了一个全面的调查,系统地总结了基于MLLM的操作系统代理的构建方法、评估协议和基准测试,并提出