浙大:基于大模型的OS Agents综述

在这里插入图片描述

📖标题:OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use
🌐来源:https://os-agent-survey.github.io/

🌟摘要

🔸创造像《钢铁侠》中虚构的J.A.R.V.I.S一样有能力、多才多艺的人工智能助手的梦想长期以来一直吸引着人们的想象力。随着(多模态)大型语言模型((M)LLM)的演变,这一梦想更接近现实,因为(M)基于LLM的代理通过在操作系统(OS)提供的环境和界面(例如图形用户界面(GUI))内操作来使用计算设备(例如计算机和移动电话)来自动化任务,已经取得了显著进展。
🔸本文对这些高级代理(称为OS代理)进行了全面的调查。我们首先阐明了操作系统代理的基本原理,探索了它们的关键组成部分,包括环境、观察空间和行动空间,并概述了理解、规划和接地等基本能力。然后,我们研究了构建操作系统代理的方法,重点关注特定领域的基础模型和代理框架。对评估协议和基准的详细审查突出了如何在不同任务中评估操作系统代理。最后,我们讨论了当前的挑战,并确定了未来研究的有前景的方向,包括安全和隐私、个性化和自我进化。
🔸这项调查旨在巩固操作系统代理研究的现状,为指导学术探究和产业发展提供见解。开源GitHub存储库作为动态资源进行维护,以促进该领域的进一步创新。

🛎️文章简介

🔸研究问题:如何构建和评估基于多模态大语言模型(MLLM)的操作系统代理(OS Agents),以提升其在通用计算设备上的任务执行能力?
🔸主要贡献:论文提供了一个全面的调查,系统地总结了基于MLLM的操作系统代理的构建方法、评估协议和基准测试,并提出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值