Claude 3.5 Sonnet升级！Haiku也来了！开发者可以率先使用「AI操控电脑」新功能

最新推荐文章于 2025-02-26 13:44:58 发布

香菜有毒-

最新推荐文章于 2025-02-26 13:44:58 发布

阅读量801

点赞数 8

CC 4.0 BY-SA版权

文章标签：人工智能

本文链接：https://blog.csdn.net/2301_80262904/article/details/143227788

夕小瑶科技说原创
作者 | 海野

深夜轰炸，Anthropic发布了升级版Claude 3.5 Sonnet和全新版Claude 3.5 Haiku！

新的Claude 3.5 Sonnet超过了曾经的自己和GPT-4o，尤其是在编码方面完全碾压其他模型，现在已经可以使用了；

Claude 3.5 Haiku这边对标的是GPT-4o mini和Claude 3 Opus，整体上也要强于4o mini，这个模型还是coming soon，今年晚些时候出。

新增功能：3.5 Sonnet可以操控电脑了！

模型效果到此为止，这次还发布了一个最最最突破性的功能——自动操控计算机（computer use）！

意思就是，你现在可以指挥Claude操控电脑了！屏幕视觉、鼠标移动、点击、交互和文本输入等等都不在话下。

教会AI学会操控电脑，细思极恐。。。

mpvideo.qpic.cn/0bc3uuaakaaamqaoe6axcntvbjodawsqabia.f10002.mp4?dis_k=071b80d6be3e5d1820aa6d9e2943f094&dis_t=1729842433&play_scene=10120&auth_info=dPr59updTS00uei1+lwsamNvSzFKCS07T1VYKGk/WTFSQz9SYlcQQlZpOxNieDtQaQ==&auth_key=5e1d2d1786f21d85e85ba89ea0db23bf&vid=wxv_3691451146637410308&format_id=10002&support_redirect=0&mmversion=falsehttps://mpvideo.qpic.cn/0bc3uuaakaaamqaoe6axcntvbjodawsqabia.f10002.mp4?dis_k=071b80d6be3e5d1820aa6d9e2943f094&dis_t=1729842433&play_scene=10120&auth_info=dPr59updTS00uei1+lwsamNvSzFKCS07T1VYKGk/WTFSQz9SYlcQQlZpOxNieDtQaQ==&auth_key=5e1d2d1786f21d85e85ba89ea0db23bf&vid=wxv_3691451146637410308&format_id=10002&support_redirect=0&mmversion=false

https://mpvideo.qpic.cn/0bc35eaamaaa34aodtix65tvb2oda3uqabqa.f10002.mp4?dis_k=11e0a7bd5b05311fed6de3eedd9688e3&dis_t=1729842433&play_scene=10120&auth_info=creAj8pbH3ozurizr1xyPTc4TmIdVS1tElhddmFjXjBUF20LZVFCFVFqaxU3eGUHPQ==&auth_key=754d12a7f302cb328b6fd371d5f7f827&vid=wxv_3691448815292186626&format_id=10002&support_redirect=0&mmversion=falsehttps://mpvideo.qpic.cn/0bc35eaamaaa34aodtix65tvb2oda3uqabqa.f10002.mp4?dis_k=11e0a7bd5b05311fed6de3eedd9688e3&dis_t=1729842433&play_scene=10120&auth_info=creAj8pbH3ozurizr1xyPTc4TmIdVS1tElhddmFjXjBUF20LZVFCFVFqaxU3eGUHPQ==&auth_key=754d12a7f302cb328b6fd371d5f7f827&vid=wxv_3691448815292186626&format_id=10002&support_redirect=0&mmversion=false

这个功能是怎么实现的呢？

根据Anthropic官方文档，大致分为四个步骤：

1.首先，提供Claude操控电脑的工具和prompt。

将Anthropic定义的电脑操控工具添加到API请求中，包括使用工具的prompt，例如“将猫的图片保存到我的桌面”。

2.由Claude选择执行操作的工具。

Claude会辨别已有的工具，并评估是否有工具可以用于执行操作。如果有，Claude就会提交一个工具使用请求。

在API中，会显示stop_reason:tool_use，表示这个意思。

3.提取工具输入信息，运行工具并返回结果

从Claude的请求中，可以提取出工具的名称和输入内容。然后我们就运行对应的工具（根据Anthropic所说，因为一系列问题，最好在在容器或虚拟机上使用）。如果想根据操纵的结果继续与Claude对话，就要使用包含tool_result内容的新对话来继续对话。

4.Claude继续调用工具，直到完成全部任务

Claude最后会分析工具运行结果，判断工作是否完成。如果完成了，它就会发出来一个完成的文本来提醒你；

如果没完成，它会用另一个stop_reason:tool_use进行响应，这时候就要重复第3步的内容。

这里，Claude还可以实现“代理循环”——即使是在没有额外输入内容的情况下，它可以重复步骤3和4，直到完成复杂任务。

这里直接附上一个官方使用的示例：


import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20241022",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20241022",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20241022",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
    betas=["computer-use-2024-10-22"],
)
print(response)

这个功能目前只能通过API使用，且还在测试中。

从OpenAI 和Anthropic的收入对比来看：OpenAI 绝大部分收入来自付费订阅，而 Anthropic 的绝大部分收入来自API。尽管两者拉开一个数量级，但是仅从比例上看，我们开发者更青睐Anthropic。

所以，冲着这个🐮笔的功能首先让开发者体验，我给Anthropic投一票！