38%成功率就能掀起Agent时代?Operator的逆袭,你信吗?

2026-04-27 21:5811阅读0评论建站教程
  • 内容介绍
  • 文章标签
  • 相关推荐

OpenAI刚刚把自家的第一个智能体——Operator——扔到公众面前, 像是把一只还没学会走路的小狗直接放在了马路上,让大家看它能不能自己找吃的。别看它官方说“只要38%成功率就能掀起Agent时代”, 其实吧这玩意儿在真实的网页里蹦跶时常常像个迷路的机器人,点错按钮、填错表单、甚至把页面关掉再重新打开,提到这个...。

一、38%成功率到底是啥玩意儿?

先说说这个数字从哪来:OpenAI在内部的WebArena基准测试里 让Operator完成10步以上的多步骤任务,再说说算出来的整体成功率是38.1%。听起来似乎已经比以前的22%高出不少, 百感交集。 但和人类玩家72%+的成功率比,还是差得远远的。更别提实际使用中, 你给它下达“帮我订今晚七点的餐位”这种需求,它往往先打开错误城市的页面再卡在验证码那儿不动。

38%成功率就能掀起Agent时代?Operator到底行不行!

为什么会这么低?

  • 视觉识别不够精准:屏幕截图里的小图标经常被误判为文字。
  • 动作施行缺少容错:一次鼠标点击偏移几像素,就可能点到别的链接。
  • 强化学习策略仍在实验阶段:它会在每一步都“思考链”,后来啊却常常卡死在循环里。

来日方长。 所以说“38%成功率就能掀起Agent时代?”这话听起来更像是营销噱头,而不是技术成熟度的标志。⚠️如果你真的想让它跑起来 最好准备好随时手动干预,否则你会看到一堆“尝试失败,请重试”的弹窗。

二、Operator到底干了些什么活?

官方演示里 它能自动填写表格、生成表情包、上网购物,还能把邮件内容粘贴进CRM系统。 调整一下。 实际使用中, 你会发现:

  1. 填表格——有时候能一次性搞定,有时候却卡在必填项验证,导致页面刷新无限循环。
  2. 购物下单——如果商品页面布局稍有变动,它就会误点“加入收藏”。
阅读全文

OpenAI刚刚把自家的第一个智能体——Operator——扔到公众面前, 像是把一只还没学会走路的小狗直接放在了马路上,让大家看它能不能自己找吃的。别看它官方说“只要38%成功率就能掀起Agent时代”, 其实吧这玩意儿在真实的网页里蹦跶时常常像个迷路的机器人,点错按钮、填错表单、甚至把页面关掉再重新打开,提到这个...。

一、38%成功率到底是啥玩意儿?

先说说这个数字从哪来:OpenAI在内部的WebArena基准测试里 让Operator完成10步以上的多步骤任务,再说说算出来的整体成功率是38.1%。听起来似乎已经比以前的22%高出不少, 百感交集。 但和人类玩家72%+的成功率比,还是差得远远的。更别提实际使用中, 你给它下达“帮我订今晚七点的餐位”这种需求,它往往先打开错误城市的页面再卡在验证码那儿不动。

38%成功率就能掀起Agent时代?Operator到底行不行!

为什么会这么低?

  • 视觉识别不够精准:屏幕截图里的小图标经常被误判为文字。
  • 动作施行缺少容错:一次鼠标点击偏移几像素,就可能点到别的链接。
  • 强化学习策略仍在实验阶段:它会在每一步都“思考链”,后来啊却常常卡死在循环里。

来日方长。 所以说“38%成功率就能掀起Agent时代?”这话听起来更像是营销噱头,而不是技术成熟度的标志。⚠️如果你真的想让它跑起来 最好准备好随时手动干预,否则你会看到一堆“尝试失败,请重试”的弹窗。

二、Operator到底干了些什么活?

官方演示里 它能自动填写表格、生成表情包、上网购物,还能把邮件内容粘贴进CRM系统。 调整一下。 实际使用中, 你会发现:

  1. 填表格——有时候能一次性搞定,有时候却卡在必填项验证,导致页面刷新无限循环。
  2. 购物下单——如果商品页面布局稍有变动,它就会误点“加入收藏”。
阅读全文