OpenAI推出通用Agent: 可控制文件和网页浏览器
- 2025-07-19 08:33:22
- 346
OpenAI正在推出一款名为ChatGPT的全新通用AI代理,该公司表示,它可以代表用户完成各种基于计算机的任务。
OpenAI表示,该代理可以自动浏览用户的日历,生成可编辑的演示文稿和幻灯片,并运行代码。
这款名为ChatGPT代理的工具融合了OpenAI之前代理工具的多项功能,包括Operator在网站上点击的能力,以及DeepResearch将数十个网站的信息整合成一份简明研究报告的能力。
OpenAI表示,用户只需使用自然语言输入ChatGPT即可与该代理进行交互。
ChatGPT代理将于周四向OpenAIPro、Plus和Team计划的订阅用户推出。要激活该工具,用户可以在ChatGPT的工具下拉菜单中选择代理模式。
ChatGPT代理的推出代表了OpenAI迄今为止最大胆的尝试,旨在将ChatGPT打造成一款能够为用户采取行动和分担任务的代理产品,而不仅仅是回答问题。
近年来,包括OpenAI、谷歌和Perplexity在内的硅谷公司已经推出了数十款承诺实现这一目标的AI代理。然而,这些早期版本的AI代理已被证明难以处理复杂任务,而且作为产品,它们似乎不如科技高管们所宣传的AI代理的终极愿景那么引人注目。
话虽如此,OpenAI表示ChatGPT代理比其以前的产品功能强大得多。
该公司的新代理可以访问ChatGPT连接器,允许用户连接Gmail和GitHub等应用程序,以便代理能够找到与你的提示相关的信息。OpenAI表示,ChatGPT代理可以访问终端,并且可以使用API访问某些应用程序。
OpenAI建议用户利用ChatGPT代理“规划并购买食材,制作四人份日式早餐”,以及“分析三个竞争对手并制作幻灯片”。这些功能需要ChatGPT代理解析网站、规划行动方案并使用工具——这比OpenAI之前尝试用代理解决的任务要复杂得多。
OpenAI表示,ChatGPT代理所基于的模型在多个基准测试中提供了最先进的性能。
该公司表示,ChatGPT代理模型在Humanity的LastExam(pass@1)考试中获得了41.6%的分数。这项考试难度极高,包含一百多个科目的数千道题目。这大约是OpenAI的o3和o4-mini在该测试中得分的两倍。
OpenAI表示,在已知最难的数学基准测试之一FrontierMath上,ChatGPT代理在能够使用工具(例如用于代码执行的终端)的情况下,得分可达27.4%。此前的最高得分来自o4-mini,得分仅为6.3%。
OpenAI指出,其在开发ChatGPT代理时始终将安全性放在首位,主要是因为该产品的一些新功能可能会使其在不法分子手中变得更加危险。OpenAI此前曾警告称,代理模型可能会带来更危险的功能。
OpenAI在ChatGPT代理的安全报告中表示,该模型在生物和化学武器领域被评定为高能力,OpenAI的防范框架将其定义为具有放大现有严重危害途径能力的模型。
OpenAI指出,目前尚无直接证据证明这一点,但已决定采取预防措施,并启动新的保障措施来降低这些风险。
ChatGPT代理的新安全措施包括一个在用户与产品交互时实时运行的监视器。
OpenAI表示,它会对输入ChatGPT代理的每个提示运行一个分类器,以确定该请求是否与生物学相关。如果是,OpenAI会通过第二个监视器运行ChatGPT代理的响应,以确定该内容是否可能被用来引发生物威胁。
OpenAI还表示,为了防止滥用,它已禁用ChatGPT代理的记忆功能。在ChatGPT的其他部分,OpenAI的记忆功能允许聊天机器人引用之前用户聊天记录中的信息。
然而,OpenAI表示,不法分子可能会利用ChatGPT代理中的该功能,通过快速注入攻击窃取敏感数据。不过,该公司表示,未来可能会重新考虑添加该功能。
ChatGPT代理听起来令人印象深刻,但它在现实世界中的能力究竟如何还有待观察。迄今为止,代理技术在与现实世界交互时已被证明相对脆弱。
即便如此,OpenAI表示,它已经开发出一种功能更强大的模型,能够兑现AI代理的承诺。