谷歌发布 Gemini 2.5 Computer Use 模型

gemini

软件资讯发布于 10个月前 15 浏览 0 回复 0 点赞

谷歌发布了名为 “Gemini 2.5 Computer Use” 的新模型，该模型基于 Gemini 2.5 Pro 构建，可利用 “视觉理解与推理能力” 分析用户的请求，并完成相应任务。主打 AI 智能体与图形用户界面的自主交互能力，进一步完善其 AI 操作生态。

谷歌发布 <a href='https://www.ranling.com/question/tags/330/1.html'>Gemini</a> 2.5 Computer Use 模型

据介绍，该模型核心优势在于融合视觉理解与逻辑推理能力，可模拟人类完成点击、输入、滚动等 13 种浏览器操作，能处理无 API 接口的网页任务或跨页面交互场景，如自动填写表单、筛选商品信息、整理在线笔记等。其采用迭代工作流程，通过屏幕截图、操作历史反馈持续优化执行效果，在 Online-Mind2Web 等基准测试中实现领先性能与低延迟。

谷歌发布 Gemini 2.5 Computer Use 模型