谷歌发布 Gemini 2.5 Computer Use 模型

软件资讯 软件资讯 发布于 4小时前 0 浏览 0 回复

谷歌发布了名为 “Gemini 2.5 Computer Use” 的新模型,该模型基于 Gemini 2.5 Pro 构建,可利用 “视觉理解与推理能力” 分析用户的请求,并完成相应任务。主打 AI 智能体与图形用户界面的自主交互能力,进一步完善其 AI 操作生态。

谷歌发布  <a href='https://www.ranling.com/question/tags/330/1.html'>Gemini</a>  2.5 Computer Use 模型

据介绍,该模型核心优势在于融合视觉理解与逻辑推理能力,可模拟人类完成点击、输入、滚动等 13 种浏览器操作,能处理无 API 接口的网页任务或跨页面交互场景,如自动填写表单、筛选商品信息、整理在线笔记等。其采用迭代工作流程,通过屏幕截图、操作历史反馈持续优化执行效果,在 Online-Mind2Web 等基准测试中实现领先性能与低延迟。

谷歌发布 Gemini 2.5 Computer Use 模型

与同类产品相比,该模型聚焦浏览器环境,暂不支持桌面系统级控制,同时内置安全机制与开发者管控工具,可规避验证码绕过、高风险操作等隐患。

Gemini 2.5 Computer Use 模型目前处于预览阶段,开发者可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 调用这些能力。



为您推荐相关文章:

  • Gemini 2.5 Flash-Lite 稳定版(GA)发布
  • 谷歌 AI 编程工具 Gemini CLI v0.3.1 版本发布
  • 同类文章推荐:

  • OpenAI 正式上线 GPT-5 Pro API
  • OpenAI 宣布 AI 编程助手 Codex 正式 GA
  • React 19.2.0 发布
  • Python 虚拟环境 VirtualEnv 20.35.0 版本发布
  • Flux v2.7 正式发布
  • 高通宣布收购 Arduino