谷歌发布 Gemini 2.5 Computer Use 模型
谷歌发布了名为 “Gemini 2.5 Computer Use” 的新模型,该模型基于 Gemini 2.5 Pro 构建,可利用 “视觉理解与推理能力” 分析用户的请求,并完成相应任务。主打 AI 智能体与图形用户界面的自主交互能力,进一步完善其 AI 操作生态。
据介绍,该模型核心优势在于融合视觉理解与逻辑推理能力,可模拟人类完成点击、输入、滚动等 13 种浏览器操作,能处理无 API 接口的网页任务或跨页面交互场景,如自动填写表单、筛选商品信息、整理在线笔记等。其采用迭代工作流程,通过屏幕截图、操作历史反馈持续优化执行效果,在 Online-Mind2Web 等基准测试中实现领先性能与低延迟。
与同类产品相比,该模型聚焦浏览器环境,暂不支持桌面系统级控制,同时内置安全机制与开发者管控工具,可规避验证码绕过、高风险操作等隐患。
Gemini 2.5 Computer Use 模型目前处于预览阶段,开发者可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 调用这些能力。
为您推荐相关文章:
同类文章推荐: