谷歌发布世界模型 Genie 3

软件资讯 软件资讯 发布于 2小时前 1 浏览 0 回复

谷歌 DeepMind 宣布正式发布了其最新一代世界模型 Genie 3,不仅在生成时长、分辨率和物理一致性上实现显著提升,还支持通过文本动态改变虚拟世界事件。

谷歌发布世界模型  <a href='https://www.ranling.com/question/tags/337/1.html'>Genie</a>  3

Genie3作为一款通用世界模型,能够以24帧每秒的速度生成720P分辨率的交互式3D环境,较前代Genie2(360P,10-20秒一致性)实现了显著飞跃。据谷歌DeepMind官方介绍,Genie3通过自回归方式逐帧生成虚拟世界,最长可维持数分钟的环境一致性,视觉记忆时长高达 一分钟。

同时,Genie3 引入了革命性的“可提示世界事件”功能,用户可以通过简单的文本指令动态修改虚拟世界。例如,在一个滑雪场景中,用户可以输入指令添加一群鹿,或改变天气条件,模型能够实时响应并保持环境的物理一致性。

这一功能不仅增强了交互性,还为游戏开发者、教育工作者和AI训练提供了灵活的工具。相比传统游戏引擎需要预先编程的固定场景,Genie3的动态生成能力让虚拟世界的创作更加即时和多样化。

Genie3 无需依赖传统物理引擎,而是通过大规模视频数据集训练,自主学习重力、物体运动和交互等物理规律。无论是火星表面越野车的颠簸、河流中喷射的水花,还是风吹草动的自然效果,Genie3都能以高度逼真的方式呈现。

例如,在模拟阿尔卑斯山或古希腊场景时,模型能够跨越地理和时间界限,生成具有真实物理特性的多样化环境。这种自学习能力为AI智能体(如DeepMind的SIMA智能体)提供了丰富的训练场景,支持复杂目标的达成和长期任务的训练。

Genie3的发布被DeepMind视为迈向人工通用智能(AGI) 的重要一步。研究主任Shlomi Fruchter表示,Genie3的通用性和实时交互能力使其成为训练AI智能体的理想平台。例如,机器人可以在模拟仓库中学习应对不可预测的场景,而无需真实世界的试错成本。此外,Genie3在教育、游戏和创意设计领域的潜力也不容小觑。教师可通过简单的文本提示生成沉浸式历史或科学场景,游戏开发者则能快速构建动态虚拟世界,极大地缩短开发周期。

尽管Genie3在技术上取得了显著突破,但仍存在一些局限性。例如,模型当前仅支持数分钟的连续交互,远未达到数小时的理想状态。此外,AI智能体在模拟环境中的交互能力有限,复杂多智能体交互仍需进一步探索。

谷歌DeepMind表示,Genie3目前以研究预览形式向部分学者和创作者开放,旨在进一步优化模型并评估潜在风险。未来,DeepMind计划逐步扩大测试范围,并探索将其应用于更广泛的场景。



同类文章推荐:

  • Python 虚拟环境 VirtualEnv 20.33.1 发布
  • Firefox 141.0.2 发布
  • IntelliJ IDEA 2025.2 发布
  • PHP 8.4.11 发布
  • 开源压缩软件 7-Zip 25.01 发布
  • 免费开源的跨平台 FTP 应用程序 FileZilla 3.69.3 发布