谷歌发布世界模型 Genie 3

genie

软件资讯发布于 11个月前 17 浏览 0 回复 0 点赞

谷歌 DeepMind 宣布正式发布了其最新一代世界模型 Genie 3，不仅在生成时长、分辨率和物理一致性上实现显著提升，还支持通过文本动态改变虚拟世界事件。

谷歌发布世界模型 <a href='https://www.ranling.com/question/tags/337/1.html'>Genie</a> 3

Genie3作为一款通用世界模型，能够以24帧每秒的速度生成720P分辨率的交互式3D环境，较前代Genie2（360P，10-20秒一致性）实现了显著飞跃。据谷歌DeepMind官方介绍，Genie3通过自回归方式逐帧生成虚拟世界，最长可维持数分钟的环境一致性，视觉记忆时长高达一分钟。

同时，Genie3 引入了革命性的“可提示世界事件”功能，用户可以通过简单的文本指令动态修改虚拟世界。例如，在一个滑雪场景中，用户可以输入指令添加一群鹿，或改变天气条件，模型能够实时响应并保持环境的物理一致性。

这一功能不仅增强了交互性，还为游戏开发者、教育工作者和AI训练提供了灵活的工具。相比传统游戏引擎需要预先编程的固定场景，Genie3的动态生成能力让虚拟世界的创作更加即时和多样化。

Genie3 无需依赖传统物理引擎，而是通过大规模视频数据集训练，自主学习重力、物体运动和交互等物理规律。无论是火星表面越野车的颠簸、河流中喷射的水花，还是风吹草动的自然效果，Genie3都能以高度逼真的方式呈现。

例如，在模拟阿尔卑斯山或古希腊场景时，模型能够跨越地理和时间界限，生成具有真实物理特性的多样化环境。这种自学习能力为AI智能体（如DeepMind的SIMA智能体）提供了丰富的训练场景，支持复杂目标的达成和长期任务的训练。

Genie3的发布被DeepMind视为迈向人工通用智能（AGI）的重要一步。研究主任Shlomi Fruchter表示，Genie3的通用性和实时交互能力使其成为训练AI智能体的理想平台。例如，机器人可以在模拟仓库中学习应对不可预测的场景，而无需真实世界的试错成本。此外，Genie3在教育、游戏和创意设计领域的潜力也不容小觑。教师可通过简单的文本提示生成沉浸式历史或科学场景，游戏开发者则能快速构建动态虚拟世界，极大地缩短开发周期。

尽管Genie3在技术上取得了显著突破，但仍存在一些局限性。例如，模型当前仅支持数分钟的连续交互，远未达到数小时的理想状态。此外，AI智能体在模拟环境中的交互能力有限，复杂多智能体交互仍需进一步探索。

谷歌DeepMind表示，Genie3目前以研究预览形式向部分学者和创作者开放，旨在进一步优化模型并评估潜在风险。未来，DeepMind计划逐步扩大测试范围，并探索将其应用于更广泛的场景。

同类文章推荐:

GNU C Library 2.43 发布