谷歌旗下谷歌旗下子公司-品牌名称

摘要：本站 12 月 5 日消息，谷歌旗下人工智能研究机构 DeepMind 发布了一款名为 Genie 2 的新型模型，可通过单张图片和文字描述生成“无限”种类的可玩 3D 世界。作为今年初推出的 Gen,谷歌旗下谷歌旗下子公司

本站 12 月 5 日消息，谷歌旗下人工智能研究机构 DeepMind 公开了一款名为 Genie 2 的新型模型，可通过单张图片和文字描述生成“无限”种类的可玩 3D 全球。作为现在初推出的 Genie 模型的更新版，Genie 2 标志着人工智能在虚拟全球生成领域的一次重大突破。

Genie 2 能够根据用户输入的文本描述和图像，实时生成交互式的三维场景。例如，输入“森林中的可人人形机器人”，模型便可构建壹个包含机器人人物和可寻觅环境的动态场景。用户可以通过键盘或鼠标操作人物在全球中进行跳跃、游泳等互动。

DeepMind 表示，Genie 2 可以生成具有不同视角（如第一人称视角和等距视角）的连贯全球，持续时刻长达一分钟，其中大多数持续 10 到 20 秒。

DeepMind 还称，Genie 2 在生成经过中能够模拟物体交互、动画、光照、物理反射以及“非玩家人物”（NPC）的行为。许多生成的场景画质接近 AAA 级别的电子游戏，甚至在物体视角一致性和场景记忆方面表现优异。

和之类似的模型还有李飞飞创立的 World Labs 和以色列初创企业 Decart 的产品，虽然大多数像 Genie 2 这样的模型 —— 也就是全球模型 —— 可以模拟游戏和 3D 环境，但存在伪影、一致性和幻觉相关的难题。例如，Decart 的 Minecraft 模拟器 Oasis 分辨率低，而且很快就会“忘记”关卡的布局。然而，Genie 2 可以记下模拟场景中不在视野范围内的一部分，并在它们再次可见时准确地渲染它们。（World Labs 的模型也可以做到这一点。）

值得注意的是，DeepMind 未详细披露 Genie 2 的训练数据来源，但业内推测其也许包括大量好玩的游戏的游玩记录。思考到谷歌可访问 YouTube 海量视频资源，并声称拥有运用其内容进行训练的权利，这引发了外界对该模型是否侵犯姿势产权的争议。

目前用 Genie 2 创建的游戏实际上不会那么有趣，由于每隔一分钟左右就会抹去进度。因此，DeepMind 将其定位为研究和创意工具，应用于快速原型设计和 AI 智能体评估等场景。

DeepMind 在其博客中写道：“通过 Genie 2 的泛化能力，概念艺术和手绘草图可以转化为完全互动的环境。这让研究人员能够快速生成多样化的环境，为未见过的任务场景提供评估支持。”

本站注意到，谷歌对全球模型研究的投入在持续扩大。现在 10 月，DeepMind 聘请了 OpenAI 前视频生成项目负责人 Tim Brooks，同时两年前从 Meta 挖来了以放开式实验闻名的 Tim Rocktäschel。

谷歌旗下 谷歌旗下子公司

延伸阅读

谷歌旗下谷歌旗下子公司