IT博客汇 | 好生猛，全球首款AI游戏问世！

好生猛，全球首款AI游戏问世！

WinstonChen发表于 2024-11-06 11:40:33

最近，一款名为 Oasis 的开放世界游戏火遍全网。

在国内外，关于 Oasis 的视频都引发了广泛的关注。

从表面看来，游戏画面完全是《我的世界》。

不过令人震惊的是，这款游戏不包含任何游戏引擎，也不依赖编程逻辑，所有游戏画面，只由AI大模型实时生成。

想象一下，一个完全由AI创造的开放世界，只需键盘输入，AI就能直接生成一整个虚拟宇宙！

Oasis的团队将重点放在提升生成式AI的实时性和互动性上。通过将模型训练在数百万小时的游戏视频数据上，Oasis学习了基础的游戏逻辑、物体行为、物理法则和交互模式。

这样，模型不仅能理解玩家的输入，还可以自主构建游戏规则、管理物品、计算光照物理等，这些都是传统游戏引擎无法脱离代码逻辑实现的。

那么 Oasis 是怎么实现的？

Oasis的核心技术设计基于 Transformer 架构，采用了创新的模型分层设计和推理机制。这种设计不仅要求生成视觉内容，还要实时反应游戏物理、交互规则等复杂的动态变化。要实现这一点，Oasis将生成式模型分为两个主要模块：

空间自动编码器：Oasis 中的空间自动编码器基于Vision Transformer (ViT) 架构，负责从玩家的视角输入中提取空间特征，理解三维场景的结构、光照效果和物体布局。编码器会对场景进行编码，使模型能够理解并生成符合物理规律的场景。
潜在扩散骨干：核心的潜在扩散模型基于DiT（Diffusion Transformer），负责将空间特征编码转化为实际的游戏画面。Latent Diffusion Backbone 通过逐帧生成，模拟物体的动态变化、视角切换及互动效果。

此外，Oasis 的一个重要的技术创新是“动态加噪”技术。这是一种在推理时使用的噪声注入机制，专门为解决长时生成中的误差累积问题设计的。

由于Oasis每帧的生成都是基于前一帧的输出，这种自回归特性使得小的误差会逐渐积累，最终可能导致严重的画面失真，甚至直接崩溃。

为此，Oasis在推理过程中对每一帧注入噪声，通过增加初始帧的噪声来防止误差放大，逐步降低噪声以恢复细节，使模型能够在生成的过程中保持一致性。

这种动态加噪的实现方式在训练过程中得到了优化：模型在训练时已经接触并适应了不同噪声水平的场景，因而在推理时更能处理带有噪声的输入，进一步增强了生成的稳定性。这种机制不仅提升了生成的质量，还有效地降低了对硬件性能的压力。

不过，在实际体验中，Oasis 也存在许多问题。简单来说，所有的问题都可以用一句话概括—— 吃菌子了。

多个玩家提到，在视角转动时会产生错觉，即视野中的场景似乎在切换视角后发生了随机变化，有一种“梦境”感。

场景突然改变，缺乏连续性，特别是在操作停顿一段时间后，游戏世界中的环境似乎会“自行演变”，仿佛在静态时场景也会自行刷新。

这让人感觉到现实解体。甚至有玩家提到，这样的体验带来了生理不适。

这一问题的根源可能在于，Oasis 缺乏长时记忆的支持——每一帧都是模型即时生成的，而不是基于持久的场景数据，因此场景无法在用户的视角切换中保持一致。

另一个问题是，Oasis当前仅支持以360p分辨率和每秒20帧的速率运行，这种低清晰度极大程度上影响了体验。

生成的世界看上去较为粗糙，这一问题与模型的实时生成速度和硬件要求直接相关。

其实这两个问题通俗来说，就是上下文问题和性能问题。

所以，引入短期和长时记忆模块可能可以帮助解决上下文问题。而为提升分辨率，作者团队提到，Oasis 针对 Sohu 进行了优化（Sohu 是由 Etched 构建的 Transformer ASIC），会有不断的性能提升。

在不久的将来，Oasis 或许会发展出更高的分辨率、更流畅的体验、甚至能提供长时记忆，真正实现一个无限演化的虚拟游戏宇宙。

目前游戏的 demo 已经可以直接在线体验了。PC端和手机端都可以直接通过网址游玩。

这款游戏，属于未来。

官方网址：

https://oasis-model.github.io/

体验地址：

https://oasis.decart.ai