Oasis – Decart联合Etched推出首款AI实时生成的游戏系统
一、Oasis什么是
Oasis项目是由初创公司Decart和Etched共同打造的一种特殊的AI模型成果展示平台。Oasis本身是一种无需游戏引擎,能直接根据视频模型输出类似《我的世界》(Minecraft)这样的可玩、可交互世界的项目 。这一项目代表着AI在游戏领域的新探索,即可以通过视频模型直出可交互的游戏内容,在游戏的实时性、交互性方面有着特殊的展现。用户可以通过该网址了解到关于Oasis模型相关的各类信息,例如其技术构成、运行原理、游玩方式等内容。从游玩角度来看,用户可以在这个网址进入Oasis的在线体验,不过进入之后可能需要进行短暂等待,每次游玩的时长目前最长限制为五分钟,然后选择一种模式就可开始体验游戏中通过AI实时生成的世界。并且从技术角度解析,这个项目中的Oasis模型是由两个部分组成,包括一个基于ViT架构的空间自动编码器和一个基于DiT架构的潜变量扩散骨干网络,这二者均基于Transformer架构构建而来 。
二、Oasis的功能特点
(一)技术架构上的特点
- 基于Transformer架构
- Oasis模型的空间自动编码器基于Vision Transformer(ViT)架构,而潜变量扩散骨干网络基于Diffusion Transformer(DiT)架构。ViT和DiT架构在AI领域都是比较先进的技术。ViT在处理图像等视觉类数据方面有着独特的优势,它能够将图像以类似于处理文本数据的方式进行处理,这种处理方式改变了传统的图像检测、识别等任务的方法,通过将图像划分为多个小块(tokens),再对这些小块进行Transformer运算,大大提高了图像相关任务的效率和准确率。DiT则在视频生成相关的扩散模型任务中有很好的表现。其通过在Transformer架构上的特殊设计,可以有效的处理视频生成过程中的各种任务,如物体生成、场景构建等。在Oasis项目中,这两个基于Transformer架构的部分协同工作,分别承担着自己的任务进而构建出整个视频生成模型,从而实现可交互的世界生成。举例来说,当用户在游玩基于Oasis的游戏时,自动编码器可能负责对输入的场景信息或者以往游戏过程中的图像信息进行初步处理和编码,然后潜变量扩散骨干网络基于这些编码信息生成下一个场景或者游戏画面中的各个物体元素等内容。
- 除了上述的ViT和DiT架构基础外,Oasis还使用了加速过的轴向、时空和因果注意力机制。这些注意力机制在克服长序列中的模型发散(divergence)方面有着关键的作用。在处理视频这样的数据类型时,数据往往具有长序列的特点,例如随着游戏的进程不断推进,或者视频播放时间的推移,画面中的信息会逐渐形成一个长序列的数据流。传统的模型在处理这种长序列数据时容易出现模型发散的问题,即随着序列的变长,模型的预测效果或者生成效果会偏离正确方向。而Oasis的这些注意力机制能够强化模型在长序列数据上的处理能力,保证模型稳定、准确地处理不同时刻的游戏输入,进而生成合理的游戏画面和场景转换。
- 模型组件分工明确
- 我们可以将Oasis的架构看作是一个分工明确的工厂系统。以上述的自动编码器和骨干网络为例,它们在整个模型运作过程中有着明确的分工。骨干网络类似于工厂的核心生产线,基于DiT架构,它的责任是将经过处理后的信息最终产出游戏内容,像是游戏中的场景(如草原、山脉、河流等不同地形场景)、物体(如树木、石块、武器等游戏中的各类物体)等内容。自动编码器则像是这个生产系统中的前端处理环节,它将摄入的信息按照一定的算法和规则进行初始的处理、编码,好让骨干网络能够更好的利用这些信息进行后续的生产。这种分工明确的架构设计使得整个模型的训练和运行更加高效,能够快速地根据用户输入生成对应的游戏内容,例如当用户按下键盘的某个键进行移动操作时,自动编码器迅速处理该操作对应的信息,然后骨干网络基于处理后的信息快速输出下一个画面中的场景和物体位置的变化结果。
(二)游戏相关功能特点
- 实时交互性
- Oasis在游戏的实时交互性方面具有显著特点。在不需要游戏引擎的情况下,仅接收用户的键盘输入便能够实时地生成开放世界游戏内容。例如,玩家可以在游戏中进行诸如移动、跳跃、拾取物品、打破砖块等操作,这些操作直接影响游戏中的场景和元素的变化,游戏可以即时响应这些操作生成新的视频内容。与传统的游戏相比,由于传统游戏往往是使用预先生成好的游戏素材或者场景,然后通过游戏逻辑调用这些素材来实现游戏进程,而Oasis是实时通过模型生成新的游戏场景和元素,所以在交互性上有着质的不同。以一个具有挖掘功能的游戏场景为例,当玩家在Oasis构建的游戏中控制角色挖掘土地时,模型会根据玩家的操作实时生成挖掘后的土地形态、可能出现的资源等内容,仿佛这个世界是真的在根据玩家的行为而演变。
- 物理与游戏规则理解
- 它所生成的视频内容不仅仅是简单的图形学的渲染,同时也能够体现出对物理原则和游戏规则的理解。在游戏中的物理原则体现方面,如物体的落体运动、碰撞效果等都能较为真实地展现。例如当设计游戏中的一个抛投物体的场景时,物体的飞行轨迹、撞击地面对周围环境的影响(可能砸出一个坑或者使周围物体移动等)都会遵循物理规律。从游戏规则角度来看,游戏中也有着生命值、饥饿度这样一般游戏中具有的复杂机制。玩家可以通过食物来获得体力以维持角色的存活,这些机制的存在使得游戏更加丰富和具有沉浸感。并且在游戏的世界构建方面有着一定的规则性,比如世界中的各种元素和角色之间也存在一定的相互关系,像是NPC可能会与玩家进行交易或者给予任务等内容,动物也有着自己的习性等 ,这样在构建一个游戏的虚拟世界时就给人一种更加真实、有序的感觉。
(三)运行方面的特点
- 硬件配合与运行效果差异
- Oasis项目在不同硬件运行环境下有着不同的运行效果。从官方介绍来看,在H100这样的硬件设备上运行时,能够以360p的分辨率实现每秒20帧的渲染,可以实现实时生成视频交互内容。如果在Etched打造的Sohu芯片上运行100B +参数的优化模型,那么就能达到4K级别的实时渲染,并且并发用户数量也将提升超过10x。这表明了Oasis对于不同硬件环境的适配性以及不同硬件条件下性能的可扩展性。例如在集成显卡的普通个人电脑和高端GPU服务器上运行,游戏体验可能会有巨大的差距,高端硬件能够提供更清晰、更流畅的画面视频生成,而普通硬件可能只能体验低分辨率下较为原始的画面质量,但是整体的交互性和游戏机制在不同硬件上都是可以运行的。
- 运行流程与文件操作
- 在本地运行Oasis也有一套相对复杂的流程,首先需要进入Oasis官方的github,这里重要的是要按照教程操作而且需要将自己的cuda版本和torch要求版本进行对应。然后进入huggingface进行模型下载,在这个过程中还可以先设置获取token作为下载的前置操作。下载模型之后根据终端输出,找到模型oasis500m.pt 和vit – l – 20.pt ,并将其拖拽至open – oasis的根目录下,之后运行generate.py ,如果出现特定进度则表示GPU开始工作,最后运行之后会生成video.mp4 文件。这种运行流程体现了整个Oasis模型在本地运行的流程规范性以及对于相关技术环境和文件操作的依赖性,特别是涉及到GPU计算资源的调用以及特定模型文件的放置和运行等多个环节,任何一个环节出现问题都可能会导致无法正常在本地生成游戏体验的视频文件等结果。同时我们还可以通过检出oasis – core存储库然后构建OasisCore进一步完善本地的运行,这同样也是Oasis项目在本地运行从代码构建到模型运算整个流程完整性的体现。
三、Oasis的应用场景
(一)游戏开发领域
- 构建新型游戏体验
- 在传统游戏开发过程中,通常需要耗费大量的人力和物力构建游戏引擎,然后开发游戏内容中的素材,如场景建模、角色设计等。然而Oasis提供了一种全新的方式,即不需要游戏引擎,凭借其AI模型直接产生新的游戏内容。这一功能可以为独立游戏开发者或者小型游戏开发团队提供更多的创作可能性。他们可以利用Oasis的实时生成功能,快速实现游戏的创意原型构建。例如一个想要制作冒险类游戏的开发者,可以通过Oasis快速生成一个充满神秘元素的游戏场景,如古老的城堡、隐藏的洞穴等场景并且随着玩家的探索实时变化。同时由于Oasis的交互性,开发者不需要像传统开发那样精心设置每一个交互元素的触发条件,而是可以让玩家的行为直接驱动游戏世界的变化从而创造出独特的游戏体验。
- 对于大型游戏公司而言,Oasis也提供了一种创新的开发思路补充。在一些大型开放世界游戏开发过程中,可以利用Oasis的实时生成技术来减轻前期构建游戏世界规模的工作量。比如在一个包含大量随机生成元素的游戏世界中,如随机生成的地形地貌、随机生成的怪物等任务,可以交给Oasis模型来实时生成,这样可以降低开发过程中预生成所有可能游戏内容的巨大工作量,并且可以在一定程度上减少游戏的存储占用空间,因为不需要预存大量的游戏素材。
- 教育游戏开发
- 在教育游戏领域,Oasis的功能也有着独特的优势。教育游戏需要在娱乐性和教育性之间找到平衡,并且往往需要针对不同的教育内容快速调整游戏场景和玩法。利用Oasis的实时生成技术,可以根据特定的教育内容快速创造出相应的游戏场景。例如在地理教育游戏中,可以实时生成不同的地理地貌场景,如山川、河流、大陆架等,让学生能够更加直观地参与到地理知识的学习中。而且由于Oasis对游戏规则的良好理解,开发者可以方便地构建基于教育规则的游戏玩法,如答对题目可以解锁新的区域或者获得特殊功能等。这一特性使得教育游戏的开发周期缩短并且更加符合教学要求的动态调整需求。
(二)AI与视频模型研究领域
- 探索新型视频模型架构
- Oasis模型作为一个创新的视频模型有着独特的架构,其基于Transformer架构的组合以及特殊的注意力机制对于AI和视频模型研究界有着启发意义。研究人员可以深入研究Oasis模型中自动编码器和骨干网络的协作方式,探索如何在其他视频模型的构建中优化架构设计。例如在视频内容自动生成研究方向上,借鉴Oasis的架构可能会开发出更高效、更精准的视频生成模型,用于视频创作的自动化,如影视后期制作中的特效生成、短视频的智能创作等。
- 其在处理长序列视频数据以及克服模型发散方面的技术手段也为AI研究在序列数据处理领域提供了一个新的样板。其他研究人员可以进一步改进或者提出类似的注意力机制来解决序列数据处理中的获取长依赖关系等问题。例如在自然语言处理中,文本数据其实也是一种序列数据,相关研究可以尝试将类似于Oasis的应对长序列数据的处理机制应用到自然语言处理的新模型开发中。
- 视频交互性研究
- 从视频交互性的研究角度来看,Oasis为一个直接的研究样本。传统的视频是相对静态的内容消费形式,而Oasis实现了视频的高度交互性。研究人员可以通过分析Oasis的模型和运行,深入研究如何让视频内容更好的和用户进行交互,不仅仅局限于游戏领域。例如在虚拟现实(VR)和增强现实(AR)的视频应用情景下,如何设计更流畅、更自然的视频交互机制,让用户在观看视频内容时可以有更多的控制和交互方式,如改变视频场景中的元素、引导视频故事发展等。这种研究将有助于推动视频内容从传统的单向传播向交互式、沉浸式方向发展。
(三)娱乐产业的创意创新
- 发展AI辅助现场娱乐体验
- 随着现场娱乐活动如音乐会、舞台剧等对于视觉效果的追求提高,Oasis的实时视频生成技术可以被用于为这些现场表演提供AI辅助的视觉特效。例如在一场音乐会上,根据音乐的节奏、旋律,Oasis模型可以实时生成与之相匹配的可视化特效场景。像播放激昂的音乐时,可生成诸如火焰、激烈的战斗场面等充满活力的视觉场景;而在播放舒缓音乐时,可以生成宁静的星空、潺潺的溪流等场景。并且由于其可以根据输入实时调整,表演过程中的即兴发挥也能及时转化为对应的视频画面,为现场娱乐活动增添更多的创意和惊喜。
- 在线娱乐内容创新
- 在在线娱乐的视频平台,Oasis技术也可以实现一些创新应用。比如现有的在线视频直播平台,主播在直播过程中通常是按照既定的场景或者依靠有限的特效工具进行直播内容构建。而借助Oasis技术,主播可以实时生成更加丰富的直播场景和特效,也可以让观众通过互动来改变直播场景,从而大大提升在线娱乐内容的丰富性和互动性。另外在网络剧、网络电影等在线影视制作中,也可以采用类似的方式进行特效制作或者场景创意,打破传统的影视制作对于拍摄场地、道具等物质资源的依赖,以一种更加灵活快捷的方式创作影视内容。
四、Oasis的用户评价
(一)积极评价
- 技术创新层面
- 从技术创新的角度来看,许多用户对Oasis的不需要游戏引擎就可以生成可交互游戏的能力表示赞赏。这种创新的实现方式被认为是AI在游戏领域的一次重大突破。在以往的游戏开发中,游戏引擎是构建游戏的基础构架,用于处理游戏中的各种物理效果、渲染等核心功能。而Oasis能够抛开传统游戏引擎,仅仅依靠一个AI视频模型就可以做到实时生成游戏画面并且对玩家的操作进行交互响应,这在游戏开发的理念和实现手段上都是全新的尝试。就像在早期的第一人称射击游戏中,从专门开发的游戏引擎转向利用这种新型的AI模型构建游戏,意味着在游戏场景的生成速度、灵活性等方面可能会有质的飞跃。这就好比传统建筑依靠大量人力从地基开始一块砖一块瓦的构建,而Oasis像是直接使用智能机械从一个设计蓝图直接一次性构建起建筑的主体框架。
- 用户对其在处理复杂的游戏逻辑方面的表现也给予了好评。例如在游戏世界中同时处理多个机制,像生命值、饥饿度以及物体之间的交互逻辑(如物品的拾取、使用等操作如何与角色状态关联)等。一个小小的游戏场景中可能存在多种物品的不同交互逻辑,而Oasis能够在实时生成游戏内容的同时保证这些复杂逻辑的正常运行,这对于AI技术在游戏领域的应用扩展提供了一个良好的例子而且也让玩家体验到更加丰富完整的游戏世界。
- 游玩体验层面
- 在游玩体验方面,玩家对它的实时交互性赋予了较高的评价。因为在游戏过程中能够即时看到自己操作后游戏世界的变化是一种新奇的体验。例如玩家在游戏场景中挖掘土地或者砍伐树木时,马上看到场景的变化,这种实时性使得玩家更有身临其境的感觉,就好像自己真的在一个开放式的、可由自己行为塑造的世界里面。另外,对于一些探索性的玩家,Oasis每次游戏都能提供不同的探索体验也得到了好评。由于游戏世界是实时生成的,每次进入游戏即便选择同样的地图类型,在不同的地点或者不同的游戏进程所遇到的场景和元素都可能不同,这为玩家的探索之旅增加了更多的未知性和新鲜感。
(二)消极评价
- 画面质量方面
- 部分用户对Oasis的画面质量提出了批评。虽然其在AI技术方面有诸多创新之处,但是在画面的分辨率和整体视觉效果上存在比较明显的短板。目前在普通硬件上运行时,其360p的分辨率显得有些过低,与当前主流的高清游戏画面相比有非常大的差距。例如与一些大型3A游戏中精细的纹理、逼真的材质效果相比,Oasis的画面看起来就显得比较粗糙。而且在画面的一致性方面也存在问题,有玩家反映只要转一个圈看到的东西就全变了,这种画面的稳定性和连贯性不足使得视觉体验大打折扣。
- 等待时间和游玩时长限制
- 在体验的可用性方面,用户对进入游戏前的等待时间以及游玩时长的限制不太满意。进入游戏地址之后需要进行等待才能进入游戏画面,对于急于体验的玩家是一种不良体验。每次目前最长游玩五分钟的限制也让很多玩家觉得意犹未尽。特别是对于一些深度游戏玩家,这种时间限制使得他们很难全面深入地体验游戏中的所有内容或者长时间沉浸在游戏构建的世界中。
五、Oasis的开发团队和背景
(一)开发团队
- Decart公司
- Decart是一家初创公司,成立于2023年9月,在整个Oasis项目中扮演着重要的角色。这个公司一直致力于提高AI模型的效率和降低运行成本,重点为AI模型提供更快、更可靠的训练以及实时推理方面的服务。在成立仅仅三个月后便与一家GPU云服务商达成了数百万美元的交易,这也展示了这个公司在起步初期就具备较强的商业运营能力和技术吸引力。Decart的联合创始人MosheShalev和DeanLeitersdorf带领着公司的团队参与Oasis项目的开发。从公司的发展和技术追求来看,也反映出其在AI领域积极探索新的技术方向并且勇于推动AI模型商业化的倾向,对Oasis这个项目的开发方向有着重要的影响。
- Etched公司
- Etched是来自美国的一家人工智能芯片公司,成立于2022年。这家公司有着特殊的技术背景,它的三位核心创始人均为哈佛辍学生,尽管他们的教育背景有着这样的特殊性,但在技术成就方面却有着耀眼的成绩。其最著名的成果是推出了Sohu芯片,这是世界上第一个基于Transformer架构的ASIC芯片,专门为大型语言模型(LLM)推理加速打造。这个芯片在性能上非常出色,以Llama70B模型的推理性能为例,1张Sohu≈20张H100≈10张B200。在Oasis项目中,Etched通过Sohu芯片与Decart进行通力合作,利用芯片的优异性能为Oasis模型提供硬件层面的支持,以实现其在不同参数下的高效运行,例如在100B +参数的优化模型下在Sohu芯片上能达成4K级别的实时渲染。
(二)开发背景
- AI技术发展趋势的推动
- 在当今的科技界,AI技术正在以前所未有的速度发展。从早期简单的机器学习算法发展到如今的深度学习、强化学习等多种技术融合的复杂AI体系。在视频和游戏领域,需要找到一种新的方式来突破传统的开发局限。传统的游戏引擎开发模式随着游戏对视觉效果、交互性要求的不断提高面临诸多挑战,如复杂场景的渲染速度、海量游戏素材的预生成等问题。而AI技术的发展为解决这些问题提供了新的思路。Oasis项目的开发正是顺应了这一趋势,试图将AI技术,特别是Transformer架构的先进成果应用到视频和游戏领域,以寻找新的解决方案。例如Transformer架构在自然语言处理领域大放异彩之后,相关研究人员开始探索将其应用于计算机视觉和游戏领域,Oasis项目很好地将其与视频模型、游戏构建相互结合,是AI技术从文本等领域向视频、游戏领域延伸扩散的一种尝试。
- 市场需求和资本关注的因素
- 市场方面对新型的游戏体验、视频互动方式有着强烈的需求。随着玩家对游戏体验要求的不断提高,传统游戏模式下相对固定的游戏场景和交互方式逐渐不能满足市场需求。玩家渴望更多个性化、实时动态变化的游戏体验。同时对于视频产业而言,从传统的视频消费模式向互动性更强的视频体验转变也是一个潜在的、巨大的市场趋势。在这种市场需求下,Oasis项目应运而生。而且从资本关注角度来看,这个项目也具有很强的吸引力。例如当红杉资本更是豪掷2100万美金对Decart进行投资,这一资本注入不仅反映了投资者对Decart公司的团队和运营能力的信任,也表明了对Oasis这个项目的看好。资本的支持为这个项目的进一步开发、优化以及推广提供了坚实的经济基础。