GameNGen – 谷歌推出的世界首个AI游戏引擎 ,零代码实时生成游戏

一、什么是GameNGen

GameNGen是谷歌推出的世界首个完全由AI驱动的游戏引擎。它利用神经网络实时生成游戏画面,不需要手动编写代码,就能在复杂的环境里实现高质量的实时互动。这一技术成果打破了传统游戏引擎发展的瓶颈,在游戏开发领域展现出巨大的变革潜力。例如,它能够以每秒20帧的速度生成类似《毁灭战士》这样的3D游戏画面,画面画质逼真,在对生成画面进行的人工评估中,1.6秒和3.2秒的短片段里,人类评估者分别有58%和60%的概率无法区分AI生成的画面和真实游戏画面,生成画面的峰值信噪比(PSNR)达到了29.4,类似于高质量JPEG图像 。

cac58ba51d4d7ae4ff22a5754d9b24dd

二、GameNGen的特点和功能

(一)独特的技术架构特点

  1. 基于神经网络与扩散模型
    • GameNGen的核心技术是使用扩散模型预测生成每一帧画面。它在单个TPU(谷歌定制的AI加速器芯片)上运行,通过两个阶段的训练来实现游戏生成。首先是训练强化学习(RL)代理玩游戏并记录训练过程;随后训练扩散模型根据历史帧和玩家动作预测并生成下一帧。这种技术架构与传统游戏引擎依靠手工编写代码进行游戏状态管理和渲染视觉效果有着本质区别。
  2. 高画质与高帧率
    • 能以每秒20帧的速度生成3D游戏画面,并且画面质量极为出色。其生成画面的峰值信噪比达到29.4,这一指标表明画面质量可与高质量JPEG图像相媲美。这意味着在视觉效果上,GameNGen已经能够提供相当不错的游戏画面,使得玩家在游戏过程中有较好的视觉体验 。
  3. 无需传统游戏组件
    • 区别于传统游戏引擎,GameNGen不需要传统游戏引擎的常规组件。例如传统游戏引擎在开发过程中需要精心编码软件来管理游戏状态以及渲染视觉效果等,而GameNGen用AI驱动的生成扩散模型,就能自动模拟整个游戏环境,像《毁灭战士》这样具有复杂3D环境和快节奏动作的游戏,也无需那些传统组件 。

(二)功能方面

  1. 实时互动功能
    • 可实现高质量的实时互动。玩家在游戏过程中的操作(如键盘、鼠标动作等)可以被GameNGen即时处理,然后根据当前游戏状态(之前的游戏画面帧等)生成下一帧画面,这种实时互动性能是游戏体验流畅性的重要保障,让游戏角色的动作响应、场景的交互等都显得自然流畅,就像传统游戏一样可玩度非常高。
  2. 个性化创作功能
    • 允许开发者通过简单的参数设置,快速生成符合特定主题和风格的游戏场景、角色和道具。这一功能为游戏创作带来了极大的灵活性,无论是小型工作室还是个人创作者都可以根据自己的创意快速构建游戏内容,从而有可能使得游戏创作更加多样化,为游戏世界带来更多独特的、富有创意的游戏作品,满足不同玩家群体的个性化需求 。
  3. 持续学习优化功能
    • GameNGen能够根据玩家的反馈和行为数据不断优化游戏内容。随着玩家不断地进行游戏,产生大量游戏过程数据,GameNGen可以基于这些数据改进自身的画面生成算法、游戏逻辑等方面,使得游戏的难度、情节发展等更加贴合玩家的喜好和需求,提供更加优质的用户体验 。

三、GameNGen的应用领域

(一)游戏开发领域

  1. 降低开发门槛和成本
    • 在游戏开发方面,GameNGen彻底改变了游戏开发模式。以往游戏开发需要大批人力编写代码、设计关卡、创建游戏世界,成本高昂、周期长。而GameNGen是由AI驱动的引擎,通过自动生成游戏内容,大大减少了开发所需的人力、物力和时间投入。例如,小型工作室或者个人创作者原本受资源和技术限制难以开发复杂游戏,而利用GameNGen就可以轻松创建出复杂、互动性强的游戏作品,为更多人参与游戏开发创造了机会,从而有望使得游戏开发群体更加广泛和多元化 。
  2. 改变游戏创作方式
    • 游戏开发不再依赖传统的预先设计好的固定内容模式。GameNGen不仅能生成静态的游戏场景,而且还能够根据玩家的实时操作动态调整游戏内容。这意味着游戏内容将根据玩家的行为实时演变,带来前所未有的游戏体验。例如在角色扮演游戏中,游戏情节、任务等可能根据玩家的决策而动态生成,而不像传统游戏那样是预先设定好的固定流程 。

(二)其它领域

  1. 虚拟现实(VR)和增强现实(AR)领域
    • 在VR和AR领域具有广泛的应用前景。VR旨在创建完全沉浸式的虚拟世界,AR则是增强现实环境的互动性。GameNGen可以创建出完全沉浸式的互动世界,并实时响应用户的输入。例如在VR教育游戏中,GameNGen可以依据学习内容随时生成逼真的教学场景,让学习者有身临其境的感觉;在AR导游类应用中,可以根据游客的位置和兴趣点即时生成相关的历史场景或者景物的详细介绍等多感官互动内容,增强游客的游览体验 。
  2. 自动驾驶领域
    • 在自动驾驶领域,高保真度的实时模拟对于培训、测试和运营管理都至关重要。GameNGen可以提供复杂环境的实时模拟,例如通过创建各种路况场景(如不同天气条件下的道路、交通拥堵状况等),用来训练自动驾驶车辆的决策系统,也可以测试自动驾驶系统在不同场景下的性能表现。它可以不需要传统游戏引擎的常规构建过程就构建出这些复杂环境,为自动驾驶技术的发展提供更加便捷、高效的模拟工具 。

四、GameNGen的发展历程

  1. 萌芽探索期
    • 最初源于开发者的好奇心:能否在当前的处理器上,运行一个隐式神经网络,来进行实时互动游戏。这一想法的提出与相关人员的背景和项目历程有关。例如项目负责人Shlomi Fruchter以前从事过手写GPU渲染代码(显式)等工作,后来逐步转向训练能在GPU上运行的神经网络(隐式)且包含游戏逻辑的开发研究,这个过程中对神经网络在游戏方面的应用开始产生深入的思考和探索。他早期进行的3D引擎编码项目为其奠定了一定的基础,从2002年GPU只能用于渲染图形开始,经过编写高级着色器语言代码等技术发展,逐步朝着能够实现实时互动游戏的神经网络方向发展 。
  2. 技术研发期
    • 谷歌的研究人员开始朝着构建GameNGen努力。利用AI图像生成模型StableDiffusion(最初用于生成静态图像)进行扩展研发。他们通过训练强化学习代理玩游戏来生成大量的游戏画面数据,进而将这些数据用于训练StableDiffusion模型,使得该模型在给定前一帧的情况下能够预测并生成下一帧的游戏画面。这个阶段采用了创新的技术组合,如将强化学习和扩散模型相结合,确保GameNGen不仅能生成单帧高质量图像,还能保证图像的时间连贯性。同时不断地进行技术调整和优化,以提高画面质量等性能指标,实现利用神经网络实时生成游戏画面等目标 。
  3. 成果展示期
    • 以《毁灭战士》这款经典第一人称射击游戏为测试案例进行展示。选择《毁灭战士》是因为其以复杂的3D环境和快节奏动作闻名,能够很好地测试GameNGen的性能。在测试过程中,展示了如以每秒20帧的速度输出游戏画面,下一帧预测的峰值信噪比(PSNR)达到29.4等优异的性能指标。并且通过让人类评估者区分真实游戏画面和模拟画面,发现1.6秒和3.2秒的短片段里人类评估者分别有58%和60%的概率无法区分AI生成的画面和真实游戏画面,证明了GameNGen在游戏画面生成方面的优秀成果,成功向外界展示了AI驱动游戏引擎的潜力和可行性 。

五、GameNGen的优势和不足

(一)优势

  1. 创新的开发模式
    • 作为首个完全由神经模型驱动的游戏引擎,GameNGen的问世彻底改变了传统游戏开发模式。传统游戏开发依赖大量手工编写的代码,在游戏状态管理和视觉效果渲染等方面耗时费力。而GameNGen不需要手动编写代码,只要利用AI技术就能自动生成游戏画面,极大地提高了开发效率,降低了开发难度,缩短了开发周期。例如小型工作室或者独立开发者利用GameNGen可以在很短的时间内开发出一个简单的游戏原型,而按照传统模式可能需要数月才能完成类似的工作 。
  2. 优异的图像生成质量与互动性
    • 在画面质量方面,其生成的游戏画面峰值信噪比(PSNR)达到了29.4,与高质量JPEG图像相当。每秒20帧的速度保证了游戏画面的流畅性,再加上能够在复杂环境中实现高质量的实时互动,这使得它生成的游戏无论是视觉效果还是操作体验都达到了较高的水准。例如在模拟《毁灭战士》这类复杂游戏时,从帧与帧之间的连贯性到画面的逼真度都表现出色,为玩家提供了较为真实、流畅的游戏环境 。
  3. 个性化与创造性潜力
    • 可让更多非专业开发者能够利用AI技术快速创建游戏。由于它允许开发者通过简单的参数设置产生符合特定主题和风格的游戏元素,还能根据玩家反馈持续优化游戏内容,这为个性化游戏的开发创造了条件。它开启了新的游戏创作空间,有望带来更多创新的游戏类型,让游戏内容不再局限于传统的热门游戏模式,使得游戏市场走向更加多样化的发展生态,满足不同用户群体对于游戏的独特需求 。

(二)不足

  1. 通用性有待提高
    • 目前GameNGen现阶段仅针对特定游戏(如《毁灭战士》)进行了优化,在处理其他游戏类型时通用性不足。对于图形密集程度更高的现代3A大作,可能需要更强大的计算能力支持,并且由于通用性问题可能无法直接应用现有的GameNGen技术。这意味着想要将其推广到整个游戏行业,还需要对其进行改进和优化,使其能够适应更多类型的游戏开发需求,而不是局限于特定的、相对简单的游戏类型 。
  2. 存在技术局限性
    • 存在模拟方面的技术局限。例如它的模型只能访问短短三秒钟的游戏历史,这就造成当玩家重新访问先前经历的游戏关卡时,系统只能通过概率性猜测进行模拟,无法基于真实的游戏状态进行准确再现,导致游戏体验可能会受到影响。而且在处理较复杂的游戏环境时,偶尔会出现图像故障,这是因为StableDiffusion模型存在局限性,以及AI在生成连续帧时容易出现累积误差所导致的 。

六、GameNGen与其他类似产品的比较

(一)与传统游戏引擎的比较

  1. 开发模式的区别
    • 传统游戏引擎依赖人工编写代码,开发人员需要投入大量精力进行游戏状态管理、渲染视觉效果、编写游戏逻辑等工作。例如Unity和Unreal Engine等传统游戏引擎,开发人员需要一步步构建模型、编写脚本、设置参数等。而GameNGen完全由AI驱动,不需要手动编写这些代码,利用神经网络和扩散模型就能自动生成游戏画面,大大减少了人力成本和开发时间 。
  2. 画面生成机制不同
    • 传统游戏引擎的画面生成基于固定的规则和预设的算法,在特定场景下计算并渲染出画面。而GameNGen是通过分析之前的游戏状态(历史帧)和玩家动作,利用扩散模型预测生成下一帧画面。例如在传统游戏中,一个动作场景的画面切换是按照预先设定好的动画效果进行,而GameNGen则是根据AI的学习和推测来生成画面,更加灵活和富有动态性,但也面临着AI学习准确性等挑战 。

(二)与其他AI相关产品(如Sora)的比较

  1. 交互性差异
    • Sora相比,它只能设定初始条件(一个文本或初始帧),然后只能被动观看模拟过程,不算是一个“数据驱动的物理引擎”,无法像GameNGen一样将过去的帧(状态)和用户的一个动作(键盘/鼠标)作为输入,并输出下一帧。GameNGen是真正的神经世界模型,可以实现实时互动,这使得在游戏体验方面GameNGen更胜一筹,能够提供更加真实、可玩的游戏体验,而Sora更多的是一种展示性的模拟过程,缺乏互动性对体验的提升 。
  2. 应用侧重不同
    • Sora等产品可能更多的是在图像、视频生成或者创作领域发挥作用,而GameNGen专注于游戏领域,以游戏开发和游戏体验为核心应用场景,虽然GameNGen也可能在未来对游戏相关的视频创作等产生影响,但目前其应用重点是游戏的实时生成与互动,与Sora等产品目前的主要应用市场和方向有明显区别。