首页 百科大全文章正文

第一眼:NVIDIA DLSS 3 -AI升级进入新维度

百科大全 2025年07月02日 16:32 16 乐儿

  两种关键的PC技术开始在2018年底开始出现 - 基于硬件的射线跟踪和基于机器学习的超级采样 。多年来,这些技术构成了Nvidia品牌从GTX变为RTX的基础 ,这些技术一直在完善 。随着新的RTX 4000图形线的到来 ,我们在增强性能技术方面有了新的创新。DLSS 3将AI框架的生成添加到其现有的DLSS 2基于空间上升尺度。在过去的十天中,我们一直在将技术通过其步调,结果给我们留下了深刻的印象 。

  NVIDIA提前向我们提供了GeForce RTX 4090 ,以及不完整的预览构建三个DLSS 3启用标题:路径跟踪的Portal RTX,Marvel的Spider-Man和Cyber​​punk 2077。后者不应与现有的RT DriverDrive版本相混淆,并与现有的RERED添加了更多的共同点 ,并且仅与现有的Rredail shim Gosss添加了3个33个版本。即使运行最大运行,RTX 4090和DLSS 3也使这些游戏可以在4K 120Hz屏幕上完美地运行 。NVIDIA谈论DLSS 3作为下一代体验的推动者,展示了其令人印象深刻的RTX ,Portal RTX和Cyber​​punk超速RT版本的Cyber​​punk,这实际上是对游戏的路径追踪演绎。漫威的蜘蛛侠?NVIDIA显示了一个促销视频,RTX 4090以200fps的速度运行该游戏。不幸的是 ,我们无法在此内容中显示我们自己的帧速率数字 - 仅是性能乘数 。

  在螺母和螺栓级别上,DLSS 3实际上是NVIDIA花费数年的三种不同技术的套件。它从现有的,非常成功的DLSS 2开始 - 目前 ,我们的基于图像重建的放大尺度的首选(尽管Intel Xess和AMD FSR 2.X越来越近)。DLSS框架生成加入了这一点 。本质上 ,GPU呈现两个帧,然后在两者之间插入一个新框架,这两种框架是通过游戏数据的混合物(例如运动向量以及光流分析)生成的 ,由新的Ada Lovelace Architecture中的修订后的固定功能块提供 - NVIDIA在NVIDIA中提供的固定功能块 - NVIDIA表示,这比最后一代的Ampere快三倍。

  由数字铸造厂的Richard Leadbetter和Alex Battaglia提出的NVIDIA DLSS 3的视频内容半小时。

  由于现在正在缓冲框架,因此在管道中添加了额外的延迟 ,NVIDIA试图通过减少滞后技术来减轻这种延迟,Reflex 。充其量,Reflex会消除由于额外的缓冲而造成的额外滞后 ,甚至可能会敲出更多毫秒 。最糟糕的是,游戏可能会增加一些额外的延迟 - 我们稍后将分享一些初始发现。没有什么可以阻止您根本不使用框架的生成,如果您喜欢的话 ,简单地将滞后缩减反射提供。由于ADA Lovelace中光流分析仪的速度,先前的Turing和Ampere卡无法运行DLSS框架的生成 。对于RTX 2000和RTX 3000系列卡的所有者,这意味着DLSS 3支持的标题仍然提供DLSS 2的升级和反射延迟益处 ,但框架的生成不在桌面上。

  在查看缓冲如何用于框架生成时 ,我想起了SLI与SLI一起使用的旧AFR(替​​代框架渲染)技术 - 两张图形卡在串联呈现其他框架中使用。这也有类似的延迟增加,但没有缓解反射 。因此,实际上 ,DLSS框架在同一GPU上的生成正在取代SLI时代的第二张图形卡。尽管如此,最重要的是,DLSS 2/FSR 2.x/XESS加速渲染并减少延迟 - 框架的生成没有。在我们拥有的测试游戏中对滞后的影响并不是问题 ,但我认为这项技术不适合超快速的电子竞技游戏,其中每毫秒的滞后都对顶级玩家计数 。

  我们还需要与这样的观念抗衡:生成的框架不像传统上渲染的框架那样“完美”。非常快速的运动 - 尤其是靠近相机 - 可能会导致手工艺品。此外,HUD元素没有运动向量可以跟踪该技术 ,这也存在问题 。但是,在实际游戏玩法中,问题很小。加速度将大多数游戏都达到120fps或超过这一数字 ,这意味着人均持久性非常低。同时,请记住那些产生的框架被“完美 ”传统上渲染的框架夹在一起 。在我们的视频内容中,您会看到120fps捕获半速运行 - 即使在那里 ,视觉不连续性也很难拾取 。只有长时间的眼球才能说出DLSS 3框架的位置不足。

  即便如此 ,GPU以3ms呈现的新技术的结果远远超过了离线框架速率上的最佳速度。为了进行测试,我们使用DLSS 3捕获了Marvel's Spider-Man的相同内容,并使用Adobe After After After Effects的Pixel运动技术和Topaz视频增强了AI的Chronos Slotmo V3模型 。由RTX 3090支持的Ryzen 9 5950x上的人均计算成本分别为750ms和125ms。由于DLSS 3已集成到游戏中 ,并访问了重要的发动机数据,并得到了硅上的特定硬件加速度的支持,因此可以实现卓越的结果。不用说 ,所有这些技术都优于当今电视中使用的“运动平滑 ” - 由于它们仅限于实时框架插值,因此结果不可避免地比此处显示的Adobe和Topaz Shots差,其中DLSS 3已经提供了改进的结果 。

  练习的重点是改善的性能 - 但它在实现新体验方面的应用也是如此。Portal RTX建立在NVIDIA的新RTX混音平台上 ,该平台看起来像是某种疯狂的科幻梦。从本质上讲,混音已集成到较旧的标题中,从而允许对经典PC游戏进行完全路径跟踪的演绎 。在其主题演讲中 ,我们看到了Morrowind如何获得了新的RT外观,但实际上我们已经与Portal RTX进行了动手实践 - 这是一种真正美丽的新方法来看游戏。

  我们将讨论跟踪路径如何与门户网站更接近其发行版集成,但是与此同时 ,在我们的测试中 ,它揭示了最大的性能提高。路径追踪在GPU上异常重,工作量越重,提供的性能隆起越大 - 不仅是DLSS 3帧生成 ,而且通过DLSS 2也可以提高尺度 。下表显示了DLSS 2的3.19倍性能提升,并增加了框架生成,该表现升至5.29倍。在屏幕截图中 ,您会看到我与水和两个门户组合在一起的“最坏情况”。还要注意延迟数:在这种情况下,NVIDIA反射确实使框架生成缓冲引入的额外滞后无效 。感觉与DLSS 2版本相同,而DLSS 2版本又比本机渲染更快 。

  Portal RTX在本机4K处的完整路径甚至为RTX 4090构成问题。DLSS2性能模式提供了巨大的表现颠簸 ,DLSS 3帧放大进一步增加。累积增加是非凡的,将我们带入了4K 120Hz显示屏的域 。

  门户RTX测试室14

  完美的差异

  反射

  反射

  本地4K

  100%

  129ms

  95ms

  DLSS 2性能

  317%

  59ms

  53ms

  DLSS 3框架一代

  529%

  -

  56ms

  漫威的蜘蛛侠提出了一个完全不同的挑战:即使有了核心i9 12900k,当游戏的射线追踪反射得到启用时 ,今天的GPU很容易被CPU瓶颈。查看下面的屏幕截图,您可以看到,使用DLSS 2的帧速率仅增加了15.2%的帧速率。请记住 ,我们正在谈论的是1080p的基本图像AI升至4K ,我们应该看到的性能要高得多 。在这里实际发生的事情是,在本机4K处,我们受到了GPU的约束 ,而DLSS 2则看到我们达到了CPU限制。

  由于DLSS 3框架生成不依赖CPU为其创建的框架准备说明,因此尽管CPU被完全淘汰,但性能提高仍在启动。整个过程完全是处理器的独立性 。要查看这一点 ,请查看Nvidia的促销视频,该视频专注于城市遍历这是游戏中CPU最密集的部分。该拖车的绝大多数动作将在100-120fps左右受到CPU的约束。DLSS 3框架生成有效地使帧速率增加一倍 。

  对于下表,我试图尽可能多地对GPU征税 - 奇怪的是 ,彼得·帕克(Peter Parker)对盛宴总部的访问对图形的影响更大。即使这样,我们仍然达到了CPU的限制,只有36%的效果提高了性能。但是 ,框架的生成继续增加框架速率 。同样值得注意的是,Reflex对DLSS 3的延迟并不多,技术可以通过优化CPU和GPU之间的关系来工作 ,如果CPU达到其性能限制 ,这将很难实现 。即便如此,游戏也是如此之快,以至于延迟数字在整个台上都极低。

  漫威的蜘蛛侠代表了一个完全不同的挑战。当游戏如此限制时 ,DLSS 2并没有多大帮助,我们的测试增加了35%(最坏的情况!) 。在这里,DLSS 3帧一代仍然提供了性能提升 ,因为它根本没有链接到CPU。

  漫威的蜘蛛侠盛宴总部

  完美的差异

  反射

  反射

  本地4K

  100%

  39ms

  36ms

  DLSS 2性能

  136%

  24ms

  23ms

  DLSS 3框架一代

  219%

  -

  38ms

  用于测试的最终标题是CD Projekt Red的Cyber​​punk 2077的预览。在视频中,有两项测试,涵盖了穿越樱花市场的遍历 ,越来越多地穿过夜城,然后进入沙漠 。随着设置以4K分辨率和完整的RT(包括心理照明设置)的加速增加,有更多证据表明 ,基本框架速率越低,性能乘数就越大。

  在这种情况下,帧速率增加了四倍 - 再次将最苛刻的PC视频游戏之一转变为在4K 120Hz显示屏上精美地播放的体验。在嵌入页面顶部的视频中 ,您会看到相当多的4K 120FPS捕获速度降低到50%的速度 ,可以在60fps视频中工作 。您会了解那里的流动性。

  在此预释放预览代码中,具有DLSS 3的NVIDIA反射延迟数字无法与Reflex OFF匹配DLSS 2,我希望这是“非正式”目标。即便如此 ,这里记录的12ms赤字几乎不会对大多数A Triple -A票价的体验有害,包括Cyber​​punk 2077 。毕竟,这不是Twitch射击者或电子竞技竞争性的经验 - 但是话虽如此 ,我们肯定需要了解更多DLSS 3标题的延迟票价如何。

  与Portal RTX相似,最重的GPU工作负载提供了最大的帧速率乘数。Cyber​​punk 2077 AT 4K带有“ Psycho ” RT设置在4K 120Hz显示屏上看起来非常光滑 。

  Cyber​​punk 2077市场

  完美的差异

  反射

  反射

  本地4K

  100%

  108ms

  62ms

  DLSS 2性能

  258%

  42ms

  31ms

  DLSS 3框架一代

  399%

  -

  54ms

  结束测试,我们对RTX 4090的性能如何形成了一些有限的数据 ,与上一代安培建筑的硅冠军:RTX 3090 TI相比 。除了没有透露帧速率数字外,NVIDIA要求的唯一其他限制是将旧卡上DLSS 2的Gen-on-Gen比较限制为新的DLSS 3。理由是,应将纯绩效编号放在审查日禁运中 ,在这里用户可以比较全部PC Press提供的数字的性能。虽然有限的DLSS 2 vs DLSS 3比较可能不是完全理想的,但我想说它确实代表了这些卡的可能用例场景 。

  首先查看Portal RTX,图像是从一个静态场景中看出的 ,我设计了我可以从测试室14召集的最高GPU负载。这具有全视图中的水 ,还有两个门户,彼此面对。Ada Lovelace上的Ampere vs DLSS 3上的DLSS 2实质上可以提高整体性能 。它改变了游戏规则,因为在最基本的层面上 ,在4K 60Hz变量刷新率屏幕上的良好体验在4K 120Hz显示屏上完美地运行。

  我们播放的Cyber​​punk 2077的预览构建也可以说,在该制作中,性能乘数Gen-On-On-Gen可能不如Portal RTX大 ,但是RTX 3090 TI端的基本帧速率较大。再一次,这是旧卡上60Hz VRR体验与RTX 4090的出色体验之间的区别 。

  RTX 3090 TI DLSS 2

  RTX 4090 DLSS 3

  门户RTX应力测试

  100%

  291%

  Cyber​​punk 2077市场

  100%

  247%

  让我们通过降低黄铜钉,解决明显的问题来总结一下。首先:来自AI生成的帧的图像质量是否会升高?这取决于动作速度以及DLSS 3算法跟踪运动的能力。移动速度越快 ,生成的帧越精确 - 上方的变焦块中的蜘蛛侠运行图像是一个特别具有挑战性的例子 。切换到每个图像的全屏视图,然后在框架一,两个和三个框架之间移动。第二个AI生成的框架中的不连续性很容易看到 - 但是 ,每帧仅持续8.3毫秒,它们是否易于看到?答案是...不是真的。还要注意不同的蜘蛛侠的胳膊和腿从框架到框架的方式:这表明在这三个图像上运动的速度在24.9ms的比赛时间内 。

  现在,查看在变焦块中左侧的第三人称蜘蛛侠图像比较 。同样 ,切换到完整的图像模式并在三帧之间循环 ,如总共24.9ms捕获。这代表了游戏中的正常运动。在这种情况下,DLSS 3生成的框架接近完美,只有黄色HUD元素有问题 。在120Hz屏幕上播放 ,这显示出一种闪烁的感觉。

  下一个明显的问题:为什么DLSS 3框架生成RTX 2000和3000张卡上不可用?NVIDIA说,Ada Lovelace中的光流分析仪比Ampere等效的三倍,这将对DLSS 3的3MS生成成本产生深远的影响。在单独的音符上 ,分析仪是一个固定功能块,它将在任何RTX 4000卡上快速运行 。我可以想象的唯一旧卡是较旧卡的质量较低版本。我和Alex Battaglia在图像质量比较中与Adobe的Pixel Motion进行了比较,Topaz视频增强了AI的Chronos Slowmo模型 ,这是,以每架8.3毫秒的速度以120fps的速度播放,即使外观不佳的AI框架也可以实时播放。

  简要介绍一下框架 。假设您是GPU限制的 ,放大的帧速率与DLSS 2一样一致地运行。试图克服口吃低端CPU的局限性?不建议。

  接下来,让我们解决框架生成如何克服CPU限制 。在Marvel的蜘蛛侠中,我们对Core i9 12900k的测试使性能翻了一番 ,而且游戏仍然让Somooth玩得上可以玩 - 尽管CPU完全阻止了基础框架率。但是 ,框架生成也可以称为帧放大。如果CPU不提供良好的帧时间,也可以放大口吃 。出于我自己的好奇心,我尝试在低调的Ryzen 3 3100上玩Marvel的Spider-Man ,这是一个CPU,它没有机会提供一致的帧时间 。框架速率随着框架的产生而大大增加,但口吃也被放大了。在克服CPU有限的游戏中 ,DLSS 3有很棒的应用程序(例如Microsoft Flight Simulator),但仍然需要CPU的良好一致的框架时间。

  进行这项测试,计划是在不破坏整个完整审查的情况下覆盖DLSS 3 。但是 ,这项工作最终比我们想象的要全面。问题是,我们尚未刮擦DLSS 3提供的内容以及应如何测试。

  就未知数而言,我们仍在寻找测试 ,还有一个问题是,DLSS 2之后的基本框架率有多低 。例如,在AI生成的帧中的视觉不连续性很难看到何时在每秒放大120帧的速度时 ,但是100fps是什么?90fps?80fps?在极端层面 ,DLSS 3可以实际上可以使30fps游戏看起来像60fps吗?图像插值中是否存在固有的弱点?这是我们以前从未从GPU见过的开创性东西。

  长期的含义很有趣,这是Cyber​​punk 2077的RT Overdrive升级,我们看到了可能非常令人兴奋的东西。这是一个变化的游戏 ,游戏中的所有照明都通过射线追踪实现 。实际上,这是市场上最苛刻的PC游戏之一的路径迹象。游戏机永远无法做到这一点 - 这超出了他们的能力。通过提供两个不同的渲染器,我们看到了多平台开发的保存 ,同时提供了完全转化的下一代PC体验 。这是一个诱人的想法,我们将在未来的内容中返回DLSS 3和Cyber​​punk 2077。

发表评论

头条138号 备案号:陕ICP备202505058号-1 sitemap 主题作者QQ:999999