YouTube 频道 Compusemble 对英伟达的 RTX 神经纹理压缩(NTC)技术进行了基准测试,展示了该技术在实际 3D 工作负载中的表现,测试结果显示,与传统纹理压缩技术相比,RTX NTC 技术能够将纹理内存大小减少 96%,Compusemble 在 RTX 4090 显卡上分别以 1440p 和 4K 分辨率对 NTC 技术进行了测试,测试分为两种模式:“NTC 转码为 BCn”和“样本推理”,“NTC 转码为 BCn”模式在加载时将纹理转码为 BCn 格式,“样本推理”模式仅对渲染特定视图所需的单个 texel 进行解压缩,进一步减少纹理内存大小。
在 1440p 分辨率下,启用 DLSS 超分功能时,“NTC 转码为 BCn”模式将测试应用的纹理内存占用从 272MB 降低至 98MB,减少了 64%,“样本推理”模式则将纹理大小降至 11.37MB,与非神经压缩技术相比,内存占用减少了 95.8%,与之前的神经压缩模式相比减少了 88%。
启用 RTX 神经纹理压缩技术后,性能会受到一定影响,由于测试使用的是 RTX 4090 显卡,而非最新型号,新一代架构可能会减少性能损失。
在“NTC 转码为 BCn”模式下,平均 FPS 与未启用 NTC 时几乎相同,“样本推理”模式的性能下降较为明显,FPS 从 1600 多帧降至 1500 多帧,1% 的低值降至 840 帧左右。
使用 TAA 抗锯齿而非 DLSS 超分时,内存容量的减少情况与 DLSS 相同,但 GPU 性能表现不同,三种模式的运行速度都明显快于 DLSS,FPS 接近 2000 帧,在“样本推理”模式下,1% 的低值达到 1300 多帧,比 840 帧有显著提升。
将分辨率提升至 4K 后,性能显著下降,启用 DLSS 超分功能时,“NTC 转码为 BCn”模式的平均 FPS 在 1100 帧左右,“样本推理”模式的平均 FPS 略低于 1000 帧,两种模式的 1% 低值都在 500 帧左右。
关闭 DLSS,改用原生分辨率搭配 TAA 抗锯齿时,“NTC 转码为 BCn”模式的平均 FPS 提升至 1700 帧左右,“样本推理”模式的平均 FPS 在 1500 帧左右,前者的 1% 低值略低于 1100 帧,后者的 1% 低值略低于 800 帧。
Compusemble 还在 4K 分辨率下测试了“样本推理”模式的协同向量功能,启用协同向量时,平均帧率在 1500 帧左右;关闭协同向量时,平均 FPS 下降至略低于 650 帧,1% 的低值在启用协同向量时略低于 750 帧,关闭时略高于 400 帧。
Compusemble 的基准测试表明,英伟达的神经压缩技术能够大幅减少 3D 应用纹理内存占用,但会牺牲一定性能,尤其在“样本推理”模式下。
RTX 神经纹理压缩技术已开发多年,这项技术利用现代英伟达 GPU 中的张量核心压缩 3D 应用和游戏纹理,取代传统的块截断编码,RTX NTC 是自 1990 年代以来纹理压缩技术的首次重大升级,支持比当前 GPU 运行的纹理分辨率高出四倍的纹理。
目前RTX NTC 技术仍处于测试阶段,尚未确定发布日期,其最低硬件要求并不高,英伟达在 GitHub 上的 RTX NTC 页面确认,最低 GPU 要求是 RTX 20 系列显卡,该技术已在 GTX 10 系列显卡、AMD Radeon RX 6000 系列显卡以及 Arc A 系列显卡上得到验证,未来有望在非 RTX 显卡甚至游戏主机上得到应用。