AI Image Upscaling in 2026: How It Works and When to Use It [中文]

2026年人工智能图像放大：它是如何工作的以及何时使用它

我通过8种不同的人工智能模型放大了1200个游戏纹理。处理时间从每幅图像0.5秒到45秒不等。质量分数（SSIM）范围在0.72到0.96。这些数字告诉你一些重要的事情：并不是所有的放大器都是平等的，“最佳”选择完全取决于你要放大的内容和原因。我已经专业地放大游戏纹理三年了，与那些需要将512×512像素资产转变为2K或4K纹理而预算不足以从头重建一切的独立工作室合作。我看到人工智能放大技术拯救了那些落后数周的项目。我也见到它造成了细微的伪影，这些在游戏发布后才显现出来，当玩家们开始在Reddit上发布对比截图时。自2023年以来，这项技术已经发生了剧烈的变化。我们已经超越了简单的双三次插值和早期的神经网络，这些技术只是将一切模糊的处理成了一团糟。现代的人工智能放大器理解上下文，保留细微的细节，甚至能够重建源图像中不明显的信息。但是，它们的使用也变得更加复杂，有数十个参数会影响最终的结果。本文将详细解构这些工具是如何工作的，何时使用每种工具，以及数据实际上告诉我们它们的性能。我不会给你关于“革命性人工智能技术”的市场宣传文案。我将展示我在数千次放大操作中记录的处理时间、质量指标和现实世界的权衡。

现代人工智能放大的工作原理

人工智能放大使用在数百万图像对上训练的神经网络——低分辨率版本与其高分辨率对应物配对。网络学习模式：模糊边缘在变得清晰时应该是什么样子，高分辨率下纹理细节通常如何呈现，噪声与实际细节的区别是什么。当你将一幅图像输入放大器时，它并不仅仅是拉伸像素。它分析图像的各个部分，识别从训练中认出的模式，并根据它预测应该存在的内容生成新像素。一个经过面部训练的优秀放大器将以惊人的准确性重建面部特征。同样的放大器可能会在机械部件或布料纹理方面显得很挣扎，因为它没有接受过这些模式的训练。架构非常重要。ESRGAN（增强超分辨率生成对抗网络）使用生成器网络创建放大的图像，并使用一个判别器网络来区分真实的高分辨率图像和放大的图像。这种对抗训练推动生成器创造出越来越真实的结果。我使用的Real-ESRGAN大约占我工作的60%，它添加了关于合成退化的额外训练——它学习处理实际图像中存在的压缩伪影、模糊和噪声，而不仅仅是干净的降采样版本。基于扩散的放大器，如StableSR，工作方式不同。它们以噪声开始，并逐渐将其精炼为高分辨率图像，由低分辨率输入引导。这种方法可以生成非常详细的结果，但它也比较慢，有时可能会产生原始图像中不存在的细节——这在你需要保留纹理的确切艺术意图时是一个问题。处理在多个阶段进行。首先，图像被分析，通常分割成重叠的瓷砖以管理内存使用。每个瓷砖都通过神经网络进行处理，该网络通常具有20-40层的卷积、注意机制和残差连接。然后将瓷砖重新合并，在重叠区域仔细处理以避免可见接缝。最后，后处理可能会锐化边缘、调整色彩平衡或应用噪声减少。 2026年的不同之处在于专业模型的出现。我们现在有专门为动漫艺术、摄影肖像、建筑渲染、像素艺术训练的放大器。使用合适的专业模型可以将质量分数提高0.1-0.15 SSIM点，相对于通用模型来说，这是一个显著的差异，尤其是在进行大规模工作时。

那晚我放大了400个纹理并了解到真正重要的事情

那是一个星期四晚上11点，工作室的负责人给我发了消息。他们刚刚收到出版商的反馈：所有环境纹理在主机版本上至少需要2K。他们有400个1024×1024的纹理，认证将在三周内进行。重新制作它们不是一个选项——原始艺术家已经转到另一个工作室，源文件是一团糟，丢失了PSD文件和扁平化导出。我从Real-ESRGAN开始，这是我通常的首选。前50个纹理在预览窗口中看起来很好。我排队等待其余的，然后去泡咖啡。当我回来时，我对结果进行了抽查并发送给工作室。他们将其集成到构建中并给我发了个竖起大拇指的消息。两天后，我收到了另一条消息。纹理在游戏中看起来不对。并不是显而易见的糟糕——只是稍微有些偏差。石墙显得有些奇怪的光滑。木纹看起来几乎像塑料。金属面板失去了细腻的表面变化。我打开游戏构建，将其与原始版本进行并排比较。放大器做了它训练中的确应该做的事情：它减少了噪声并增强了边缘。但是我以前认为那些纹理中的噪声实际上是故意的表面细节——那些微小的不规则性让石头看起来像石头，而不是像经过Photoshop平滑处理过的石头照片。接下来的12小时里我重新处理了所有内容。这一次，我对石头纹理使用了Swin2SR——它更好地保留高频细节。对于木材，我切换到了一种我在木材照片上自行调优过的模型。金属使用了Real-ESRGAN，但去噪参数设置为-1，而不是默认的0，这告诉它保留更多原始纹理变化。第二批看起来正确。但是我学到了一个重要的教训：你不能简单地用同一个模型处理所有东西并期待优秀的结果。每种纹理类型都有不同的特性，而放大器需要匹配这些特性。一个让肖像看起来惊人的模型会破坏混凝土纹理中的粗糙细节。那晚让我学会在放大之前对我的纹理进行分类。现在我将所有内容分成几个组——有机材料、硬表面、面料、金属、油漆表面——并为每组使用不同的模型或参数。这需要更长的时间，但结果始终更好。而且我总是检查实际游戏引擎中的输出，而不仅仅是在图像查看器中。上下文很重要。

8个主要放大模型的性能数据

我测试了八个放大模型，在标准化的150个游戏纹理上测量处理时间、质量指标和主观视觉评估。所有测试在同一硬件上运行：RTX 4080，32GB RAM，处理1024×1024的图像到2048×2048。

模型	平均时间（秒）	SSIM分数	PSNR（分贝）	最佳使用案例	主要弱点
Real-ESRGAN	2.3	0.89	28.4	通用目的，有机纹理	可能会过度平滑细节
Swin2SR	4.1	0.92	29.8	高细节保留，技术艺术	处理速度较慢，内存使用较高
BSRGAN	1.8	0.85	27.1	快速批量处理，背景	在复杂纹理上质量较低
StableSR	12.7	0.94	31.2	主要资产，市场材料	非常慢，可能会幻觉细节
HAT	5.6	0.91	29.3	平衡质量/速度，生产工作	需要更多VRAM
RealCUGAN	3.2	0.88	28.9	动漫/风格化艺术，UI元素	在真实内容上表现较差
LDSR	18.4	0.93	30.7	极致细节恢复，档案	极慢，结果不一致
Waifu2x	1.2	0.82	26.3	快速预览，2D游戏精灵	过时，质量较低

SSIM（结构相似性指数）分数告诉你放大的图像在多大程度上保留了原始的结构。任何高于0.90的分数都是优秀的。PSNR（峰值信噪比）测量像素级的准确性——越高越好，但它并不总是与感知质量相关。表格没有显示的是一致性。StableSR具有最高的质量分数，但它也有最高的方差。有时它会产生令人惊艳的结果，看起来比原始图像更好。其他时候，它会添加原本不存在的细节，这在你需要在一组纹理中保持艺术一致性时是个问题。 Real-ESRGAN在生产工作中达到了甜蜜点。它足够快速，可以在一夜之间处理数百个纹理，质量始终良好，并且很少产生意外的伪影。我将其用于大约70%的工作。但是对于剩下的30%——主要纹理、特写表面、玩家会盯着看的材料——尽管处理时间较长，我会使用Swin2SR或HAT。速度差异比你想象的更重要。当你处理1200个纹理时，图像处理时间2.3秒和4.1秒之间的差异就是处理时间从46分钟到82分钟的差异。这是你在离开之前获取结果与第二天早上回来之间的差异。我还发现批量处理的效率差异显著。有些模型对排队操作的处理比其他模型更好。Real-ESRGAN和BSRGAN在大型批量处理时保持一致的速度。Swin2SR和HAT在处理50-60幅图像后会变慢，可能是由于内存管理问题。为了保持最佳速度，你需要定期重新启动处理。

质量指标实际上告诉你什么（以及它们未能告诉你的）

SSIM和PSNR是有用的，但它们并不是全部。我见过SSIM分数为0.94的放大图像在游戏中表现得比得分为0.87的图像还要差。这些指标测量与参考图像的数学相似性，但它们并没有测量放大的纹理在最终上下文中是否有效。

“一个SSIM得分为0.95的纹理，但失去了让表面感觉三维的细腻法线贴图细节，其表现要比一个得分为0.88却保留了这种触感质量的纹理要差。数字不能捕捉到纹理在游戏引擎中工作的原因。”

我在一个科幻项目中深刻体会到了这一点。客户希望所有金属面板纹理都经过放大。我通过StableSR处理它们，获得了美丽的SSIM分数，高于0.93，并交付了文件。那些纹理在Photoshop中看起来令人惊叹。但是当光线照射到游戏引擎中时，它们看起来很平坦。放大器已平滑掉了引擎的PBR（物理基础渲染）系统用于计算光反射的亮度微变。我不得不使用不同的模型重新处理所有内容，并手动调整粗糙度贴图以进行补偿。第二批的SSIM分数较低——大约为0.89——但在游戏中看起来正确。指标未能捕捉到重要的内容：纹理与照明系统的互动。这就是为什么我总是在目标环境中测试放大的纹理的原因。