現代のAIアップスケーリングが実際にどのように機能するか
AIアップスケーリングは、低解像度のバージョンと高解像度のバージョンがペアになった数百万の画像ペアで訓練されたニューラルネットワークを使用します。ネットワークはパターンを学習します:ぼやけたエッジが鮮明なときにどのように見えるべきか、高解像度で通常どのようにテクスチャの詳細が現れるか、ノイズと実際の詳細はどのように見えるか。 画像をアップスケーラーに入力すると、単にピクセルを引き伸ばすわけではありません。画像をセクションに分割して分析し、トレーニングから認識したパターンを特定し、そこにあるべきだと予測される新しいピクセルを生成します。顔に訓練された良いアップスケーラーは、驚くべき精度で顔の特徴を再構築します。同じアップスケーラーは、これらのパターンで訓練されていなかったため、機械部品や生地のテクスチャには苦労するかもしれません。 アーキテクチャは非常に重要です。ESRGAN(Enhanced Super-Resolution Generative Adversarial Network)は、アップスケールされた画像を生成する生成ネットワークと、実際の高解像度画像とアップスケールされた画像を区別しようとする判別ネットワークを使用します。この対立的な訓練は、生成器がますますリアルな結果を作成するように促します。私が作業の約60%に使用するReal-ESRGANは、合成劣化に関する追加のトレーニングを加え、実際の画像に存在する圧縮アーティファクト、ぼやけ、ノイズを処理できるように学習します。 StableSRのような拡散ベースのアップスケーラーは、異なる方法で機能します。ノイズで始まり、それを低解像度の入力によって導かれながら、高解像度の画像に段階的に洗練します。このアプローチは信じられないほど詳細な結果を生成できますが、プロセスが遅く、元の画像に存在しなかった詳細を時折幻覚することがあります—テクスチャの正確な芸術的意図を維持する必要がある場合には問題です。 処理は複数の段階で行われます。最初に、画像を分析し、メモリ使用量を管理するために重なり合っているタイルに分割されることがよくあります。各タイルは、通常は20〜40層の畳み込み、注目メカニズム、残差接続を持つニューラルネットワークを通じて処理されます。次に、タイルは重なりの領域を注意深く処理して、目立つ接合部を避けるように、再び一緒にブレンドされます。最後に、後処理でエッジをシャープ化したり、色のバランスを調整したり、ノイズを削減したりすることがあります。 2026年の違いは、専門的なモデルの出現です。アニメアート、写真ポートレート、建築レンダリング、ピクセルアート専用に訓練されたアップスケーラーがあります。適切な専門モデルを使用すると、汎用モデルに比べて0.1〜0.15のSSIMポイントの品質スコアを向上させることができます—これは、大規模な作業を行う際に重要な違いです。400のテクスチャをアップスケールし、真に重要なことを学んだ夜
その木曜日の午後11時、スタジオのリーダーからメッセージが届きました。彼らはパブリッシャーからフィードバックを受けたばかりでした:すべての環境テクスチャは、コンソール版のために最低でも2Kでなければならないと。彼らは1024×1024のテクスチャを400個持っていて、認証は3週間後です。再作成することは選択肢ではありませんでした—元のアーティストは別のスタジオに移り、ソースファイルは失われたPSDやフラットエクスポートの混乱でした。 私は、いつもの選択肢であるReal-ESRGANから始めました。最初の50のテクスチャはプレビューウィンドウで素晴らしく見えました。残りをキューに入れて、コーヒーを作りに行きました。戻ってきたとき、結果をスポットチェックし、スタジオに送信しました。彼らはそれらをビルドに統合し、私にサムズアップを送りました。 2日後、違うメッセージを受け取りました。ゲーム内のテクスチャが不正確に見えました。明らかに悪くはなく—わずかに異なるだけでした。石の壁には奇妙な滑らかさがありました。木目はほぼプラスチックのように見えました。金属パネルは微妙な表面の変化を失っていました。 私はゲームビルドを引き出し、オリジナルと横に並べて比較しました。アップスケーラーは、訓練された通りのことをしただけでした:ノイズを減少させ、エッジを強化していました。しかし、私がそれらのテクスチャでノイズだと思っていたのは、実際には意図的な表面の詳細だったのです—石を石らしく見せ、Photoshopで滑らかにされた石の写真のようには見えない小さな不規則性でした。 私は次の12時間をすべて再処理に費やしました。今度は、石のテクスチャにSwin2SRを使用しました—高周波の詳細をよりよく保持します。木材には、私が木材の写真で微調整したモデルに切り替えました。金属はReal-ESRGANで処理されましたが、デノイズパラメータをデフォルトの0ではなく-1に設定し、これにより元のテクスチャの変化をより多く保持するように指示しました。 2番目のバッチは正しく見えました。しかし、重要なことを学びました:すべてを同じモデルで処理し、良い結果を期待してはいけないということです。各テクスチャタイプには異なる特性があり、アップスケーラーはそれらの特性に一致する必要があります。ポートレートを素晴らしく見せるモデルは、コンクリートのテクスチャの質感を壊してしまいます。 その夜、アップスケーリングの前にテクスチャをカテゴリ化することを学びました。私は現在、すべてを有機材料、硬い表面、生地、金属、塗装された表面などのグループに分類し、各グループに異なるモデルやパラメータを使用します。時間はかかりますが、結果は常に良くなります。そして、私は常に、画像ビューアだけでなく、実際のゲームエンジンで出力を確認します。コンテキストは重要です。8つの主要アップスケーリングモデルのパフォーマンスデータ
私は150のゲームテクスチャの標準化されたセットで8つのアップスケーリングモデルをテストし、処理時間、品質指標、主観的な視覚評価を測定しました。すべてのテストは同じハードウェアで実行されました:RTX 4080、32GBのRAM、1024×1024の画像を2048×2048に処理しました。| モデル | 平均時間 (s) | SSIMスコア | PSNR (dB) | 最高の使用ケース | 主要な弱点 |
|---|---|---|---|---|---|
| Real-ESRGAN | 2.3 | 0.89 | 28.4 | 汎用、有機テクスチャ | 繊細な詳細が過度に滑らかになる可能性 |
| Swin2SR | 4.1 | 0.92 | 29.8 | 高詳細保持、テクニカルアート | 処理が遅く、メモリ使用量が多い |
| BSRGAN | 1.8 | 0.85 | 27.1 | 迅速なバッチ処理、背景 | 複雑なテクスチャの品質が低下する |
| StableSR | 12.7 | 0.94 | 31.2 | ヒーローアセット、マーケティング資料 | 非常に遅く、詳細を幻覚する可能性 |
| HAT | 5.6 | 0.91 | 29.3 | 質/速度のバランス、生産作業 | より多くのVRAMを必要とする |
| RealCUGAN | 3.2 | 0.88 | 28.9 | アニメ/スタイライズされたアート、UI要素 | フォトリアルなコンテンツに弱い |
| LDSR | 18.4 | 0.93 | 30.7 | 極端な詳細回復、アーカイブ | 非常に遅く、一貫しない結果 |
| Waifu2x | 1.2 | 0.82 | 26.3 | 迅速なプレビュー、2Dゲームスプライト | 古く、品質が低い |
品質指標が実際に示すことと示さないこと
SSIMとPSNRは役に立ちますが、全体のストーリーではありません。私は、SSIMスコアが0.94のアップスケール画像が、スコアが0.87の画像よりもゲーム内で悪く見えるのを見てきました。これらの指標は、参照画像に対する数学的な類似性を測定しますが、アップスケールされたテクスチャが最終的な文脈でその目的を果たすかどうかは測定しません。「SSIMで0.95をスコアするテクスチャが、表面を三次元に感じさせる微妙なノーマルマップの詳細を失った場合、それはSSIMで0.88をスコアするテクスチャよりも悪いです。しかし、後者はその触覚的な品質を保持しています。数字だけでは、ゲームエンジンでテクスチャがどのように機能するかを捉えることはできません。」私は、SFプロジェクトでこれを辛い方法で学びました。クライアントは、すべての金属パネルテクスチャをアップスケールしたいと望んでいました。私はそれらをStableSRに通し、0.93以上の美しいSSIMスコアを得て、ファイルを納品しました。テクスチャはPhotoshopで素晴らしく見えました。しかし、エンジンで照明が当たったとき、彼らは平坦に見えました。アップスケーラーは、エンジンのPBR(物理ベースレンダリング)システムが光の反射を計算するために使用していた明るさの微小変動をスムーズにしてしまいました。 私は、他のモデルでテクスチャをすべて再処理し、ラフネスマップを手動で調整して補償する必要がありました。2番目のバッチはより低いSSIMスコア—約0.89—を持っていましたが、ゲーム内で正しく見えました。指標は、テクスチャが照明システムとどのように相互作用するかという重要な要素を捉えることができませんでした。 これが、私は常にターゲットeでアップスケールされたテクスチャをテストする理由です。