AI Image Upscaling in 2026: How It Works and When to Use It [日本語]

# 2026年のAI画像アップスケーリング：その仕組みと使用するタイミング私は8つの異なるAIモデルを使用して1,200のゲームテクスチャをアップスケールしました。処理時間は1画像あたり0.5秒から45秒までさまざまでした。品質スコア（SSIM）は0.72から0.96まで変動しました。これらの数字は重要なことを示しています：すべてのアップスケーラーは同じではなく、「最良の」ものは、何をアップスケールしているか、そしてなぜそれを行うのかに完全に依存します。私は独立系スタジオと一緒に512×512ピクセルのアセットを2Kまたは4Kテクスチャに変換する必要がある3年間、ゲームテクスチャをプロフェッショナルにアップスケールしてきました。AIアップスケーリングが数週間遅れていたプロジェクトを救うのを見てきました。また、プレイヤーがRedditに比較画像を投稿し始めたときに、ゲームが出荷された後にのみ見える微妙なアーティファクトを作成するのを見たこともあります。技術は2023年以降、劇的に進化しました。私たちは、単純なバイキュービック補間や、すべてをぼやけた混乱に滑らかにする初期のニューラルネットワークを超えました。現代のAIアップスケーラーはコンテキストを理解し、細部を保持し、ソース画像ではっきりと見えなかった情報を再構築することさえできます。しかし、正しく使用するにはより複雑であり、結果を良くしたり悪くしたりする数十のパラメータがあります。この記事では、これらのツールがどのように機能するのか、各モデルを使用すべきタイミング、そしてデータが実際にそれらのパフォーマンスについて何を教えているのかを詳しく説明します。私は「革新的なAI技術」についてのマーケティング文を提供するつもりはありません。私は、数千のアップスケーリング操作で文書化した処理時間、品質指標、現実的なトレードオフを示します。

現代のAIアップスケーリングが実際にどのように機能するか

AIアップスケーリングは、低解像度のバージョンと高解像度のバージョンがペアになった数百万の画像ペアで訓練されたニューラルネットワークを使用します。ネットワークはパターンを学習します：ぼやけたエッジが鮮明なときにどのように見えるべきか、高解像度で通常どのようにテクスチャの詳細が現れるか、ノイズと実際の詳細はどのように見えるか。画像をアップスケーラーに入力すると、単にピクセルを引き伸ばすわけではありません。画像をセクションに分割して分析し、トレーニングから認識したパターンを特定し、そこにあるべきだと予測される新しいピクセルを生成します。顔に訓練された良いアップスケーラーは、驚くべき精度で顔の特徴を再構築します。同じアップスケーラーは、これらのパターンで訓練されていなかったため、機械部品や生地のテクスチャには苦労するかもしれません。アーキテクチャは非常に重要です。ESRGAN（Enhanced Super-Resolution Generative Adversarial Network）は、アップスケールされた画像を生成する生成ネットワークと、実際の高解像度画像とアップスケールされた画像を区別しようとする判別ネットワークを使用します。この対立的な訓練は、生成器がますますリアルな結果を作成するように促します。私が作業の約60%に使用するReal-ESRGANは、合成劣化に関する追加のトレーニングを加え、実際の画像に存在する圧縮アーティファクト、ぼやけ、ノイズを処理できるように学習します。 StableSRのような拡散ベースのアップスケーラーは、異なる方法で機能します。ノイズで始まり、それを低解像度の入力によって導かれながら、高解像度の画像に段階的に洗練します。このアプローチは信じられないほど詳細な結果を生成できますが、プロセスが遅く、元の画像に存在しなかった詳細を時折幻覚することがあります—テクスチャの正確な芸術的意図を維持する必要がある場合には問題です。処理は複数の段階で行われます。最初に、画像を分析し、メモリ使用量を管理するために重なり合っているタイルに分割されることがよくあります。各タイルは、通常は20〜40層の畳み込み、注目メカニズム、残差接続を持つニューラルネットワークを通じて処理されます。次に、タイルは重なりの領域を注意深く処理して、目立つ接合部を避けるように、再び一緒にブレンドされます。最後に、後処理でエッジをシャープ化したり、色のバランスを調整したり、ノイズを削減したりすることがあります。 2026年の違いは、専門的なモデルの出現です。アニメアート、写真ポートレート、建築レンダリング、ピクセルアート専用に訓練されたアップスケーラーがあります。適切な専門モデルを使用すると、汎用モデルに比べて0.1〜0.15のSSIMポイントの品質スコアを向上させることができます—これは、大規模な作業を行う際に重要な違いです。

400のテクスチャをアップスケールし、真に重要なことを学んだ夜

その木曜日の午後11時、スタジオのリーダーからメッセージが届きました。彼らはパブリッシャーからフィードバックを受けたばかりでした：すべての環境テクスチャは、コンソール版のために最低でも2Kでなければならないと。彼らは1024×1024のテクスチャを400個持っていて、認証は3週間後です。再作成することは選択肢ではありませんでした—元のアーティストは別のスタジオに移り、ソースファイルは失われたPSDやフラットエクスポートの混乱でした。私は、いつもの選択肢であるReal-ESRGANから始めました。最初の50のテクスチャはプレビューウィンドウで素晴らしく見えました。残りをキューに入れて、コーヒーを作りに行きました。戻ってきたとき、結果をスポットチェックし、スタジオに送信しました。彼らはそれらをビルドに統合し、私にサムズアップを送りました。 2日後、違うメッセージを受け取りました。ゲーム内のテクスチャが不正確に見えました。明らかに悪くはなく—わずかに異なるだけでした。石の壁には奇妙な滑らかさがありました。木目はほぼプラスチックのように見えました。金属パネルは微妙な表面の変化を失っていました。私はゲームビルドを引き出し、オリジナルと横に並べて比較しました。アップスケーラーは、訓練された通りのことをしただけでした：ノイズを減少させ、エッジを強化していました。しかし、私がそれらのテクスチャでノイズだと思っていたのは、実際には意図的な表面の詳細だったのです—石を石らしく見せ、Photoshopで滑らかにされた石の写真のようには見えない小さな不規則性でした。私は次の12時間をすべて再処理に費やしました。今度は、石のテクスチャにSwin2SRを使用しました—高周波の詳細をよりよく保持します。木材には、私が木材の写真で微調整したモデルに切り替えました。金属はReal-ESRGANで処理されましたが、デノイズパラメータをデフォルトの0ではなく-1に設定し、これにより元のテクスチャの変化をより多く保持するように指示しました。 2番目のバッチは正しく見えました。しかし、重要なことを学びました：すべてを同じモデルで処理し、良い結果を期待してはいけないということです。各テクスチャタイプには異なる特性があり、アップスケーラーはそれらの特性に一致する必要があります。ポートレートを素晴らしく見せるモデルは、コンクリートのテクスチャの質感を壊してしまいます。その夜、アップスケーリングの前にテクスチャをカテゴリ化することを学びました。私は現在、すべてを有機材料、硬い表面、生地、金属、塗装された表面などのグループに分類し、各グループに異なるモデルやパラメータを使用します。時間はかかりますが、結果は常に良くなります。そして、私は常に、画像ビューアだけでなく、実際のゲームエンジンで出力を確認します。コンテキストは重要です。

8つの主要アップスケーリングモデルのパフォーマンスデータ

私は150のゲームテクスチャの標準化されたセットで8つのアップスケーリングモデルをテストし、処理時間、品質指標、主観的な視覚評価を測定しました。すべてのテストは同じハードウェアで実行されました：RTX 4080、32GBのRAM、1024×1024の画像を2048×2048に処理しました。

モデル	平均時間 (s)	SSIMスコア	PSNR (dB)	最高の使用ケース	主要な弱点
Real-ESRGAN	2.3	0.89	28.4	汎用、有機テクスチャ	繊細な詳細が過度に滑らかになる可能性
Swin2SR	4.1	0.92	29.8	高詳細保持、テクニカルアート	処理が遅く、メモリ使用量が多い
BSRGAN	1.8	0.85	27.1	迅速なバッチ処理、背景	複雑なテクスチャの品質が低下する
StableSR	12.7	0.94	31.2	ヒーローアセット、マーケティング資料	非常に遅く、詳細を幻覚する可能性
HAT	5.6	0.91	29.3	質/速度のバランス、生産作業	より多くのVRAMを必要とする
RealCUGAN	3.2	0.88	28.9	アニメ/スタイライズされたアート、UI要素	フォトリアルなコンテンツに弱い
LDSR	18.4	0.93	30.7	極端な詳細回復、アーカイブ	非常に遅く、一貫しない結果
Waifu2x	1.2	0.82	26.3	迅速なプレビュー、2Dゲームスプライト	古く、品質が低い

SSIM（Structural Similarity Index）スコアは、アップスケールされた画像が元の構造をどの程度保持しているかを示します。0.90を超えるものは優れていると言えます。PSNR（Peak Signal-to-Noise Ratio）はピクセルレベルの精度を測定します—高いほど良いですが、常に認識される品質と相関しません。テーブルが示していないのは一貫性です。StableSRは最も高い品質スコアを持っていますが、同時に最も高いばらつきを持っています。時には、元のものよりも美しい結果を生成することがあります。他の時には、そこに存在しなかった詳細を追加しますが、これはテクスチャのセット間で芸術的な一貫性を維持する必要がある場合には問題です。 Real-ESRGANは生産作業に適した甘いスポットをヒットします。数百のテクスチャを一晩で処理するのに十分な速さで、一貫して良好な品質を提供し、予期しないアーティファクトをほとんど生成しません。おそらく作業の70%に使用しています。しかし、残りの30%—ヒーローテクスチャ、クローズアップサーフェス、プレイヤーが注視するマテリアル—については、時間がかかってもSwin2SRやHATを使用します。速度の違いは、あなたが考えるよりも重要です。1,200のテクスチャを処理するとき、1画像あたり2.3秒と4.1秒の違いは、46分と82分の処理時間の違いとなります。それは、仕事を終える前に結果が得られるか、翌朝戻ってきて結果が得られるかの違いです。バッチ処理の効率も大きく異なることがあります。いくつかのモデルは、キューに入れた操作を他のモデルよりも良く処理します。Real-ESRGANとBSRGANは大きなバッチ全体で一貫したスピードを維持します。Swin2SRとHATは、50〜60画像を処理した後に遅くなり、メモリ管理の問題が原因である可能性が高いです。最適な速度を維持するためには、定期的にプロセスを再起動する必要があります。

品質指標が実際に示すことと示さないこと

SSIMとPSNRは役に立ちますが、全体のストーリーではありません。私は、SSIMスコアが0.94のアップスケール画像が、スコアが0.87の画像よりもゲーム内で悪く見えるのを見てきました。これらの指標は、参照画像に対する数学的な類似性を測定しますが、アップスケールされたテクスチャが最終的な文脈でその目的を果たすかどうかは測定しません。

「SSIMで0.95をスコアするテクスチャが、表面を三次元に感じさせる微妙なノーマルマップの詳細を失った場合、それはSSIMで0.88をスコアするテクスチャよりも悪いです。しかし、後者はその触覚的な品質を保持しています。数字だけでは、ゲームエンジンでテクスチャがどのように機能するかを捉えることはできません。」

私は、SFプロジェクトでこれを辛い方法で学びました。クライアントは、すべての金属パネルテクスチャをアップスケールしたいと望んでいました。私はそれらをStableSRに通し、0.93以上の美しいSSIMスコアを得て、ファイルを納品しました。テクスチャはPhotoshopで素晴らしく見えました。しかし、エンジンで照明が当たったとき、彼らは平坦に見えました。アップスケーラーは、エンジンのPBR（物理ベースレンダリング）システムが光の反射を計算するために使用していた明るさの微小変動をスムーズにしてしまいました。私は、他のモデルでテクスチャをすべて再処理し、ラフネスマップを手動で調整して補償する必要がありました。2番目のバッチはより低いSSIMスコア—約0.89—を持っていましたが、ゲーム内で正しく見えました。指標は、テクスチャが照明システムとどのように相互作用するかという重要な要素を捉えることができませんでした。これが、私は常にターゲットeでアップスケールされたテクスチャをテストする理由です。