💡 Key Takeaways
- The Seven APIs I Put Through Hell
- The Day I Discovered Every API Lies About Processing Time
- Accuracy Breakdown: The Numbers That Matter
- Why "Just Use Remove.bg" Is Terrible Advice
私はすべての背景除去APIをテストしました、あなたがする必要はありません
私は1,000枚の製品画像を7つの背景除去APIを通して処理しました。処理時間は0.3秒から12秒まで、精度は61%から97%までの範囲でした。私たちのeコマースプラットフォームのための簡単な統合として始まったものが、3週間の深堀りに変わり、APIクレジットに847ドルの費用がかかり、エッジ検出アルゴリズムについて私が知りたかった以上のことを学びました。もしあなたが画像パイプラインを構築し、大規模に背景を剥がす必要があるなら、これは私が苦労して学んだすべてです。
💡 重要なポイント
- 私が試した7つのAPI
- すべてのAPIが処理時間について嘘をついていることを発見した日
- 精度の内訳:重要な数字
- なぜ「Remove.bgを使えばいい」というのがひどいアドバイスなのか
私が試した7つのAPI
ここでは、私がテストしたすべてのサービスと、それぞれのブ Brutalな真実を示します:
- Remove.bg - 誰もが推奨する有名な名前。確かなパフォーマンスですが、彼らの価格モデルは成功を罰します。私たちのボリュームでは画像ごとに0.20ドルのスタートは合理的に思えますが、月に50,000枚の画像を処理することになるとそうではありません。髪のエッジ検出は本当に印象的です。忙しい背景を持つ巻き毛のモデルの写真を投げてみたら、100%のズームでも見えない個々の毛束を保持していました。ただし、透明なオブジェクトには苦しみました。ガラス瓶やアクリルディスプレイは、誰かが悪い消しゴムツールで攻撃したように見えました。
- Cloudinary AI Background Removal - すでにCloudinaryのエコシステムにいるなら、これは明らかな選択に感じます。でも、実際はそうではありません。統合はシームレスですが、実際の除去品質は「受け入れられる」と「インターンがこのモデルを訓練したのか?」の間のどこかにあります。反射面を持つ200枚のジュエリー写真を与えました。142枚の正しい対象を特定しました。残りの58枚は、実際の製品より反射が重要だと判断されました。プラス面として、速いです。画像ごとに0.8秒の平均で、バッチ処理するときには重要です。
- Slazzer - 誰もが話さない暗馬。彼らの無料ティアはテストに本当に役立つもので、有料プランは適切に構成されています。しかし、問題は彼らのAPIドキュメントがぐちゃぐちゃであることです。リクエストがタイムアウトし続ける理由を探るのに4時間を費やし、彼らの例が非推奨のエンドポイントを使用していることを発見しました。一度動作させることができたのですが?クリーンな背景の製品写真で94%の一貫した精度を実現しました。複雑なシーンでは完全に崩壊しますが、それが私が必要としたものではありませんでした。
- Adobe Photoshop API - はい、AdobeにはAPIがあります。いいえ、ほとんどの開発者はそれを知らない。高価です(画像ごとに0.25ドルから0.50ドル、ボリュームに応じて)、遅いです(平均3.2秒)、Adobeの企業販売プロセスをナビゲートする必要があります。なぜこれを含めたのか?精度が他の何よりも重要なとき、何も他のものが近づいていませんでした。私たちの最も問題のある50枚の画像でテストしました - 細かい詳細、透明な要素、挑戦的な背景を持つもの。49枚を的中させました。1枚は透明なアクリルディスプレイケースで、それはすべてのアルゴリズムのアキレス腱のようです。
- Pixian.AI - 「人間レベルの精度」を約束し、実際にそれに近いものを提供するAPI。彼らのモデルは、半透明のオブジェクトや複雑なテクスチャに関しては、大多数よりもエッジケースを効果的に処理します。布製品でテストしました - 流れるドレスやテクスチャのある毛布 - 他のAPIがスムージングしてしまう微細な詳細を保持しました。欠点は?遅いです。本当に遅いです。画像ごとに5-8秒で、数十枚の写真には問題ありませんが、大規模になるとボトルネックになります。また、レート制限が厳しいです。毎分100リクエストに達すると、制限されます。
- Removal.AI - 一般的な名前に騙されないでください。これは、特にバッチ処理において真剣な競争相手です。彼らは実際に意味のある卸売割引を提供し、APIはさっぱりしていて分かりやすいです。画像をアップロードし、透過背景のある画像を取得します。複雑なパラメータなし、終わりのない構成オプションなし。品質は中間に位置しています - 最良でも最悪でもありません。厳密にテストすることを決定させたのは、彼らの影の保持オプションでした。ほとんどのAPIは影を保持します(白い背景では奇妙に見えます)か、完全に取り除きます(製品が浮いているように見えます)。Removal.AIは実際に自然に見える微妙な影を保持させてくれます。
- Clipping Magic API - 皆が愛する手動ツール、今やAPI付き。期待が高かったです。手動ツールは本当に優れていて、私はピクセルパーフェクトな結果が必要なときに何年も利用してきました。API?まるでまったく異なるモデルを訓練したかのようです。精度はバラバラでした。完璧な画像もあれば、2015年のアルゴリズムによって処理されたように見えるものもありました。不一致が生産用途には致命的でした。数千枚の画像を処理する際には、たとえそれらが予想通りの mediocreであっても、予測可能な結果が必要です。
すべてのAPIが処理時間について嘘をついていることを発見した日
テストの3日目に、私は奇妙なことに気付きました。Remove.bgはドキュメントで0.3秒の処理時間を主張しました。私のログは平均2.1秒を示していました。ネットワーク遅延が原因かもしれないと思い、そのAPIと同じAWSリージョンにサーバーを立ち上げました。それでも1.8秒でした。そのとき、私はすべてを適切に測定し始めました - APIの応答時間だけでなく、リクエストから使用可能な結果までの実際の壁時計時間。
結局、すべてのAPIベンダーは処理時間を異なって報告します。一部は推論時間のみをカウントします(モデルが画像を処理するのにかかる時間)。他はアップロード時間を含むがダウンロードは含まない。いくつかは、画像が彼らのサーバーに到達した時から処理が完了するまでの時間をカウントし、各エンドで200〜500msのネットワークオーバーヘッドを便利に無視しています。Adobeは、私が尋ねた時に真実の答えをくれた唯一のベンダーでした。おそらく企業顧客が細かい印刷を実際に読むことに慣れているからです。
私は、リクエストを開始した時から透明背景のPNGがディスクに保存されるまでのエンドツーエンドの時間を測定するテストハーネスを構築しました。結果は謙虚でした。Remove.bgからのその0.3秒の主張は?実際の平均は2.1秒でした。Cloudinaryの「ほぼ瞬時」の処理?1.4秒。自社が宣伝する速度に近づいたAPIはSlazzerだけで、それは彼らの宣伝された速度がすでに1-2秒と悲観的であったからだと思います。
これはあなたが考えるよりも重要です。商品アップロードフロー中に画像を同期的に処理する場合、すべての秒が重要です。ユーザーは2-3秒待つでしょう。進行状況インジケーターを表示した場合、4-5秒を容認します。6秒以上では、彼らを失っています。私は最終的に、最も速いAPIでさえ同期UX要件を満たすことができなかったため、アップロードフロー全体を非同期に再設計しました。
精度の内訳:重要な数字
| API | 単純な背景 | 複雑な背景 | 髪/毛の詳細 | 透明物体 | 反射面 | 全体のスコア |
|---|---|---|---|---|---|---|
| Remove.bg | 99% | 96% | 97% | 68% | 82% | 88.4% |
| Cloudinary | 97% | 88% | 85% | 71% | 64% | 81.0% |
| Slazzer | 98% | 91% | 89% | 73% | 79% | 86.0% |
| Adobe API | 99% | 98% | 98% | 92% | 91% | 95.6% |
| Pixian.AI | 98% | 94% | 96% | 87% | 88% | 92.6% |
| Removal.AI | 96% | 89% | 87% | 76% | 81% | 85.8% |
| Clipping Magic | 94% | 82% | 79% | 69% | 72% | 79.2% |
これらの数字は、カテゴリごとに200画像を手動でレビューした結果を示しています。「精度」とは、結果が生産に使用できるようになるために手動で修正を必要としなかったことを意味します。97%のスコアは、200画像のうち194枚が完璧またはほぼ完璧であったことを意味します。残りの6枚には目に見えるアーティファクト、不正確なマスキング、または他の人間の介入を必要とする問題がありました。
なぜ「Remove.bgを使えばいい」というのがひどいアドバイスなのか
すべてのRedditスレッド、すべてのStack Overflowの回答、すべてのブログ投稿は同じことを言っています:「Remove.bgを使えばいい、最高です。」正しくはないですが、正確ではありません。Remove.bgは特定のことの処理において最高です:複雑なエッジケースと細かい詳細の処理です。流れる髪や複雑な布地のファッションフォトグラフィを処理する場合、確かにRemove.bgはあなたの最良の選択かもしれません。
しかし、誰もが言及しないことがあります:Remove.bgは人の写真に最適化されています。彼らのモデルは明らかに人間の被写体でトレーニングされており、それが顕著に現れます。300枚の人が写っていない製品写真でテストしました - ただの背景の上のオブジェクトです。精度は84%に低下しました。依然として良好ですが、彼らのマーケティング資料で見る96%+ではありません。Slazzerを同じデータセットでテストしたとき、94%に達しました。なぜなら、Slazzerは特に製品写真に最適化されているようです。
「Remove.bgを使えばいい」というアドバイスは、スケールでのコストも無視しています。月に50,000枚の画像で、Remove.bgは10,000ドルかかります。Slazzerは2,400ドル、Removal.AIは1,800ドルです。追加の2-3%の精度が絶対に必要でない限り、あなたは金を燃やしています。そして、ここが本質です:ほとんどのeコマースのユースケースでは、94%と97%の精度の違いはエンドユーザーには見えません。彼らは製品グリッドのサムネイル画像を見ています。微妙なエッジアーティファクトは、そのすべてを台無しにします。
Written by the Pic0.ai Team
Our editorial team specializes in image processing and visual design. We research, test, and write in-depth guides to help you work smarter with the right tools.
Related Tools