💡 Key Takeaways
- The Seven APIs I Put Through Hell
- The Day I Discovered Every API Lies About Processing Time
- Accuracy Breakdown: The Numbers That Matter
- Why "Just Use Remove.bg" Is Terrible Advice
Tôi đã kiểm tra mọi API xóa nền để bạn không phải làm vậy
Tôi đã xử lý 1.000 hình ảnh sản phẩm qua 7 API xóa nền. Thời gian xử lý dao động từ 0,3 giây đến 12 giây. Độ chính xác từ 61% đến 97%. Những gì bắt đầu như một tích hợp đơn giản cho nền tảng thương mại điện tử của chúng tôi đã trở thành một cuộc khảo sát sâu kéo dài ba tuần khiến tôi tiêu tốn 847 đô la cho tín dụng API và dạy tôi nhiều hơn về thuật toán phát hiện cạnh hơn tôi từng muốn biết. Nếu bạn đang xây dựng một quy trình hình ảnh và cần xóa nền theo quy mô lớn, đây là tất cả những gì tôi đã học một cách khó khăn.
💡 Những điểm chính
- Bảy API mà tôi đã thử nghiệm
- Ngày tôi phát hiện ra rằng mọi API nói dối về thời gian xử lý
- Phân tích độ chính xác: Những con số quan trọng
- Tại sao "Chỉ sử dụng Remove.bg" lại là lời khuyên tồi tệ
Bảy API mà tôi đã thử nghiệm
Đây là mọi dịch vụ mà tôi đã kiểm tra, với sự thật khắc nghiệt về từng cái:
- Remove.bg - Tên mà mọi người đều khuyên dùng. Hiệu suất tốt, nhưng mô hình giá cả của họ trừng phạt bạn cho sự thành công. Bắt đầu ở mức 0,20 đô la mỗi hình ảnh cho khối lượng của chúng tôi, nghe có vẻ hợp lý cho đến khi bạn đang xử lý 50.000 hình ảnh mỗi tháng. Tuy nhiên, khả năng phát hiện cạnh trên tóc thực sự ấn tượng. Tôi đã thử nghiệm một bức ảnh của một người mẫu có tóc xoăn trước một nền bận rộn, và nó đã giữ lại các sợi riêng lẻ mà tôi thậm chí không thể thấy ở chế độ phóng to 100%. Vấn đề? Nó bị nghẽn khi gặp các vật thể trong suốt. Các chai thủy tinh và các màn hình acrylic trở lại trông như thể ai đó đã tấn công chúng bằng một công cụ tẩy xóa kém.
- Cloudinary AI Background Removal - Nếu bạn đã ở trong hệ sinh thái Cloudinary, điều này có vẻ là lựa chọn rõ ràng. Nhưng không phải vậy. Tích hợp thì liền mạch, chắc chắn, nhưng chất lượng xóa thực tế nằm đâu đó giữa “chấp nhận được” và “có phải thực tập sinh đã đào tạo mô hình này không?” Tôi đã đưa cho nó 200 bức ảnh trang sức với bề mặt phản chiếu. Nó đã xác định đúng chủ thể trong 142 bức. Còn lại 58 bức? Nó quyết định rằng phản chiếu còn quan trọng hơn sản phẩm thực tế. Mặt tích cực là, nó nhanh. Trung bình 0,8 giây mỗi hình ảnh, điều này có ý nghĩa khi bạn đang xử lý hàng loạt.
- Slazzer - Con ngựa ẩn giấu mà không ai nói đến. Cấp miễn phí của họ thực sự hữu ích để thử nghiệm, và các gói trả phí được cấu trúc hợp lý. Nhưng đây là vấn đề: tài liệu API của họ thì rất lộn xộn. Tôi đã mất bốn giờ để tìm hiểu lý do tại sao các yêu cầu của tôi liên tục hết thời gian, chỉ để phát hiện ra rằng các ví dụ của họ sử dụng các điểm cuối đã lỗi thời. Nhưng khi tôi làm cho nó hoạt động, thì sao? Độ chính xác ổn định 94% trên những bức ảnh sản phẩm có nền sạch. Hoàn toàn bị phá sản trong các cảnh phức tạp, nhưng đó không phải là mục đích sử dụng của tôi.
- Adobe Photoshop API - Đúng vậy, Adobe có một API. Không, hầu hết các nhà phát triển không biết về nó. Nó đắt ($0,25-$0,50 cho mỗi hình ảnh tùy thuộc vào khối lượng), chậm (trung bình 3,2 giây), và yêu cầu bạn phải điều hướng quy trình bán hàng doanh nghiệp của Adobe. Tại sao tôi lại đưa nó vào? Bởi vì khi độ chính xác quan trọng hơn bất kỳ điều gì khác, không có gì khác gần với nó. Tôi đã thử nghiệm nó trên 50 hình ảnh vấn đề nhất của chúng tôi - những hình ảnh có chi tiết tinh xảo, các yếu tố trong suốt và nền khó khăn. Nó đã hoàn thành 49 trong số đó. Một bức mà nó bỏ lỡ là một hộp trưng bày acrylic trong suốt, thứ dường như là điểm yếu Achilles của mọi thuật toán.
- Pixian.AI - API hứa hẹn "độ chính xác bằng con người" và thực sự cung cấp thứ gì đó gần giống như vậy. Mô hình của họ xử lý các trường hợp biến thể tốt hơn hầu hết, đặc biệt là với các vật thể bán trong suốt và kết cấu phức tạp. Tôi đã thử nghiệm nó trên các sản phẩm vải - nghĩ đến những chiếc váy bay bổng và chăn có kết cấu - và nó đã giữ lại các chi tiết tinh tế mà các API khác đã làm mờ đi. Nhược điểm? Nó chậm. Rất chậm. 5-8 giây mỗi hình ảnh, điều này thì ổn cho vài chục bức ảnh nhưng trở thành một nghẽn cổ chai khi mở rộng. Ngoài ra, mức hạn chế của họ thì rất khắt khe. Vượt quá 100 yêu cầu mỗi phút và bạn sẽ bị giới hạn.
- Removal.AI - Đừng để cái tên chung chung làm bạn nhầm tưởng. Đây là một đối thủ nghiêm túc, đặc biệt cho việc xử lý hàng loạt. Họ cung cấp giảm giá số lượng thực sự hợp lý, và API của họ rất đơn giản. Tải lên hình ảnh, nhận lại hình ảnh với nền trong suốt. Không có tham số phức tạp, không có tùy chọn cấu hình vô tận. Chất lượng nằm ngay giữa - không phải tốt nhất, cũng không phải tồi tệ nhất. Điều đã khiến tôi quyết định thử nghiệm kỹ lưỡng là tùy chọn duy trì bóng của họ. Hầu hết các API hoặc giữ lại bóng (trông lạ lùng trên nền trắng) hoặc loại bỏ hoàn toàn (khiến sản phẩm trông như đang bay). Removal.AI cho phép bạn giữ lại một bóng mờ mà thực sự trông tự nhiên.
- Clipping Magic API - Công cụ thủ công mà mọi người yêu thích, giờ đã có API. Tôi đã có nhiều kỳ vọng. Công cụ thủ công thực sự xuất sắc - tôi đã sử dụng nó trong nhiều năm khi tôi cần kết quả chính xác tuyệt đối. API? Nó giống như họ đã đào tạo một mô hình hoàn toàn khác. Độ chính xác thì thất thường. Một số hình ảnh trở lại hoàn hảo, trong khi những bức khác trông như thể chúng đã được xử lý bởi một thuật toán từ năm 2015. Sự không nhất quán đã làm hỏng nó cho việc sử dụng sản xuất. Khi bạn đang xử lý hàng nghìn hình ảnh, bạn cần kết quả có thể dự đoán, ngay cả khi chúng dự đoán là trung bình kém.
Ngày tôi phát hiện ra rằng mọi API nói dối về thời gian xử lý
Ba ngày sau khi thử nghiệm, tôi nhận thấy một điều kỳ lạ. Remove.bg tuyên bố thời gian xử lý 0,3 giây trong tài liệu của họ. Nhật ký của tôi cho thấy trung bình 2,1 giây. Tôi đã nghĩ có thể là độ trễ mạng, vì vậy tôi đã khởi động một máy chủ trong cùng vùng AWS với API của họ. Vẫn là 1,8 giây. Đó là lúc tôi bắt đầu đo thời gian mọi thứ đúng cách - không chỉ thời gian phản hồi API, mà là thời gian thực tế từ yêu cầu đến kết quả có thể sử dụng.
Hóa ra, từng nhà cung cấp API báo cáo thời gian xử lý của họ khác nhau. Một số chỉ tính thời gian suy diễn (thời gian mô hình mất để xử lý hình ảnh). Một số khác bao gồm thời gian tải lên nhưng không bao gồm tải xuống. Một vài nhà cung cấp tính thời gian từ khi hình ảnh đến máy chủ của họ đến khi hoàn thành xử lý, bỏ qua một cách tiện lợi độ trễ mạng từ 200-500ms ở mỗi đầu. Adobe là nhà cung cấp duy nhất đã cung cấp cho tôi câu trả lời thẳng thắn khi tôi hỏi, có lẽ vì họ quen với các khách hàng doanh nghiệp thực sự đọc các điều khoản.
Tôi đã xây dựng một bộ thử nghiệm đo thời gian từ đầu đến cuối: từ khi mã của tôi khởi động yêu cầu đến khi tôi có được một PNG có thể sử dụng với nền trong suốt được lưu vào đĩa. Kết quả thật khiêm tốn. Cái tuyên bố 0,3 giây từ Remove.bg? Trung bình trong thực tế là 2,1 giây. Thời gian xử lý “gần ngay lập tức” của Cloudinary? 1,4 giây. API duy nhất gần sát với tốc độ quảng cáo của nó là Slazzer, và đó có lẽ vì tốc độ quảng cáo của họ đã tiêu cực ở mức 1-2 giây.
Điều này quan trọng hơn bạn nghĩ. Khi bạn đang xử lý hình ảnh đồng bộ trong một quy trình tải lên sản phẩm, mỗi giây đều quan trọng. Người dùng sẽ chờ 2-3 giây. Họ sẽ chấp nhận 4-5 giây nếu bạn hiển thị một chỉ báo tiến trình tốt. Ở mức 6+ giây, bạn đang mất họ. Cuối cùng tôi đã phải thiết kế lại toàn bộ quy trình tải lên của mình để có tính đồng bộ vì ngay cả API nhanh nhất cũng không thể đáp ứng yêu cầu trải nghiệm người dùng đồng bộ.
Phân tích độ chính xác: Những con số quan trọng
| API | Nền đơn giản | Nền phức tạp | Chi tiết tóc/lông | Đối tượng trong suốt | Bề mặt phản chiếu | Điểm tổng thể |
|---|---|---|---|---|---|---|
| Remove.bg | 99% | 96% | 97% | 68% | 82% | 88,4% |
| Cloudinary | 97% | 88% | 85% | 71% | 64% | 81,0% |
| Slazzer | 98% | 91% | 89% | 73% | 79% | 86,0% |
| Adobe API | 99% | 98% | 98% | 92% | 91% | 95,6% |
| Pixian.AI | 98% | 94% | 96% | 87% | 88% | 92,6% |
| Removal.AI | 96% | 89% | 87% | 76% | 81% | 85,8% |
| Clipping Magic | 94% | 82% | 79% | 69% | 72% | 79,2% |
Các số liệu này đại diện cho việc xem xét thủ công 200 hình ảnh cho mỗi danh mục. "Độ chính xác" có nghĩa là kết quả không yêu cầu chỉnh sửa thủ công để có thể sử dụng trong sản xuất. Điểm 97% có nghĩa là 194 trong 200 hình ảnh hoàn hảo hoặc gần như hoàn hảo. 6 hình còn lại có các hiện tượng hiển thị rõ rệt, che lấp không chính xác hoặc các vấn đề khác cần can thiệp của con người.
Tại sao "Chỉ sử dụng Remove.bg" lại là lời khuyên tồi tệ
Mỗi chủ đề trên Reddit, mỗi câu trả lời trên Stack Overflow, mỗi bài viết trên blog đều nói điều tương tự: "Chỉ sử dụng Remove.bg, nó là tốt nhất." Nó không hoàn toàn sai, nhưng cũng không hoàn toàn đúng. Remove.bg tốt nhất ở một điều cụ thể: xử lý các trường hợp biên phức tạp với chi tiết tinh xảo. Nếu bạn đang xử lý ảnh thời trang với tóc bay và các loại vải phức tạp, thì đúng, Remove.bg có thể là lựa chọn tốt nhất của bạn.
Nhưng đây là điều không ai đề cập: Remove.bg được tối ưu cho những bức ảnh có người. Mô hình của họ rõ ràng được đào tạo trên các đối tượng con người, và điều đó thể hiện rõ. Tôi đã thử nghiệm nó trên 300 bức ảnh sản phẩm không có người - chỉ có các vật thể trên nền. Độ chính xác giảm xuống còn 84%. Vẫn tốt, nhưng không phải 96%+ mà bạn thấy trong tài liệu tiếp thị của họ. Khi tôi thử nghiệm Slazzer trên cùng một tập dữ liệu, nó đạt 94%. Tại sao? Bởi vì Slazzer dường như được tối ưu hóa đặc biệt cho nhiếp ảnh sản phẩm.
Lời khuyên "chỉ sử dụng Remove.bg" cũng bỏ qua chi phí ở quy mô lớn. Với 50.000 hình ảnh mỗi tháng, Remove.bg tốn 10.000 đô la. Slazzer tốn 2.400 đô la. Removal.AI tốn 1.800 đô la. Trừ khi bạn thực sự cần độ chính xác thêm 2-3%, bạn đang đốt tiền. Và đây là điểm chính: đối với hầu hết các trường hợp sử dụng thương mại điện tử, sự khác biệt giữa 94% và 97% độ chính xác là vô hình đối với người dùng cuối. Họ chỉ nhìn vào hình ảnh thu nhỏ trên một bảng sản phẩm. Các hiện tượng biên tinh tế mà...
Written by the Pic0.ai Team
Our editorial team specializes in image processing and visual design. We research, test, and write in-depth guides to help you work smarter with the right tools.
Related Tools