研究06/04 14:32

Ultralytics YOLO26：統一即時端到端視覺模型

研究論文提出 Ultralytics YOLO26，這是一個統一的即時端到端視覺模型家族。論文指出，傳統 YOLO 檢測器在推理時依賴非最大抑制（NMS），並因分布焦點損失（DFL）導致檢測頭沉重，同時訓練時間長，且小物體可能無法獲得正標籤分配。YOLO26 通過協調架構和訓練進展來解決這些限制。它採用雙頭設計，實現原生無 NMS 的端到端推理，並完全移除 DFL，使檢測頭更輕且回歸範圍不受約束。訓練管道結合了 MuSGD 優化器（源自大型語言模型訓練的混合 Muon-SGD 優化器）、漸進損失（將監督轉向推理時頭部）和 STAL 標籤分配策略（確保小物體的正覆蓋）。此外，YOLO26 為實例分割、姿態估計和定向檢測引入了任務特定的頭和損失設計，跨任務和尺度獲得一致提升。模型家族涵蓋五種尺度（n/s/m/l/x），支持檢測、實例分割、姿態估計、分類和定向檢測，並有開放詞彙擴展 YOLOE-26，用於文本、視覺和提示自由推理。在 COCO 數據集上，YOLO26 在所有尺度上達到 40.9-57.5 mAP，T4 TensorRT 延遲為 1.7-11.8 毫秒，推進了即時檢測器的準確性-延遲帕累托前沿。YOLOE-26x 在 LVIS minival 上以文本提示達到 40.6 AP。代碼和模型已在 GitHub 上發佈。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models