返回事件流

Ultralytics YOLO26:統一即時端到端視覺模型

研究論文提出 Ultralytics YOLO26,這是一個統一的即時端到端視覺模型家族。論文指出,傳統 YOLO 檢測器在推理時依賴非最大抑制(NMS),並因分布焦點損失(DFL)導致檢測頭沉重,同時訓練時間長,且小物體可能無法獲得正標籤分配。YOLO26 通過協調架構和訓練進展來解決這些限制。它採用雙頭設計,實現原生無 NMS 的端到端推理,並完全移除 DFL,使檢測頭更輕且回歸範圍不受約束。訓練管道結合了 MuSGD 優化器(源自大型語言模型訓練的混合 Muon-SGD 優化器)、漸進損失(將監督轉向推理時頭部)和 STAL 標籤分配策略(確保小物體的正覆蓋)。此外,YOLO26 為實例分割、姿態估計和定向檢測引入了任務特定的頭和損失設計,跨任務和尺度獲得一致提升。模型家族涵蓋五種尺度(n/s/m/l/x),支持檢測、實例分割、姿態估計、分類和定向檢測,並有開放詞彙擴展 YOLOE-26,用於文本、視覺和提示自由推理。在 COCO 數據集上,YOLO26 在所有尺度上達到 40.9-57.5 mAP,T4 TensorRT 延遲為 1.7-11.8 毫秒,推進了即時檢測器的準確性-延遲帕累托前沿。YOLOE-26x 在 LVIS minival 上以文本提示達到 40.6 AP。代碼和模型已在 GitHub 上發佈。

來源:Hugging Face / 論文來源