返回事件流

PaddleOCR-VL-1.6 發布:區域優化與漸進後訓練提升文檔解析

研究論文提出 PaddleOCR-VL-1.6,這是基於 PaddleOCR-VL-1.5 的升級版文檔解析模型。儘管前代模型建立了強大的 0.9B 參數基線,但剩餘錯誤集中在不足優化的區域,如模型行為不穩定、數據覆蓋稀疏或監督信號不可靠。為此,PaddleOCR-VL-1.6 引入了一個區域感知數據優化框架,識別前代模型的弱點區域,並針對性增強這些區域,提高監督信號的可靠性。此外,它採用基於策劃數據選擇和強化學習的漸進式後訓練方法,透過分階段優化將模型性能推向更高水平。在 OmniDocBench v1.6 基準測試中,PaddleOCR-VL-1.6 達到了 96.33% 的新高分,展示了對頂級視覺語言模型的強勁競爭力,並為 PaddleOCR-VL 系列提供了實用的後訓練方法。

來源:Hugging Face / 論文來源