研究06/04 14:28

PaddleOCR-VL-1.6 發布：區域優化與漸進後訓練提升文檔解析

研究論文提出 PaddleOCR-VL-1.6，這是基於 PaddleOCR-VL-1.5 的升級版文檔解析模型。儘管前代模型建立了強大的 0.9B 參數基線，但剩餘錯誤集中在不足優化的區域，如模型行為不穩定、數據覆蓋稀疏或監督信號不可靠。為此，PaddleOCR-VL-1.6 引入了一個區域感知數據優化框架，識別前代模型的弱點區域，並針對性增強這些區域，提高監督信號的可靠性。此外，它採用基於策劃數據選擇和強化學習的漸進式後訓練方法，透過分階段優化將模型性能推向更高水平。在 OmniDocBench v1.6 基準測試中，PaddleOCR-VL-1.6 達到了 96.33% 的新高分，展示了對頂級視覺語言模型的強勁競爭力，並為 PaddleOCR-VL 系列提供了實用的後訓練方法。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training