VSAS-Bench:即時評估視覺串流助手模型
根據 Apple 官方部落格的公告,研究團隊近日提出了 VSAS-Bench,這是一個專為即時視覺串流助手模型設計的新評估基準。現有的視覺語言模型(VLMs)框架多數在離線環境下進行評估,然而,串流式 VLMs 的性能不僅取決於純粹的影片理解能力,還需考量主動性(即模型回應的及時性)和一致性(即模型回應隨時間的穩健性)等額外指標。VSAS-Bench 旨在填補這一評估空白,提供一個更全面的即時評估方法。官方公告指出,該基準透過模擬真實世界的串流場景,讓研究人員能夠更準確地評估模型在動態環境中的表現,從而促進視覺串流助手技術的發展與創新。
來源
來源:官方公告