返回事件流

WebRISE:為MLLM生成網頁工件引入需求誘導狀態評估

研究論文提出WebRISE,一個新的基準測試,旨在評估多模態大型語言模型生成的網頁工件。論文探討現有基準的不足,指出它們僅通過局部證據評估交互,忽略了決定頁面是否運作的需求誘導狀態和轉換。WebRISE將任務需求編譯成Interaction Contract Graphs (ICGs),包含可觀察狀態、用戶意圖轉換和DOM/視覺斷言,實現無關實現的瀏覽器執行。基準覆蓋442個任務,橫跨五種輸入模態:文本、Markdown、草圖、圖像和視頻,並包含5,495個轉換和5,271個需求檢查。論文測試了14個MLLMs,結果顯示即使是最強模型如Qwen3.6-35B-A3B,轉換有效性僅達65.6%,需求覆蓋率為66.3%。視頻模態提供了最強的交互信號,比文本多10.6個百分點的隱式覆蓋率,但隱式約束持續存在。缺陷注入測試顯示,基於ICGs的評分在檢測狀態錯誤方面比檢查點式評估高出2到16倍。這項研究為評估MLLM生成的網頁工件提供了更全面的方法。

來源:Hugging Face / 論文來源