研究06/05 24:08

WebRISE：為MLLM生成網頁工件引入需求誘導狀態評估

研究論文提出WebRISE，一個新的基準測試，旨在評估多模態大型語言模型生成的網頁工件。論文探討現有基準的不足，指出它們僅通過局部證據評估交互，忽略了決定頁面是否運作的需求誘導狀態和轉換。WebRISE將任務需求編譯成Interaction Contract Graphs (ICGs)，包含可觀察狀態、用戶意圖轉換和DOM/視覺斷言，實現無關實現的瀏覽器執行。基準覆蓋442個任務，橫跨五種輸入模態：文本、Markdown、草圖、圖像和視頻，並包含5,495個轉換和5,271個需求檢查。論文測試了14個MLLMs，結果顯示即使是最強模型如Qwen3.6-35B-A3B，轉換有效性僅達65.6%，需求覆蓋率為66.3%。視頻模態提供了最強的交互信號，比文本多10.6個百分點的隱式覆蓋率，但隱式約束持續存在。缺陷注入測試顯示，基於ICGs的評分在檢測狀態錯誤方面比檢查點式評估高出2到16倍。這項研究為評估MLLM生成的網頁工件提供了更全面的方法。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts