返回事件流

TeachOps:多模態教學觀察與模型評估基準

研究論文提出TeachOps,這是一個經過人類驗證的基準,專為課堂視頻的多模態教學觀察設計。基準包含來自八個國家的30個公開課程視頻,並分成5,158個固定的15秒場景。七位研究者為每個場景標註了39個二元觀察碼,涵蓋視覺和非視覺信號。此外,三位專家評級者對30個課程進行了課程級別的評分和定性評估。論文使用這兩個層次的參考數據,評估了五個具備視覺能力的前沿大型語言模型,測試了三個不同的評估軌道。結果顯示,沒有一個模型在所有軌道中始終表現最佳,添加中間幀會增加場景中的真實和錯誤歸因,並且模型評估相對於專家評級者,對程序清晰的課程給予過高評價。因此,TeachOps支持精細標註基準測試和整個課程評估,展示了人工智慧系統在課堂視頻分析中可以協助的地方,以及在不同學科和情境下仍需要專家判斷之處。

來源

來源:網頁來源