研究06/01 12:12

TeachOps：多模態教學觀察與模型評估基準

研究論文提出TeachOps，這是一個經過人類驗證的基準，專為課堂視頻的多模態教學觀察設計。基準包含來自八個國家的30個公開課程視頻，並分成5,158個固定的15秒場景。七位研究者為每個場景標註了39個二元觀察碼，涵蓋視覺和非視覺信號。此外，三位專家評級者對30個課程進行了課程級別的評分和定性評估。論文使用這兩個層次的參考數據，評估了五個具備視覺能力的前沿大型語言模型，測試了三個不同的評估軌道。結果顯示，沒有一個模型在所有軌道中始終表現最佳，添加中間幀會增加場景中的真實和錯誤歸因，並且模型評估相對於專家評級者，對程序清晰的課程給予過高評價。因此，TeachOps支持精細標註基準測試和整個課程評估，展示了人工智慧系統在課堂視頻分析中可以協助的地方，以及在不同學科和情境下仍需要專家判斷之處。

來源

來源：網頁來源

網頁來源TeachObs: A Human-Validated Benchmark for Multimodal Teaching Observation and Model Evaluation