PEEK:透過高效知識蒸餾選擇關鍵幀
研究論文提出,視頻語言模型處理視頻時受限於可處理的幀數,這成為高效視頻描述生成的關鍵瓶頸。現有的自適應幀採樣方法雖然能選擇最具資訊量的幀,但計算成本高昂。為此,論文探討了PEEK方法,它透過知識蒸餾技術,將強大教師模型的描述條件幀相關性排名蒸餾到一個輕量級的時間模型中,該模型僅基於視覺內容運作。實驗結果表明,在ActivityNet Captions和MSR-VTT數據集上,PEEK在所有評估的視覺語言模型中均優於現有方法,尤其是在僅選擇一到兩幀進行描述生成時,獲得最佳的CIDEr分數。在ActivityNet Captions上,PEEK表現尤為突出,在16種配置中贏得14種。與近期的自適應基線方法相比,PEEK不僅在低預算條件下更準確,而且效率更高,僅為視頻描述生成時間增加了5.2%,而CSTA和MaxInfo分別增加了65.4%和211.9%。研究團隊已在GitHub上發佈了相關代碼和預訓練檢查點。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源PEEK: Picking Essential frames via Efficient Knowledge distillation