TriEval:資源高效的大語言模型偏見、毒性和真實性評估流程
研究論文提出 TriEval,一個資源高效的評估流程,專門用於大語言模型(LLM)的偏見、毒性和真實性評估。隨著 LLM 從基礎聊天機器人發展成為人工智慧生態系統的骨幹,並廣泛應用於醫療、教育和政府服務等領域,對其安全性和公平性的持續評估變得至關重要。部署後常見的問題包括輸出不一致和幻覺錯誤資訊。雖然市面上有眾多評估工具,但大多數只能單次測試一個參數,或需要龐大的計算資源,非一般研究人員所能負擔。TriEval 透過同時評估多個參數,包括偏見、毒性和真實性,來應對這些挑戰,同時最大限度地減少計算資源的使用。該流程與開源和閉源模型兼容,並可在沒有 GPU 集群的標準筆記型電腦上運行。TriEval 已在 Llama 3 8B、Mistral 7B、Gemma 2 9B 和 Claude Haiku 等四個模型上進行測試,結果顯示開源與閉源模型在毒性和真實性方面存在明顯差異。TriEval 作為開源發布,旨在讓計算資源有限的研究人員也能更廣泛地使用。
來源
來源:網頁來源