大型語言模型中的事實觀點能否被編輯(操縱)?
研究論文指出,隨著大型語言模型在各個領域的日益整合,知識編輯技術變得至關重要,但也可能帶來潛在危險。當前的編輯方法主要針對原子事實,忽略了操縱事實觀點的顯著風險,例如公眾人物在社會問題上的記錄立場。這種操縱可能重塑公眾形象、影響選舉並改變社會觀點。為了系統性地評估這一威脅,研究引入了Factual Opinion Editing with Evidence(FOE)基準,涵蓋261位公眾人物、19個議題類別和2,178條完整的觀點記錄。評估結果顯示,現有的編輯技術在處理事實觀點時困難重重,往往只能實現表面改變,而無法保持編輯後觀點與模型生成的支持證據之間的一致性。為解決這一限制,研究進一步提出了一種簡單而有效的自我生成證據對齊方法,該方法能在不依賴明確指令的情況下實現觀點與證據的對齊。這項研究為理解大型語言模型中事實觀點編輯的新興安全隱患提供了基礎,對AI安全性和倫理具有重要意義。
來源
來源:網頁來源