Anthropic 就隱藏 Claude Fable 限制道歉
媒體報導指出,AI 公司 Anthropic 近日就其最新語言模型 Claude Fable 5 的隱藏安全護欄問題公開致歉。據了解,Anthropic 在推出 Claude Fable 5 時,設置了未經公開說明的限制措施,這些措施會在模型回應特定查詢時自動觸發,導致回應被修改或拒絕。此舉不僅讓研究人員難以評估模型的實際能力,也使得競爭對手在利用該模型開發自家系統時受到干擾。Anthropic 在道歉聲明中表示,公司將調整相關做法,未來會更透明地說明這些限制的啟動條件,即使這意味著模型可能會拒絕更多查詢。Claude Fable 5 是 Anthropic Mythos 系列中首個面向公眾開放的模型,該公司此前已多次警告稱,這類先進 AI 系統存在潛在風險,可能不適合無限制公開發布。透過此次事件,Anthropic 承認了在平衡模型安全性與透明度方面需要改進,並承諾將加強與用戶的溝通,以確保未來部署更符合公眾期望。
來源:媒體報導