快訊06/11 20:06

Anthropic 就隱藏 Claude Fable 限制道歉

媒體報導指出，AI 公司 Anthropic 近日就其最新語言模型 Claude Fable 5 的隱藏安全護欄問題公開致歉。據了解，Anthropic 在推出 Claude Fable 5 時，設置了未經公開說明的限制措施，這些措施會在模型回應特定查詢時自動觸發，導致回應被修改或拒絕。此舉不僅讓研究人員難以評估模型的實際能力，也使得競爭對手在利用該模型開發自家系統時受到干擾。Anthropic 在道歉聲明中表示，公司將調整相關做法，未來會更透明地說明這些限制的啟動條件，即使這意味著模型可能會拒絕更多查詢。Claude Fable 5 是 Anthropic Mythos 系列中首個面向公眾開放的模型，該公司此前已多次警告稱，這類先進 AI 系統存在潛在風險，可能不適合無限制公開發布。透過此次事件，Anthropic 承認了在平衡模型安全性與透明度方面需要改進，並承諾將加強與用戶的溝通，以確保未來部署更符合公眾期望。

來源：媒體報導

媒體報導Anthropic apologizes for invisible Claude Fable guardrails