快訊05/31 17:46

Claude 新模型出錯時更誠實

媒體報導指出，Anthropic 公司宣布即將推出 Claude Opus 4.8 模型，並特別宣傳其『誠實性』特質。據報導，官方公告表示 Anthropic 訓練所有模型保持誠實，具體措施包括避免做出無法支持的主張。然而，AI 模型普遍存在一個問題，即它們有時會過早下結論，自信地展示進展，儘管證據不足。Anthropic 聲稱，早期測試者發現 Opus 4.8 更可能標記工作的不確定性，且更不可能做出不實主張。在公司評估中，Opus 4.8 比前代模型減少約四倍的不實主張可能性。這項改進體現了 Anthropic 在提升 AI 模型可靠性和誠實度方面的努力，可能對使用者信任產生積極影響。透過強化誠實性訓練，Anthropic 旨在解決 AI 系統的過度自信問題，並推動更負責任的技術發展。

來源

來源：媒體報導

媒體報導Claude’s new model is more ‘honest’ when it messes up