生成式 AI 中基於人物的多元對齊評估框架
研究論文提出一個基於人物的評估框架,用於生成式 AI 的多元對齊。論文指出,當前 AI 對齊範式主要依賴單一基準框架,將人類判斷的多元性簡化為統計基線,從而忽略了文化、人口統計和上下文的變異性。為此,作者引入一個狀態空間約束的模擬框架,用結構化的合成認知人物流形取代單一評估函數,以代表多樣的人類視角。研究顯示,現代生成式架構可以高一致性地實例化和維持這些評估人物,實現了基於視角的基準測試。然而,論文進一步分析這些模擬評估者在序列推理和隨機提示擾動下的穩定性,揭示了人物一致性系統性退化,表現為狀態空間漂移和語義不一致。這些發現表明靜態對齊約束不足以維持穩健的評估行為,因此論文主張在生成系統中嵌入動態、生存驅動的監管機制,以保持連貫的認知模擬。通過將基於人物的評估框定為潛在表示流形上的結構動態系統,這項研究為更自適應、人性對齊和上下文敏感的 AI 評估方法奠定了基礎。
來源
來源:網頁來源