最新事件

AI 圈最新動態

自動彙整官方公告、GitHub Release、研究論文與社群討論,以繁體中文呈現。

MiniMax 發布 MiniMax M3 模型,支援 1M-token 上下文與多模態

MiniMax 於2026年6月1日推出 MiniMax M3 模型,引入 MSA 架構,提供 1M-token 上下文窗口、原生多模態輸入及代理編碼功能。

自我演化LLM代理的更新能力與受益能力分析

研究探討自我演化LLM代理中,模型產生有用更新的能力與從中受益的能力,發現前者在不同能力層級模型間表現相似,後者則呈非單調變化。

Gemini 的新 AI 代理與 Google 演示效果相當

Google 推出的 Gemini Spark AI 代理能全天候處理多步驟任務,但其財務成本和隱私疑慮引發討論。

這可能是 Windows 的 M1 時刻 — 但預計價格不菲

NVIDIA 宣布推出 RTX Spark 消費者筆記型電腦晶片,有望為 Windows 筆電帶來媲美 Apple M1 的效能與續航,但價格可能較高。

Meta的AI聊天機器人遭利用劫持Instagram帳戶

媒體報導指出,Meta的AI支持聊天機器人被黑客利用,通過更改電子郵件和重置密碼來劫持Instagram帳戶,此問題已被修補。

Vulkan 管線編譯鎖機制改進

llama.cpp 發布 b9458 版本,改進 Vulkan 管線編譯時的鎖機制,避免阻塞其他線程,提升並行效能。

超越回憶:行為規範作為AI個人化的解釋層

研究論文提出行為規範作為AI個人化的解釋層,以表徵準確性衡量用戶對齊,並在基準測試中提升預測準確性。

DEMON:用於音樂編排噪聲的實時擴散引擎

研究論文提出DEMON實時擴散引擎,將去噪過程轉化為現場樂器,在消費級GPU上實現高效音樂生成。

GCPO:離散策略優化中的引導對比權杖信用分配

這篇論文提出GCPO演算法,用於強化學習中的權杖級信用分配,在文字轉圖像生成和思維鏈推理中表現優於GRPO和DAPO。

認識 Memory OS:基於 Hermes Agent 的六層開源記憶堆疊

社區開發者推出 Memory OS,這是一個開源記憶架構,為 Hermes Agent 添加六層記憶系統,強調本地運行、結構化檢索和記憶效率。

AlphaTransit:城市規模公交路網設計新框架

研究論文提出 AlphaTransit 框架,結合蒙地卡羅樹搜尋與神經網絡,用於優化城市公交路網設計,實驗中服務率顯著提升。

RayDer:可擴展的自監督新視角合成技術

研究論文提出 RayDer,一個統一的前饋變換器模型,用於從真實影片進行自監督新視角合成,展現出數據與計算的良好擴展性。

從模型擴展到系統擴展:在代理 AI 中擴展框架

研究論文探討代理 AI 的下一個主要瓶頸,強調系統設計而非僅模型擴展,並提出擴展框架的概念以提升長期代理行為。

記憶體受限但非頻寬受限:批次-1 LLM 解碼的物理 AI 推論差距

研究論文探討物理 AI 系統在批次-1 LLM 解碼中的推論效能,發現更快記憶體不一定帶來成比例延遲降低,並測試了 CUDA Graphs 的影響。

微軟將在Build大會發布新AI模型及Windows改進

微軟計劃於Build大會上揭曉新的AI模型與Windows改進,試圖贏回開發者信任。

llama.cpp 新增 EXAONE 4.5 模型支援

llama.cpp 發布新版本 b9453,加入 EXAONE 4.5 模型的實現,並優化多模態處理功能。

Strava 因 AI 刮取工具收緊 API 存取

Strava 宣布收緊 API 存取限制,開發者需每月支付 11.99 美元訂閱費,以應對 AI 刮取工具導致的性能問題。

AI衝擊音樂產業,葛萊美獎如何應對?

Recording Academy執行長表示AI在音樂製作中已無所不在,每日有超過五萬首AI歌曲上傳,葛萊美獎規則排除AI音樂,並將轉至迪士尼平台播出。

llama.cpp Vulkan優化 提升Intel/AMD GPU效能

GitHub發布的llama.cpp新版本針對Vulkan後端進行優化,透過區塊載入與32位元整數運算,顯著提升Intel BMG及AMD RDNA GPU上Q3_K/Q6_K量化模型的推論速度。

VisualThink-VLA:高效低延遲的視覺中間推理框架

研究論文提出VisualThink-VLA框架,透過視覺中間推理提升視覺語言動作策略的準確性與效率,將延遲大幅降低至亞秒範圍。

單次點擊即可分割細胞類型:無需訓練的群組互動細胞實例分割

研究論文提出Group Prompting方法,通過單次點擊per cell type進行細胞實例分割,無需額外訓練,在基準測試中表現優異。

llama.cpp 發佈 b9451 版本:Vulkan 後端優化

llama.cpp 官方發佈 b9451 版本,主要針對 Vulkan 圖形後端進行優化,並提供多個作業系統的編譯版本。

Mellum 2 技術報告

Mellum 2 是一款開源的12B參數混合專家語言模型,專精於軟體工程領域,提供優異的代碼生成與推理能力。

信任區域行為混合在策略蒸餾中的應用

研究論文提出信任區域行為混合方法,用於改善在策略蒸餾的早期訓練階段,提升模型性能。

GDSD:擴散語言模型的引導式去噪器自蒸餾方法

研究提出 GDSD 方法,通過自蒸餾改進擴散語言模型的強化學習,在基準測試中提升性能達 19.6%。

GrepSeek:訓練搜尋代理直接與語料庫互動

GrepSeek 是一個優化的直接語料庫交互搜尋代理,通過兩階段訓練提升問答表現。

嵌入模型如何綁定概念?

研究探討CLIP等視覺-語言嵌入模型在概念綁定上的困難,發現其綁定函數複雜度高,但控制模型在充足數據下能實現系統性泛化。

超越整體模型:深度多元時間序列預測的系統性組件級基準測試

研究論文提出 TSCOMP 基準,系統性分解深度預測方法進行評估,並公開代碼與性能語料庫。

DecMem:解耦記憶架構實現分鐘級一致世界生成

論文提出 DecMem 模型,透過解耦記憶機制,解決長時間世界生成中的一致性挑戰,並在實驗中表現優異。

擴散語言模型的置信度誤導:後錨定與鄰近置信度調變

研究論文指出擴散語言模型中,高置信度位置並非都適合解碼,需提出新方法改善生成完整性與過早解碼問題。