設為首頁加入收藏

微信關注
官方微信號:南方財富網
加關注獲取每日精選資訊
搜公眾號“南方財富網”即可,歡迎加入!
APP下載會員登錄網站地圖

Evermind 助力 AI 模型記憶實現自演化

2026-03-03 17:03 互聯(lián)網

  在聊EverMemOS為啥強之前,我們不妨先來思考一個問題:當你使用大模型時,是不是總覺得有什么地方不得勁?

  前一秒還聊得好好的,下一秒就忘得一干二凈,要么就是拆東墻補西墻,這個記住了,另一個又忘了。

  歸根結底,不是模型能力不夠強,而是記憶功能不夠用。

  這就要回到大模型的底層架構上講,眾所周知,當前大模型普遍用的是Transformer架構,其記憶核心在于自注意力機制,也就是上下文窗口的信息緩存。

  它會通過計算當前窗口的token間關系,理解上下文含義,但實際運行中由于受限于物理內存資源,窗口長度是有限的,一旦文本長度超過窗口限制,信息就會被截斷遺忘。

  另外,隨著對話變長,KV Cache占用的顯存也會逐漸膨脹。影響推理效率的同時,為了節(jié)省資源,現有的技術往往會選擇壓縮舊記憶,從而導致記憶細節(jié)變得模糊。

  這顯然影響了用戶的實際體驗,舉個例子be like:

  當你需要AI協(xié)助寫一篇論文時, 從確定選題→檢索相關文獻→擬結構→寫初稿→修改優(yōu)化到最后定稿,這當中勢必需要多輪交互,但AI壓根記不住你之前寫的內容,最后輸出的結果也只能是驢頭不對馬嘴。

  那怎么辦呢?學術界為此提出了三種技術方案:

  基于外部存儲的記憶(External Storage based Memory)

  這就類似于為大模型配備了一個外部數據庫,里面系統(tǒng)存儲著用戶相關的歷史記錄。當用戶提問時,系統(tǒng)就會先去數據庫里搜索相關文檔,再將其和問題一起喂給AI。

  但這并非真正的記憶,而是在考場上臨時翻閱教材。

  • 基于模型參數的記憶(Model Parameter based Memory)

  該方案本質是將記憶通過訓練內化成模型的一部分,通過微調SFT或持續(xù)預訓練,讓模型在看到某個問題時,就能迅速通過參數內部權重指向正確答案。

  DeepSeek的最新成果便是用的這個思路,但再訓練的成本極高且容易遺忘,不適合個性化和短期記憶。

  • 基于隱狀態(tài)的記憶(Latent State based Memory)

  通過保存模型的中間推理狀態(tài)(如KV Cache),達成類人的短期記憶或工作記憶。

  它非常適用于理解復雜的對話語境,但換言之,它是一次性的,只能短暫存在,無法長久記憶。

  其中業(yè)界用的比較多的方法,還是RAG(檢索增強生成),也就是基于外部存儲的記憶。

  但RAG同樣缺點明顯。首先,其工作方式是將長文本切成一個個片段,會破壞信息的連貫性,讓模型難以理解復雜的因果關系。

  其次RAG依賴向量相似度檢索,擅長找語義相近的內容,但在時序匹配上不足;另外RAG知識是相對靜態(tài)的,如果要更新信息,則需要高昂的成本支持。

  基于此,EverMemOS應運而生。

  學習大腦記憶機制,成了

  啟發(fā)于腦科學技術的研究成果,盛大一直以來非常重視長期記憶領域的研究。早在2024年10月,盛大團隊就對外發(fā)布了長期記憶領域的綱領性文章《Long Term Memory-The Foundation of AI Self-Evolution》。

  基于盛大多個團隊在該領域的持續(xù)積累,EverMind在2025年8月正式啟動EverMemOS項目,并于11月對外正式發(fā)布開源版本。

  EverMemOS是EverMind打造的首款AI記憶基礎設施,對比同賽道團隊,似乎姍姍來遲。

  Mem0、Zep等產品最早都能追溯到2024年,現在商業(yè)化最成功的開發(fā)者框架Letta(原MemGPT)也是2023年就開始起步。

  EverMemOS卻交出了亮眼的答卷:最晚入場,但效果彎道超車。

  從技術角度看,它同時繼承了基于外部存儲和基于隱狀態(tài)兩種路徑。不過業(yè)內并非沒有嘗試過此類方案,但EverMind顯然在記憶提取的精準度和邏輯一致性上實現了更優(yōu)的平衡。

  原因在于EverMind抓住了精髓,用鄧亞峰的話說,就是:

  通過EverMemOS,我們賦予智能體一個活的、不斷演化的歷史。

  這里的關鍵詞其實是“活的”。那么如何能保存最鮮活的記憶呢?人類大腦。

  這就引出了EverMind的獨特思路——生物啟發(fā)。

  具體來講,EverMemOS通過模擬人類記憶的形成并轉化為計算框架,利用三階段層層遞進以實現大模型長期記憶的存儲和提。

  Step 1:情景軌跡構建。

  對應人腦的海馬體和內嗅皮層,可以將連續(xù)的對話內容拆分成一個個獨立的記憶單元(MemCell),每個單元里不僅記錄有完整的聊天內容,還包括一些關鍵事實、時效信息等。

  Step 2:語義整合。

  類比新皮層(前額葉皮層+顳葉皮層),系統(tǒng)會將內容相關的記憶單元歸類在一起,形成主題化的記憶場景(MemScene),同時還會更新用戶畫像,區(qū)分用戶的長期穩(wěn)定偏好和短期臨時狀態(tài)。

  Step 3:重構式回憶。

  這一步對應的是前額葉皮層和海馬體的協(xié)同機制,當用戶提問時,系統(tǒng)就會在記憶場景的引導下進行智能檢索,只挑選出必要且足夠的記憶內容,用于后續(xù)的推理任務。

  由此,AI學會像人類一樣記憶——這不僅是知識的數據庫存儲,更是認知系統(tǒng)的深度整合。如此一來,即便是在多個Agent之間,也能實現信息的高效傳遞。

  至于效果如何,咱們還是眼見為實,看看基準測試結果。

  團隊選取了4個主流記憶基準測試,以及多種大模型記憶增強方法。所有方法都基于同一基礎大模型(GPT-4o-mini或GPT-4.1-mini)進行測試。

  結果也很明顯,EverMemOS大獲全勝,全面超越現有記憶系統(tǒng)和全上下文模型。

  中在LoCoMo上,準確率直接一躍來到93.05%,尤其是在多跳推理和時序任務上表現突出,分別提升19.7%和16.1%,同時token使用量和計算成本得到大幅度降低。

  在多會話對話評估LongMemEval里,EverMemOS同樣以83%的準確率位居榜首,說明在面對跨度極大、信息量極高的場景中,EverMemOS依舊能夠精準檢索和關聯(lián)到過去的信息,并且通過持續(xù)交流還會不斷進化完善自己。

  HaluMem由MemTensor和中國電信研究院聯(lián)合發(fā)布,是業(yè)界首個面向AI記憶系統(tǒng)的操作級幻覺評估基準。而EverMemOS在保證記憶完整性的同時,也顯著改善了幻覺現象。

  在PersonaMem v2里,EverMemOS在九個復雜場景中依舊全場最佳,保證了深度個性化和行為一致性。

  足以見得,EverMemOS是相當全能的一枚選手,記性好、搜得準,關鍵還運行速度快、成本還夠低,最長可突破百兆上下文限制。

  一邊幫大模型減負,一邊幫大模型補記憶力,堪稱大模型版安神補腦液。

   廣告