930 words
5 minutes
记忆机制概述

VLA/VLM#

MemoryVLA#

MEMORYVLA: PERCEPTUAL-COGNITIVE MEMORY IN VISION-LANGUAGE-ACTION MODELS FOR ROBOTIC MANIPULATION

只是在Prismatic VLM基础上加了一个记忆模块,使用了多个benchmark(包括仿真的、真实的)

image-20260312162210188

记忆模块

  • 嵌入位置编码,通过VLM将RGB observation and language instruction编码成token作为记忆存入
  • 检索时,检索相似的记忆,然后会通过一个Gate来决定参考检索出的记忆的程度
  • 当记忆库满了,会挑选相邻时间步的、最相似的轨迹取平均值进行合并(个人认为这种合并效果很差
  • image-20260312162917615

MAP-VLA#

MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation

π0\pi_0 基础上加了记忆模块

image-20260311162113122

记忆模块设计

  • 核心思想:利用历史的专家正确执行轨迹来指导当前的指令执行,并不只是取出记忆让VLA记住之前发生过什么

    • 将演示动作序列记忆分割成段,之后根据机器人当前轨迹与训练演示之间的相似性来匹配记忆轨迹

    • 利用类似MemoryVLA的门控Gate来同时借鉴当前记忆与记忆库中检索出的记忆:

      AtMemAug=αtAtmem+(1αt)Atbase\mathbf{A}_t^{\text{MemAug}} = \alpha_t \mathbf{A}_t^{\text{mem}} + (1 - \alpha_t) \mathbf{A}_t^{\text{base}}
  • image-20260312164538316

MEM#

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

分为短时记忆长时记忆:

  • 短时记忆存一系列图像
    • 针对输入图像带来的推理延迟问题,设计了高效的视频编码架构
    • image-20260312150422251
    • 视频编码器:扩展了视觉 Transformer(ViT),在将编码输入 VLM 主干网络之前,先对时间维度上的帧进行压缩
  • 长时记忆存文本
    • 存储解决任务过程中发生的先前语义事件的摘要,例如:
    • image-20260312150753215
    • 任务指令+任务是否成功的标记输入给LLM,让LLM总结并精简,然后保存到记忆库中,所以这个架构是把是否成功考虑进去的
CAUTION

和之前想的思路极为相似(短+长记忆,长记忆只存执行过的操作文本),但是只是取出了记忆让模型记住之前发生过什么,并没有从记忆中获得指导

Agent#

Generative agents#

Generative agents: Interactive simulacra of human behavior

工作概况#

在沙盒环境中部署25个LLM智能体,核心贡献是提出记忆、检索、反思、计划架构,打破传统NPC限制,涌现出真实的长期规划与社交行为。

记忆机制#

  • 记忆流 (Memory Stream):按时间序列记录所有观察和想法的全局数据库。

  • 检索 (Retrieval):通过三维函数计算优先级,提取最相关记忆作为上下文:

    Score=Recency+Importance+RelevanceScore = Recency + Importance + Relevance

    (最近性 + LLM评估的绝对重要性 + 向量语义相关度)

  • 反思 (Reflection):当最新记忆重要性得分累计达标时触发。LLM将底层碎片信息归纳为高层洞察 (Insight),作为新节点存回记忆流。

优缺点#

  • 亮点
    • 突破上下文瓶颈:“检索+反思”起到了完美的信息压缩作用。
    • 认知动态演化:支持从基础观察提炼高级经验,维持长期人设一致性。
  • 不足
    • 计算开销极大:频繁依赖LLM调用打分与总结,性能延迟高。
    • 逻辑任务短板:基于语义和衰减的检索偏向社交闲聊,在数学推理或复杂代码工程等强逻辑场景中,极易丢失关键状态变量,导致逻辑链条断裂。
    • 错误级联:反思阶段生成的幻觉会被作为高权重新记忆存入,导致智能体后续的推理产生不可逆的认知偏差

总结:打分机制或许可以借鉴到记忆检索、更新中

记忆机制概述
https://hyan1ce.github.io/posts/papers-reading/memory-methods/
Author
IceHyan
Published at
2026-03-10
License
CC BY-NC-SA 4.0