VLA/VLM
MemoryVLA
MEMORYVLA: PERCEPTUAL-COGNITIVE MEMORY IN VISION-LANGUAGE-ACTION MODELS FOR ROBOTIC MANIPULATION
只是在Prismatic VLM基础上加了一个记忆模块,使用了多个benchmark(包括仿真的、真实的)

记忆模块
- 嵌入位置编码,通过VLM将RGB observation and language instruction编码成token作为记忆存入
- 检索时,检索相似的记忆,然后会通过一个Gate来决定参考检索出的记忆的程度
- 当记忆库满了,会挑选相邻时间步的、最相似的轨迹取平均值进行合并(个人认为这种合并效果很差)

MAP-VLA
MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation
在 基础上加了记忆模块

记忆模块设计
-
核心思想:利用历史的专家正确执行轨迹来指导当前的指令执行,并不只是取出记忆让VLA记住之前发生过什么
-
将演示动作序列记忆分割成段,之后根据机器人当前轨迹与训练演示之间的相似性来匹配记忆轨迹
-
利用类似MemoryVLA的门控Gate来同时借鉴当前记忆与记忆库中检索出的记忆:
-
-

MEM
MEM: Multi-Scale Embodied Memory for Vision Language Action Models
分为短时记忆和长时记忆:
- 短时记忆存一系列图像
- 针对输入图像带来的推理延迟问题,设计了高效的视频编码架构

- 视频编码器:扩展了视觉 Transformer(ViT),在将编码输入 VLM 主干网络之前,先对时间维度上的帧进行压缩
- 长时记忆存文本
- 存储解决任务过程中发生的先前语义事件的摘要,例如:

- 将任务指令+任务是否成功的标记输入给LLM,让LLM总结并精简,然后保存到记忆库中,所以这个架构是把是否成功考虑进去的
CAUTION和之前想的思路极为相似(短+长记忆,长记忆只存执行过的操作文本),但是只是取出了记忆让模型记住之前发生过什么,并没有从记忆中获得指导
Agent
Generative agents
工作概况
在沙盒环境中部署25个LLM智能体,核心贡献是提出记忆、检索、反思、计划架构,打破传统NPC限制,涌现出真实的长期规划与社交行为。
记忆机制
-
记忆流 (Memory Stream):按时间序列记录所有观察和想法的全局数据库。
-
检索 (Retrieval):通过三维函数计算优先级,提取最相关记忆作为上下文:
(最近性 + LLM评估的绝对重要性 + 向量语义相关度)
-
反思 (Reflection):当最新记忆重要性得分累计达标时触发。LLM将底层碎片信息归纳为高层洞察 (Insight),作为新节点存回记忆流。
优缺点
- 亮点:
- 突破上下文瓶颈:“检索+反思”起到了完美的信息压缩作用。
- 认知动态演化:支持从基础观察提炼高级经验,维持长期人设一致性。
- 不足:
- 计算开销极大:频繁依赖LLM调用打分与总结,性能延迟高。
- 逻辑任务短板:基于语义和衰减的检索偏向社交闲聊,在数学推理或复杂代码工程等强逻辑场景中,极易丢失关键状态变量,导致逻辑链条断裂。
- 错误级联:反思阶段生成的幻觉会被作为高权重新记忆存入,导致智能体后续的推理产生不可逆的认知偏差
总结:打分机制或许可以借鉴到记忆检索、更新中