VLA/VLM#

MemoryVLA#

MEMORYVLA: PERCEPTUAL-COGNITIVE MEMORY IN VISION-LANGUAGE-ACTION MODELS FOR ROBOTIC MANIPULATION

只是在Prismatic VLM基础上加了一个记忆模块，使用了多个benchmark（包括仿真的、真实的）

记忆模块

MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation

在 $\pi_0$ 基础上加了记忆模块

记忆模块设计

核心思想：利用历史的专家正确执行轨迹来指导当前的指令执行，并不只是取出记忆让VLA记住之前发生过什么
- 将演示动作序列记忆分割成段，之后根据机器人当前轨迹与训练演示之间的相似性来匹配记忆轨迹
- 利用类似MemoryVLA的门控Gate来同时借鉴当前记忆与记忆库中检索出的记忆：
  $\mathbf{A}_t^{\text{MemAug}} = \alpha_t \mathbf{A}_t^{\text{mem}} + (1 - \alpha_t) \mathbf{A}_t^{\text{base}}$

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

分为短时记忆和长时记忆:

短时记忆存一系列图像
- 针对输入图像带来的推理延迟问题，设计了高效的视频编码架构
- 视频编码器：扩展了视觉 Transformer（ViT），在将编码输入 VLM 主干网络之前，先对时间维度上的帧进行压缩
长时记忆存文本
- 存储解决任务过程中发生的先前语义事件的摘要，例如：
- 将任务指令+任务是否成功的标记输入给LLM，让LLM总结并精简，然后保存到记忆库中，所以这个架构是把是否成功考虑进去的

CAUTION
和之前想的思路极为相似（短+长记忆，长记忆只存执行过的操作文本），但是只是取出了记忆让模型记住之前发生过什么，并没有从记忆中获得指导

Generative agents: Interactive simulacra of human behavior

在沙盒环境中部署25个LLM智能体，核心贡献是提出记忆、检索、反思、计划架构，打破传统NPC限制，涌现出真实的长期规划与社交行为。

记忆流 (Memory Stream)：按时间序列记录所有观察和想法的全局数据库。
检索 (Retrieval)：通过三维函数计算优先级，提取最相关记忆作为上下文：

$Score = Recency + Importance + Relevance$

(最近性 + LLM评估的绝对重要性 + 向量语义相关度)
反思 (Reflection)：当最新记忆重要性得分累计达标时触发。LLM将底层碎片信息归纳为高层洞察 (Insight)，作为新节点存回记忆流。

亮点：
- 突破上下文瓶颈：“检索+反思”起到了完美的信息压缩作用。
- 认知动态演化：支持从基础观察提炼高级经验，维持长期人设一致性。
不足：
- 计算开销极大：频繁依赖LLM调用打分与总结，性能延迟高。
- 逻辑任务短板：基于语义和衰减的检索偏向社交闲聊，在数学推理或复杂代码工程等强逻辑场景中，极易丢失关键状态变量，导致逻辑链条断裂。
- 错误级联：反思阶段生成的幻觉会被作为高权重新记忆存入，导致智能体后续的推理产生不可逆的认知偏差