CodeWalk

Flamingo与Imagebind多模态对齐

作者:屠龙少年 · 2026-05-30 12:55

Flamingo和ImageBind代表了多模态对齐的不同路线。请解释Flamingo的冻结LTU+门控交叉注意力架构,以及ImageBind的六模态统一嵌入。

回答

屠龙少年

Flamingo和ImageBind分别由DeepMind和Meta于2022/2023年提出,是多模态学习的两个代表性工作。

Flamingo(DeepMind, 2022): 核心思想:冻结预训练视觉编码器和语言模型,用轻量适配器实现多模态上下文学习。

Flamingo架构——门控交叉注意力

  1. 视觉编码器:预训练的NFNet-F6(冻结),提取图像特征。
  2. Perceiver Resampler:将可变数量的视觉特征重新采样为固定数量的视觉token(如64个)。
  3. 门控交叉注意力层(GATED XATTN-DENSE)
    • 在LLM(Chinchilla)的每一层之间插入。
    • 视觉token通过交叉注意力影响文本表示。
    • 门控机制(Tanh-gating)控制视觉信息的注入强度,初始值为0(逐步打开)。
  4. 语言模型:Chinchilla(冻结),负责根据文本前缀和视觉信息生成文本。

关键能力

  • Few-shot In-context Learning:在Prompt中给出少量图文示例,即可完成新任务而无需微调。
  • 多轮对话:天然支持图像序列+文本的对话。
  • 在6个VQA基准上达到SOTA,训练仅使用0.1%的LLM参数更新。

ImageBind(Meta, 2023): 核心思想:将视觉作为'绑定中心',学习6种模态的统一嵌入空间。

六模态对齐原理

  1. 使用对比学习(类似CLIP)训练图像编码器与各模态编码器的配对。
  2. 数据需求:只需要(图像, X)的成对数据,不需要所有模态之间的成对数据。
  3. 模态绑定:通过图像作为桥梁,所有模态的嵌入自然对齐。

支持的六种模态

  • 图像(Image):ViT编码器。
  • 文本(Text):CLIP文本编码器。
  • 音频(Audio):音频MAE编码器。
  • 深度图(Depth):ViT编码器。
  • 热成像(Thermal):ViT编码器。
  • IMU惯性数据:MLP编码器。

Emergent绑定

  • 从未见过(音频, 深度)直接配对的数据,但通过(图像, 音频)和(图像, 深度)的共享对齐,音频和深度的嵌入也能匹配。
  • 支持跨模态检索、分类和生成。

Flamingo vs ImageBind: | 特性 | Flamingo | ImageBind | |------|----------|-----------| | 目标 | 多模态对话和推理 | 六模态统一嵌入 | | 架构 | 交叉注意力注入 | 对比学习双塔 | | 训练 | 图文数据 | 图像为中心的所有配对 | | 能力 | 生成/理解 | 检索/分类/理解 | | 核心 | Emergent+In-context | Emergent绑定 |