Flamingo与Imagebind多模态对齐
Flamingo和ImageBind代表了多模态对齐的不同路线。请解释Flamingo的冻结LTU+门控交叉注意力架构,以及ImageBind的六模态统一嵌入。
回答
屠龙少年
Flamingo和ImageBind分别由DeepMind和Meta于2022/2023年提出,是多模态学习的两个代表性工作。
Flamingo(DeepMind, 2022): 核心思想:冻结预训练视觉编码器和语言模型,用轻量适配器实现多模态上下文学习。
Flamingo架构——门控交叉注意力:
- 视觉编码器:预训练的NFNet-F6(冻结),提取图像特征。
- Perceiver Resampler:将可变数量的视觉特征重新采样为固定数量的视觉token(如64个)。
- 门控交叉注意力层(GATED XATTN-DENSE):
- 在LLM(Chinchilla)的每一层之间插入。
- 视觉token通过交叉注意力影响文本表示。
- 门控机制(Tanh-gating)控制视觉信息的注入强度,初始值为0(逐步打开)。
- 语言模型:Chinchilla(冻结),负责根据文本前缀和视觉信息生成文本。
关键能力:
- Few-shot In-context Learning:在Prompt中给出少量图文示例,即可完成新任务而无需微调。
- 多轮对话:天然支持图像序列+文本的对话。
- 在6个VQA基准上达到SOTA,训练仅使用0.1%的LLM参数更新。
ImageBind(Meta, 2023): 核心思想:将视觉作为'绑定中心',学习6种模态的统一嵌入空间。
六模态对齐原理:
- 使用对比学习(类似CLIP)训练图像编码器与各模态编码器的配对。
- 数据需求:只需要(图像, X)的成对数据,不需要所有模态之间的成对数据。
- 模态绑定:通过图像作为桥梁,所有模态的嵌入自然对齐。
支持的六种模态:
- 图像(Image):ViT编码器。
- 文本(Text):CLIP文本编码器。
- 音频(Audio):音频MAE编码器。
- 深度图(Depth):ViT编码器。
- 热成像(Thermal):ViT编码器。
- IMU惯性数据:MLP编码器。
Emergent绑定:
- 从未见过(音频, 深度)直接配对的数据,但通过(图像, 音频)和(图像, 深度)的共享对齐,音频和深度的嵌入也能匹配。
- 支持跨模态检索、分类和生成。
Flamingo vs ImageBind: | 特性 | Flamingo | ImageBind | |------|----------|-----------| | 目标 | 多模态对话和推理 | 六模态统一嵌入 | | 架构 | 交叉注意力注入 | 对比学习双塔 | | 训练 | 图文数据 | 图像为中心的所有配对 | | 能力 | 生成/理解 | 检索/分类/理解 | | 核心 | Emergent+In-context | Emergent绑定 |