CLIP对比学习图像-文本对齐原理

Question

CLIP（Contrastive Language-Image Pre-training）通过对比学习对齐视觉和语言表示。请解释CLIP的双塔架构、对比损失函数和Zero-shot分类能力。。AI 面试题。OpenAI 面试题

古法程序员 · Accepted Answer

CLIP由OpenAI于2021年提出，从4亿图文对中学习联合视觉-语言表示，成为多模态学习的基石。 双塔架构（Two-Tower Architecture）： 图像编码器：ViT（Vision Transformer）或ResNet，将图像映射为d维向量I_i。 文本编码器：Transformer，将文本描述映射为d维向量T_j。 两个编码器在训练中同步优化，将图文投影到共享的嵌入空间。 对比损失函数（Contrastive Loss）： 训练目标：最大化N个图文对中正确配对的余弦相似度，最小化错误配对的相似度。 对称交叉熵损失（Symmetric Cross-Entropy）： l(i, j) = -log(exp(sim(I_i, T_j)/τ) / Σ_{k=1}^N exp(sim(I_i, T_k)/τ)) 对每张图像i，在所有文本中找到对应的文本j。 对称地，对每个文本j，在所有图像中找到对应的图像i。 τ（温度系数）：可学习的缩放参数，控制分布的锐利程度。 批量大小N的大小很重要：N越大，负样本越多，对比学习效果越好。 训练数据： 从互联网收集的4亿（图像, 文本）对...

CLIP对比学习图像-文本对齐原理

回答

古法程序员