CLIP (Contrastive Language-Image Pre-training) 学习

张开发
2026/4/11 4:39:52 15 分钟阅读

分享文章

CLIP (Contrastive Language-Image Pre-training) 学习
1. 核心思想与研究动机传统的计算机视觉模型如基于 ImageNet 预训练的模型依赖于预先定义好的固定类别Closed-set和密集的人工标注。一旦遇到训练集以外的类别模型便无法识别。 CLIP 的核心贡献在于打破了固定标签的限制通过引入自然语言作为监督信号在海量4亿的“图像-文本对”上进行跨模态对比学习Contrastive Learning。这使得 CLIP 将图像和文本映射到了同一个共享的特征空间中从而具备了极其强大的Zero-Shot零样本泛化能力。2. 模型架构设计CLIP 的结构非常简洁对称由双流Two-Stream编码器组成Image Encoder (图像编码器):负责提取图像的全局特征表示。CLIP 论文中探索了两种架构修改版的 ResNet如 ResNet-50, ResNet-101 以及引入 Attention Pooling 的 ResNet-50x4 等。Vision Transformer (ViT)将图像切分为 Patch 序列进行处理。Text Encoder (文本编码器):负责提取文本的特征表示。采用基于 Transformer 的架构类似于 GPT-2使用 Byte Pair Encoding (BPE) 对文本进行 Tokenize。文本序列的最大长度限制为 76序列末尾[EOS]Token 对应的特征向量被用来表示整个句子的全局特征。(注两个编码器输出的特征会通过一个线性投影层 Projector 映射到相同的维度并进行 L2 归一化。)3. 核心机制对比学习与损失函数CLIP 不使用传统的交叉熵分类损失即不预测具体是哪个词而是预测图像和文本是否配对。在训练阶段给定一个大小为 N的 Batch包含 N 对图文数据。模型通过以下步骤计算损失特征提取分别得到 N 个图像特征向量和 N 个文本特征向量。相似度矩阵计算这 N个图像特征和 N 个文本特征两两之间的余弦相似度Cosine Similarity构成一个的矩阵。正负样本定义矩阵对角线上的 N个元素是匹配的图文对正样本需要最大化其相似度其余个元素是不匹配的负样本需要最小化其相似度。损失函数计算使用带有温度参数的对称交叉熵损失Symmetric Cross-Entropy Loss。设为第个图像的归一化特征为第个文本的归一化特征图像到文本 (Image-to-Text) 的对比损失文本到图像 (Text-to-Image) 的对比损失总损失为两个方向损失的平均值(其中为可学习的温度参数 Temperature用于缩放 logits避免模型在训练初期过于自信)4. Zero-Shot 推理范式在预训练完成后CLIP 可以直接用于任意图像的分类而无需微调Fine-tuning。Prompt Engineering (提示工程):将需要分类的类别名称如 dog, cat, car填入一个预设的文本模板中例如A photo of a {label}.。这样可以弥合预训练数据多为完整的句子描述和推理数据单个单词之间的分布差异。特征匹配:1. 使用 Text Encoder 计算所有模板句子的文本特征。2. 使用 Image Encoder 计算待测图像的图像特征。3. 计算该图像特征与所有文本特征的余弦相似度并经过 Softmax 转化为概率分布。4. 相似度得分最高对应的 Label 即为分类结果。5. 对下游任务的启发以目标检测为例CLIP 的出现催生了Open-Vocabulary Object Detection (OVD开放词汇目标检测)领域的爆发。传统检测器如 DETR 系列受限于固定类别的 Bounding Box 标注。利用 CLIP 的多模态对齐能力研究者现在通过特征蒸馏Feature Distillation或区域-文本对齐Region-Text Alignment将 CLIP 强大的全局语义知识转移到检测器的局部区域特征Region Proposals/Queries上。这使得检测器能够识别并定位出在训练集中从未见过的新类别。6. 局限性与改进空间细粒度理解不足虽然全局语义匹配强大但在涉及复杂的关系理解、计数问题如“有几只鸟”、绝对距离评估以及极小目标的细微差别区分上表现仍然较弱。数据效率CLIP 属于数据驱动的暴力美学极度依赖海量的数据规模400M 对和超大的 Batch Size32768训练成本极其昂贵。领域泛化对于一些完全脱离自然图像分布的抽象任务如专业的医疗影像、特定光谱的遥感图像如果预训练集中未曾覆盖Zero-Shot 性能会大幅衰减。

更多文章