Input Projector(输入投影层)

张开发
2026/4/9 22:43:39 15 分钟阅读

分享文章

Input Projector(输入投影层)
目录一、MLP二、Q-FormerBLIP-21. 工作原理三、Cross-Attention Adapter1. 基本原理2. 计算过程3. 应用场景4. 优势与特点四、Perceiver ResamplerFlamingo1. 技术原理一、MLPprojector nn.Sequential( nn.Linear(768, 4096), nn.GELU(), nn.Linear(4096, 4096) )用于 LLaVA、MiniGPT-4简单高效常用于冻结 encoder 场景二、Q-FormerBLIP-2Q-former是一种专门设计用于跨模态任务的Transformer模型。由BLIP2提出目的是在视觉特征和语言模型之间建立高效的桥梁从而提高大规模预训练语言模型如 GPT、T5在多模态任务中的表现。1. 工作原理输入嵌入将输入的数据如文本、图像等转换为固定维度的向量表示。对于文本数据常用的方法包括词嵌入Word Embedding和上下文嵌入Contextual Embedding对于图像数据则可能采用卷积神经网络CNN或视觉TransformerViT等模型进行特征提取;查询生成生成一组用于检索的查询向量。这些查询向量是模型在训练过程中学习得到的能够捕捉到输入数据中的关键信息交互层实现查询向量和输入嵌入向量之间的交互。常用的方法是通过点积注意力机制计算查询向量和输入嵌入向量之间的相关性并据此生成最终的输出表示三、Cross-Attention Adapter多模态Cross-Attention是一种用于处理多模态数据例如图像和文本的技术。它通过在不同模态之间建立联系增强了模态的表示能力1. 基本原理Cross Attention 的基本思想是利用一种模态的信息来增强另一种模态的表示。其核心操作是注意力机制这种机制最初被引入Transfromer模型中用于在序列建模任务中捕捉远距离依赖关系。在Cross Attention中通常有三个关键组件查询(query、键(key)和值(value)。这些组件来自不同的模态。例如在图像和文本结合的任务中Query可能来自文本模态的表示而key和value则可能来自图像模态的表示。2. 计算过程计算Query与所有Key的点积以评估输入序列中每个元素与当前解码位置的相关性。通过Softmax函数对点积结果进行归一化转换为概率分布表明各个元素对于当前解码步骤的重要性使用归一化后的概率分布作为权重对value 进行加权求和得到上下文表示。3. 应用场景图像描述生成Cross Attention允许模型在生成文本时关注图像中的关键区域从而生成更加准确和生动的描述视觉问答:模型根据输入的图像和文本问题生成答案。Cross Attention可以帮助模型理解图像和问题之间的语义关系从而生成更加准确的答案机器翻译Cross Attention在处理序列到序列的任务时表现出色。它允许编码器在生成每个词时考虑整个输入句子的语境从而生成更加连贯的翻译结果多模态检索4. 优势与特点融合不同模态的信息增强模型的可解释性灵活性和可扩展性四、Perceiver ResamplerFlamingo结构如下图所示1. 技术原理1.可学习 Query 向量Latent Queriesqueries nn.Parameter(torch.randn(K, D)) # K64, D1024这些 query 是可学习的“信息提取器”2.Cross-Attention 模块output cross_attention( queryqueries, # [K, D] keyimage_features, # [N, D] valueimage_features # [N, D] )每个 query 向量从所有图像 patch 中“检索”相关信息输出仍是[K, D]3. 多层堆叠可选多个 cross-attention 层堆叠增强表达能力

更多文章