Input Projector（输入投影层）

张开发

• 2026/4/9 22:43:39 • 15 分钟阅读

分享文章

目录一、MLP二、Q-FormerBLIP-21. 工作原理三、Cross-Attention Adapter1. 基本原理2. 计算过程3. 应用场景4. 优势与特点四、Perceiver ResamplerFlamingo1. 技术原理一、MLPprojector nn.Sequential( nn.Linear(768, 4096), nn.GELU(), nn.Linear(4096, 4096) )用于 LLaVA、MiniGPT-4简单高效常用于冻结 encoder 场景二、Q-FormerBLIP-2Q-former是一种专门设计用于跨模态任务的Transformer模型。由BLIP2提出目的是在视觉特征和语言模型之间建立高效的桥梁从而提高大规模预训练语言模型如 GPT、T5在多模态任务中的表现。1. 工作原理输入嵌入将输入的数据如文本、图像等转换为固定维度的向量表示。对于文本数据常用的方法包括词嵌入Word Embedding和上下文嵌入Contextual Embedding对于图像数据则可能采用卷积神经网络CNN或视觉TransformerViT等模型进行特征提取;查询生成生成一组用于检索的查询向量。这些查询向量是模型在训练过程中学习得到的能够捕捉到输入数据中的关键信息交互层实现查询向量和输入嵌入向量之间的交互。常用的方法是通过点积注意力机制计算查询向量和输入嵌入向量之间的相关性并据此生成最终的输出表示三、Cross-Attention Adapter多模态Cross-Attention是一种用于处理多模态数据例如图像和文本的技术。它通过在不同模态之间建立联系增强了模态的表示能力1. 基本原理Cross Attention 的基本思想是利用一种模态的信息来增强另一种模态的表示。其核心操作是注意力机制这种机制最初被引入Transfromer模型中用于在序列建模任务中捕捉远距离依赖关系。在Cross Attention中通常有三个关键组件查询(query、键(key)和值(value)。这些组件来自不同的模态。例如在图像和文本结合的任务中Query可能来自文本模态的表示而key和value则可能来自图像模态的表示。2. 计算过程计算Query与所有Key的点积以评估输入序列中每个元素与当前解码位置的相关性。通过Softmax函数对点积结果进行归一化转换为概率分布表明各个元素对于当前解码步骤的重要性使用归一化后的概率分布作为权重对value 进行加权求和得到上下文表示。3. 应用场景图像描述生成Cross Attention允许模型在生成文本时关注图像中的关键区域从而生成更加准确和生动的描述视觉问答:模型根据输入的图像和文本问题生成答案。Cross Attention可以帮助模型理解图像和问题之间的语义关系从而生成更加准确的答案机器翻译Cross Attention在处理序列到序列的任务时表现出色。它允许编码器在生成每个词时考虑整个输入句子的语境从而生成更加连贯的翻译结果多模态检索4. 优势与特点融合不同模态的信息增强模型的可解释性灵活性和可扩展性四、Perceiver ResamplerFlamingo结构如下图所示1. 技术原理1.可学习 Query 向量Latent Queriesqueries nn.Parameter(torch.randn(K, D)) # K64, D1024这些 query 是可学习的“信息提取器”2.Cross-Attention 模块output cross_attention( queryqueries, # [K, D] keyimage_features, # [N, D] valueimage_features # [N, D] )每个 query 向量从所有图像 patch 中“检索”相关信息输出仍是[K, D]3. 多层堆叠可选多个 cross-attention 层堆叠增强表达能力

更多文章

前端开发 2026/4/9 22:55:38

终极PyJWT指南：Python中JSON Web Token的完整实现教程

终极PyJWT指南：Python中JSON Web Token的完整实现教程【免费下载链接】pyjwt JSON Web Token implementation in Python 项目地址: https://gitcode.com/gh_mirrors/py/pyjwt PyJWT是Python中实现JSON Web Token（JWT）的权威库&#x…

张开发

前端开发 2026/4/9 22:01:11

终极指南：如何掌握Ramjet动画中元素堆叠顺序实现丝滑变换效果

终极指南：如何掌握Ramjet动画中元素堆叠顺序实现丝滑变换效果【免费下载链接】ramjet Morph DOM elements from one state to another with smooth animations and transitions 项目地址: https://gitcode.com/gh_mirrors/ra/ramjet Ramjet是一个强大的Java…

张开发

前端开发 2026/4/8 22:36:35

Theatre.js构建工具插件：5个必备扩展提升Web动画开发效率

Theatre.js构建工具插件：5个必备扩展提升Web动画开发效率【免费下载链接】theatre Motion design editor for the web 项目地址: https://gitcode.com/gh_mirrors/th/theatre Theatre.js 是一款强大的Web动画设计编辑器，专为创建高质量运动图形而…

张开发

前端开发 2026/4/9 12:17:22

如何掌握Naivechain区块链分叉处理：应对网络分裂的完整指南

如何掌握Naivechain区块链分叉处理：应对网络分裂的完整指南【免费下载链接】naivechain A blockchain implementation in 200 lines of code 项目地址: https://gitcode.com/gh_mirrors/na/naivechain 在区块链技术的世界中，分叉处理是确保网络一…

张开发

前端开发 2026/4/10 0:59:19

HardSourceWebpackPlugin自定义开发：如何扩展新的序列化器和插件

HardSourceWebpackPlugin自定义开发：如何扩展新的序列化器和插件【免费下载链接】hard-source-webpack-plugin 项目地址: https://gitcode.com/gh_mirrors/ha/hard-source-webpack-plugin HardSourceWebpackPlugin是Webpack生态系统中一个强大的缓存插件&a…

张开发

前端开发 2026/4/7 17:19:30

解锁5大核心能力：猫抓Cat-Catch资源嗅探工具完全指南

解锁5大核心能力：猫抓Cat-Catch资源嗅探工具完全指南【免费下载链接】cat-catch 猫抓浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓Cat-Catch是一款高效的浏览器…

张开发

前端开发 2026/4/10 0:34:32

如何构建ElasticJob监控大盘：关键指标与业务监控融合实践指南

如何构建ElasticJob监控大盘：关键指标与业务监控融合实践指南【免费下载链接】shardingsphere-elasticjob Distributed scheduled job 项目地址: https://gitcode.com/gh_mirrors/shar/shardingsphere-elasticjob ElasticJob作为一款分布式调度任务框架&…

张开发

前端开发 2026/4/9 23:04:34

如何在uni-app中实现QQ小程序社交功能：完整开发指南

如何在uni-app中实现QQ小程序社交功能：完整开发指南【免费下载链接】hello-uniapp uni-app框架演示示例项目地址: https://gitcode.com/gh_mirrors/he/hello-uniapp uni-app作为一款强大的跨平台应用开发框架，能够帮助开发者快速构建包含QQ小程…

张开发

前端开发 2026/4/9 22:55:40

零基础新手指南：通过快马生成你的第一个coze对话机器人代码

作为一个刚接触编程的新手，最近在InsCode(快马)平台尝试做了一个特别有意思的实践项目——用coze开发一个电影推荐对话机器人。整个过程比我预想的简单很多，特别适合零基础的朋友入门AI应用开发。下面就把我的学习过程和经验分享给大家。项目构思阶段我…

张开发

前端开发 2026/4/9 17:25:17

2025届毕业生推荐的AI科研网站解析与推荐

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在当下这个学术写作的环境当中，论文AI工具已然变成了研究者用来提高效率的极为重…

张开发

前端开发 2026/4/10 11:02:17

为什么Froala Editor是下一代WYSIWYG编辑器的终极选择：5个关键理由

为什么Froala Editor是下一代WYSIWYG编辑器的终极选择：5个关键理由【免费下载链接】wysiwyg-editor The next generation Javascript WYSIWYG HTML Editor. 项目地址: https://gitcode.com/gh_mirrors/wy/wysiwyg-editor Froala Editor是下一代JavaScript W…

张开发

前端开发 2026/4/8 16:30:28

如何配置Web Scrobbler连接Last.fm、Libre.fm等5大音乐平台：终极指南

如何配置Web Scrobbler连接Last.fm、Libre.fm等5大音乐平台：终极指南【免费下载链接】web-scrobbler Scrobble music all around the web! 项目地址: https://gitcode.com/gh_mirrors/we/web-scrobbler Web Scrobbler是一款功能强大的浏览器扩展&#xff0c…

张开发

Input Projector（输入投影层）

最新文章

CKKS 同态加密数学基础推导垦

PyCharm高效搜索与导航：从文件内定位到全局追溯

猫抓Cat-Catch：三步轻松下载网页视频的终极浏览器扩展指南

保姆级避坑指南：Vue + DeepSeek构建聊天机器人时，你可能会遇到的5个常见问题

R环境污染数据建模案例复盘（2023真实项目全链路溯源）

Pixel Couplet Gen基础教程：3步完成Retro Game UI春联生成环境配置

推荐文章

CSS Scroll Snap：打造丝滑滚动体验

【2026年最新600套毕设项目分享】springboot高校学习讲座预约系统（14328）

STM32H7 USB复合设备库：CDC+MSC+SDMMC一体化固件

STM32异步Web服务器：零拷贝HTTP/WS工业网关实战

Linux命令-nc（用于设置路由器，是网络工具中的瑞士军刀）

【电池损耗+需求响应】考虑电池储能寿命与需求响应模型的发电计划优化程序Matlab代码

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

终极PyJWT指南：Python中JSON Web Token的完整实现教程

终极指南：如何掌握Ramjet动画中元素堆叠顺序实现丝滑变换效果

Theatre.js构建工具插件：5个必备扩展提升Web动画开发效率

如何掌握Naivechain区块链分叉处理：应对网络分裂的完整指南

HardSourceWebpackPlugin自定义开发：如何扩展新的序列化器和插件

解锁5大核心能力：猫抓Cat-Catch资源嗅探工具完全指南

如何构建ElasticJob监控大盘：关键指标与业务监控融合实践指南

如何在uni-app中实现QQ小程序社交功能：完整开发指南

零基础新手指南：通过快马生成你的第一个coze对话机器人代码

2025届毕业生推荐的AI科研网站解析与推荐

为什么Froala Editor是下一代WYSIWYG编辑器的终极选择：5个关键理由

如何配置Web Scrobbler连接Last.fm、Libre.fm等5大音乐平台：终极指南