NLP 入门｜PyTorch 从零实现 Word2Vec 之 CBOW 模型

张开发

• 2026/4/11 3:33:51 • 15 分钟阅读

分享文章

在深度学习与自然语言处理NLP中如何让机器 “看懂” 人类语言是一切任务的起点。传统方法依赖 One‑Hot 编码极易造成维度灾难与语义缺失而词嵌入Word Embedding凭借低维、稠密、可表达语义的优势成为现代 NLP 的标配基础技术。Google 在 2013 年提出的Word2Vec是训练词向量最经典、最高效的算法包含CBOW与Skip‑Gram两种核心模型。本篇博客将严格按照课堂 PPT 知识点从语言向量化原理讲起深入 CBOW 模型结构与训练流程最后使用PyTorch 从零手写 CBOW 完整代码实现词向量训练、预测、提取与保存理论代码一一对应零基础也能轻松上手。一、本章核心内容语言向量化从 One‑Hot 到词嵌入 Embedding解决稀疏与维度灾难Word2Vec 原理CBOW上下文→中心词模型结构与训练步骤深度学习训练损失函数、前向 / 反向传播、参数更新实战项目PyTorch 实现 CBOW训练词向量并完成预测任务二、核心理论1. 为什么要用词嵌入One‑Hot 编码向量稀疏、维度爆炸、无语义关联词嵌入高维稀疏 → 低维稠密常用维度 100/200/300语义相近的词向量空间距离更近2. CBOW 模型核心思想以上下文单词预测中心目标词训练过程中自动学习到的嵌入层权重就是我们需要的词向量。3. CBOW 训练流程PPT上下文 One‑Hot 输入矩阵映射得到低维向量向量求和 / 平均全连接 Softmax 输出概率计算损失、反向传播更新矩阵最终保留W 矩阵作为词向量三、项目实战PyTorch 实现 CBOW 词向量训练1. 项目说明任务训练 CBOW 模型学习文本词向量输入上下文单词输出预测中心词生成稠密词向量框架PyTorch设备自动支持 CUDA/MPS/CPU2. 完整代码import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from tqdm import tqdm, trange import numpy as np # 1. 超参数设置 CONTEXT_SIZE 2 # 上下文窗口左右各取2个词对应PPT窗口设置 # 2. 语料库与词汇表 raw_text We are about to study the idea of a computational process. Computational processes are abstract beings that inhabit computers. As they evolve, processes manipulate other abstract things called data. The evolution of a process is directed by a pattern of rules called a program. People create programs to direct processes. In effect, we conjure the spirits of the computer with our spells..split() vocab set(raw_text) vocab_size len(vocab) # 单词 ↔ 索引映射 word_to_idx {word: i for i, word in enumerate(vocab)} idx_to_word {i: word for i, word in enumerate(vocab)} # 3. 构建训练数据上下文目标词 data [] for i in range(CONTEXT_SIZE, len(raw_text) - CONTEXT_SIZE): # 左2个右2个上下文 context ( [raw_text[i - (2-j)] for j in range(CONTEXT_SIZE)] [raw_text[i j 1] for j in range(CONTEXT_SIZE)] ) target raw_text[i] # 中心词标签 data.append((context, target)) # 4. 转换为模型可读取的张量 def make_context_vector(context, word_to_ix): idxs [word_to_ix[w] for w in context] return torch.tensor(idxs, dtypetorch.long) # 示例输出 print(示例上下文索引, make_context_vector(data[0][0], word_to_idx)) # 5. 自动选择训练设备 device cuda if torch.cuda.is_available() else mps if torch.backends.mps.is_available() else cpu print(训练设备, device) # 6. 定义CBOW模型对应PPT网络结构 class CBOW(nn.Module): def __init__(self, vocab_size, embedding_dim): super(CBOW, self).__init__() # 词嵌入层对应PPT W矩阵 self.embeddings nn.Embedding(vocab_size, embedding_dim) # 投影层 self.proj nn.Linear(embedding_dim, 128) # 输出层对应PPT W’矩阵 self.output nn.Linear(128, vocab_size) def forward(self, inputs): # 对上下文词向量求和CBOW核心操作 embds sum(self.embeddings(inputs)).view(1, -1) out F.relu(self.proj(embds)) out self.output(out) # 对数Softmax配合NLLLoss计算损失 nll_prob F.log_softmax(out, dim-1) return nll_prob # 7. 模型初始化 model CBOW(vocab_size, 10).to(device) optimizer optim.Adam(model.parameters(), lr0.001) loss_function nn.NLLLoss() # 多分类损失对应PPT损失函数 losses [] # 8. 模型训练 model.train() for epoch in tqdm(range(200)): total_loss 0 for context, target in data: context_vector make_context_vector(context, word_to_idx).to(device) target torch.tensor([word_to_idx[target]]).to(device) # 前向传播 train_predict model(context_vector) loss loss_function(train_predict, target) # 反向传播更新参数 optimizer.zero_grad() loss.backward() optimizer.step() total_loss loss.item() losses.append(total_loss) # 9. 模型测试预测中心词 context [People, create, to, direct] context_vector make_context_vector(context, word_to_idx).to(device) model.eval() with torch.no_grad(): predict model(context_vector) max_idx predict.argmax(1).item() print(上下文, context) print(模型预测中心词, idx_to_word[max_idx]) # 10. 提取并保存词向量PPT重点 W model.embeddings.weight.cpu().detach().numpy() # 构建单词→词向量字典 word_2_vec {} for word in word_to_idx.keys(): word_2_vec[word] W[word_to_idx[word]] # 保存为npz方便后续项目使用 np.savez(word2vec实现.npz, file_1W) load_data np.load(word2vec实现.npz) print(保存内容, load_data.files) print( 词向量训练与保存完成 )

更多文章

前端开发 2026/4/11 3:33:19

从消费者心理角度看图片翻译：为什么本地语言商品图能带来更高的点击和转化

一、一个让很多跨境卖家困惑的现象我做跨境电商这几年，发现一个很有意思的现象：有些卖家的产品图设计得并不漂亮，甚至有些简陋，但转化率却比那些图片精美的竞争对手高出一大截。反过来，有些卖家花了大价钱请专业摄影师…

第一章：MCP服务器认证体系重构实录（JWT双向mTLS设备指纹绑定），金融级鉴权落地仅需23行核心代码金融级服务对身份可信度要求极高，单一认证机制已无法满足监管合规与攻击面收敛需求。我们通过融合JWT短期会话凭证、双向m…

张开发

前端开发 2026/4/10 8:42:31

OpenClaw技能扩展实战：千问3.5-35B-A3B-FP8实现公众号多图文自动排版

OpenClaw技能扩展实战：千问3.5-35B-A3B-FP8实现公众号多图文自动排版 1. 为什么选择OpenClaw做公众号自动化上个月我运营的技术公众号需要同时处理三场活动的宣传内容，每篇都要经历Markdown转图文、封面设计、多平台发布的重复劳动。当我第7次手动调整…

张开发

NLP 入门｜PyTorch 从零实现 Word2Vec 之 CBOW 模型

最新文章

TFMini激光测距模块Arduino驱动开发与工业应用指南

PlugY插件：暗黑破坏神2单机模式必备的终极增强工具

StructBERT零样本分类-中文-base多场景：政务12345热线、教育问答、金融风控三合一应用

点云处理入门：手把手教你理解VoxelNet与PointPillars的核心模块

从零到一：手把手教你部署华为FusionCompute 8.0虚拟化平台（附避坑指南）

Vue3 动态导入与静态导入的示例对比

推荐文章

CSS Scroll Snap：打造丝滑滚动体验

【2026年最新600套毕设项目分享】springboot高校学习讲座预约系统（14328）

STM32H7 USB复合设备库：CDC+MSC+SDMMC一体化固件

STM32异步Web服务器：零拷贝HTTP/WS工业网关实战

Linux命令-nc（用于设置路由器，是网络工具中的瑞士军刀）

【电池损耗+需求响应】考虑电池储能寿命与需求响应模型的发电计划优化程序Matlab代码

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

从消费者心理角度看图片翻译：为什么本地语言商品图能带来更高的点击和转化

MobaXterm便携版使用全攻略：从安装配置到汉化技巧（2023最新）

OpenClaw技能扩展：安装千问3.5-35B-A3B-FP8多模态技能包

T527平台JL2101B-N040C与RTL8211F千兆PHY实战调试与性能调优

Python项目依赖管理：如何用pipreqs精准生成requirements.txt（附常见问题解决）

告别命令行！用wxPython+wxFormBuilder给Python脚本做个Windows桌面GUI界面（附完整代码）

OpenClaw+千问3.5-35B-A3B-FP8极客玩法：实时屏幕监控与异常事件语音告警

OpenClaw新手入门：千问3.5-9B镜像一键部署与初体验

快捷键冲突深度解决方案：Hotkey Detective系统级诊断与修复指南

OpenClaw智能书摘：Qwen2.5-VL-7B从读书笔记生成图文知识卡片

MCP服务器认证体系重构实录（JWT+双向mTLS+设备指纹绑定），金融级鉴权落地仅需23行核心代码

OpenClaw技能扩展实战：千问3.5-35B-A3B-FP8实现公众号多图文自动排版