4月5日（大语言模型训练原理）

张开发

• 2026/4/10 1:04:00 • 15 分钟阅读

分享文章

AI时代四项核心技能掌握AI成为同龄人中最好使用AI的那个人练习敏捷训练每周预留一个小时更新自己对AI的认识坚持道德底线拒绝用AI做监控武器和操控停止亲信你不知道的大语言模型训练原理大模型训练其实是一条流水线平时我们使用豆包符合心意是因为其后训练做到位了完整的9个阶段预训练模型的底座预训练仍然是训练链路的起点搞清楚它到底在做什么才能理解后面的每一层都在补充什么。没有这一步就没有语言建模能力没有知识压缩也没有后面那些能力迁移的空间。在工程上它要做的不只是让模型学会预测下一个 token把语言分布学进去把大规模文本里的知识和模式压进参数还要给后面的能力激活留出空间。下一个 token 预测只描述了训练形式解释不了为什么规模上来之后模型会突然多出一些之前没有的能力。预训练更像是给模型能力打地基决定知识范围、泛化潜力和模式归纳能力也决定后训练有没有可以利用的空间。但听不听指令、配不配合用户、关键任务跑起来稳不稳这些预训练都是管不到的。数据配方决定模型能力参数规模是过去几年大家比较的重要指标但这两年更重要的东西叫「数据配方」。这个过程表面看是清洗数据实际上是完整的数据生产工程。网页、代码仓库、书籍、论坛这些原始数据要先走完文本抽取、语言识别、质量过滤、隐私处理、安全过滤和去重才能进入预训练下图展示了完整的漏斗处理流程。系统和架构的约束训练前就要想清楚很多人把训练理解成研究问题目标函数怎么设损失怎么降模型结构怎么改。但真正的大模型训练里系统约束这一块非常重要是分布式系统问题而非单机上的深度学习问题。GPU 数量、显存带宽、并行策略、容错和成本这些不能等到训练完才去调优最开始就决定了你能训多大、支持多长上下文、能不能跑更复杂的后训练这些点。后训练才决定用户真正感受到的差距普通用户真正能感受到的很多提升其实都发生在预训练之后。指令微调Instruction tuning用标注好的指令-回答数据对模型做监督训练。它改变的是回答方式把怎么接任务、怎么组织输出、怎么像个配合的助手这些要求变成监督信号。一个基础模型也许已经具备不少潜在能力但如果没有这一步这些能力往往不会以用户期待的形式稳定冒出来。RLHF基于人类反馈的强化学习先模仿高质量回答再用偏好比较做强化DPO直接偏好优化把这条路径缩短直接从偏好对比里学不需要单独训奖励模型RFT强化微调是工程上更容易落地的接口把任务定义、grader 设计和奖励信号放到产品化流程里Eval、Grader、Reward 在重新定义训练目标具体到实现里ORM 是结果奖励模型只给最终答案打分信号稀疏成本低适合先起步但也更容易让模型走捷径。PRM 是过程奖励模型给中间步骤打分信号更密对数学和代码推理通常更强但标注和系统成本都高很多。OpenAI 在数学推理实验里看到PRM 不只提高了正确率也更容易把过程约束住因为每一步都在被监督问题也很直接PRM 的成本通常是 ORM 的数倍所以大多数真实系统还是先从 ORM 起步只有在数学、代码、逻辑这类可验证任务里才更有条件把 PRM 自动化用程序去验证中间步骤绕开人工标注瓶颈。到了 Agent 训练优化的不只是模型本身了这时候训练对象不再只是一个会回答问题的模型而是一个能规划、调用工具、接收反馈、在长任务里保持连贯的系统。于是训练栈也跟着变了浏览器、终端、搜索、执行沙盒、内存系统、工具服务器、编排框架都开始进入训练系统。更准确地说harness 是包在模型外层的控制程序这个概念不只属于 Agent 运行时训练阶段同样有它决定模型看到什么输入、以什么形式接收反馈、何时裁剪上下文、何时调工具。prompt construction、memory update、retrieval policy、context editing、tool orchestration 都在这里。环境也不再只是静态验证器而是训练和部署都要直接面对的一层。以后怎么看一个模型为什么变强了后面再看一个模型为什么突然变强可以先看三件事先看变化发生在预训练层还是后面的训练流程。很多能力提升确实来自更强的预训练和更好的数据配方但也有很多体感变化其实主要出在后训练。模型会不会听指令、会不会用工具、回答风格稳不稳常常不是多训一点语料自己长出来的。再看提升来自哪一层是权重和训练配方还是 reward / eval / grader还是 harness code 和 deployment loop。到了推理模型和 Agent 这一段用户感受到的变强很多时候已经不是基础模型单独做出来的结果。评测怎么设、奖励怎么打、工具环境稳不稳、retrieval 和记忆怎么组织、summary 和上下文怎么剪、上线时选了哪个 checkpoint这些都会一起改掉最后的产品表现。最后看上线版本在优化什么。有些版本是在追求更高上限有些版本是在压成本、延迟和回归风险还有些版本是在给某一类场景做专用化。发布版本本来就是产品决策不是训练曲线最右边那个点所以看模型更新时顺手看它到底在优化什么会更接近真实情况。你真的了解Github吗搜索篇我们先对齐GitHub的认知我认为1、GitHub是全世界最强的资源网站、代码网站和信息网站2、GitHub是未来新的注意力窗口我翻遍了全x有很多GitHub项目推荐但发现没有关于GitHub的入门文章这篇文章旨在帮助小白可以熟练上手GitHub先从最简单的搜索开始。下文主要分享了GitHub项目信息的四种搜索方式以及GitHub中都有什么信息。GitHub项目四种搜索方式1、闲逛搜索第一步主页点击三个横杠第二步点击explore你会进入下图中的区域在这里面第一个区域是GitHub根据算法推荐的项目第二个区域是trending榜单。2、直接搜索点击 Type 搜索直接输入关键词搜索小tips: 搜索时添加“awesome” 可以更快找到高质量资源汇总仓库图中以「awesome-claude-code」为例子3、高级搜索强烈推荐第一步网页端直接输入「github.com/search 」第二步点击 advanced search在高级搜索中你可以限定关键词、作者、stars数等等非常实用。4、Copilot(GitHub内置AI)第一步点击图标进入Copilot第二步根据自己的需求搜索图中以「推荐几个教程类python仓库」为例GitHub中具体信息1、GitHub是最强的资源网站以学习资源为例你几乎可以找到你任何想学习的内容我们用python举例子GitHub中有一系列的python教程从入门到精通从理论到实战。基础入门1、30-Days-Of-Pythonhttps://github.com/asabeneh/30-days-of-python2、Python-100-Dayshttps://github.com/jackfrued/Python-100-Days算法与数据结构TheAlgorithms/Pythonhttps://github.com/TheAlgorithms/Python数据科学与机器学习PythonDataScienceHandbookhttps://github.com/jakevdp/PythonDataScienceHandbook项目实战project-based-learninghttps://github.com/practical-tutorials/project-based-learning2、GitHub是最强的信息网站在GitHub中信息资源是丰富与庞大的, 下面我列举了些例子 1大厂信息动态: 飞书、OpenAI、Anthropic等。比如以飞书为例你可以看到任何关于飞书推出的最新 Github 项目(2) 泛资源你任何需要的资源都可以在这里搜索试试1、雅思资料https://github.com/hefengxian/my-ielts2、数字游民指南 https://github.com/lukasz-madon/awesome-remote-job3、tg频道整理https://github.com/AZeC4/TelegramGroup3、GitHub是最强的代码网站GitHub 本身就是为开发者打造的有着非常多的代码资源这一块就不过多赘述了。

更多文章

前端开发 2026/4/9 10:48:13

HSTracker：革新性炉石传说辅助工具，重新定义卡牌游戏体验

HSTracker：革新性炉石传说辅助工具，重新定义卡牌游戏体验【免费下载链接】HSTracker A deck tracker and deck manager for Hearthstone on macOS 项目地址: https://gitcode.com/gh_mirrors/hs/HSTracker 在快节奏的炉石传说对战中，…

你花了无数个夜晚打磨一篇线程、一份产品文案、甚至一次个人分享，却发现点赞数停在两位数，订阅增长几乎为零。隔壁那位输出频率并不高、内容也谈不上惊艳的同行，却靠同样的话题稳稳收割了付费客户和行业合作。你把原因推给算法、流量池、甚至…

张开发

前端开发 2026/4/9 20:22:38

AI赋能安装：让快马平台智能诊断并修复你的9·1免费版安装难题

AI赋能安装：让快马平台智能诊断并修复你的91免费版安装难题最近在帮朋友安装91免费版时，遇到了各种稀奇古怪的问题：有的报权限错误，有的卡在依赖缺失，还有的直接版本不兼容。作为非专业开发者，每次遇到这…

张开发

4月5日（大语言模型训练原理）

最新文章

HEX与BIN文件格式详解及嵌入式开发应用

小白必看：cv_resnet18_ocr-detection WebUI界面详解，功能一目了然

Phi-3-mini-4k-instruct-gguf入门必看：中文训练数据局限性应对策略与人工复核SOP

Qwen Pixel Art效果实测：在A10G云GPU上实现＜2s单图生成响应延迟

OpenClaw语音交互：Qwen3-14B对接Whisper实现声控自动化

CVPR‘26 | 从任务统一到模态协同：电商通用多模态表征MOON 2.0

推荐文章

CSS Scroll Snap：打造丝滑滚动体验

【2026年最新600套毕设项目分享】springboot高校学习讲座预约系统（14328）

STM32H7 USB复合设备库：CDC+MSC+SDMMC一体化固件

STM32异步Web服务器：零拷贝HTTP/WS工业网关实战

Linux命令-nc（用于设置路由器，是网络工具中的瑞士军刀）

【电池损耗+需求响应】考虑电池储能寿命与需求响应模型的发电计划优化程序Matlab代码

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

HSTracker：革新性炉石传说辅助工具，重新定义卡牌游戏体验

多语言界面配置：Mem Reduct本地化功能的3种实现方法

tao-8k效果展示：新闻事件跨时间维度语义关联向量图谱构建案例

突破硬件壁垒：开源工具ZLUDA实现CUDA跨平台兼容实战指南

普通显卡也能玩转专业AI绘画？FLUX.1-dev FP8量化模型让你6GB显存轻松创作

LLM安全防护体系构建：从风险挑战到落地实践的完整指南

SVG的DSP程序、FPGA程序与主板原理图及PCB设计，含辅助板PCB无原理图

应用能源 2022 一区】基于合作博弈模型的多微网日前交易研究

从期末考卷看前沿技术课程实战：算法、编译与嵌入式系统核心要点解析

开箱即用！Qwen-Image-Lightning 镜像部署与Web界面使用全解

Pixar 140亿票房帝国只靠22条规则？创作者还在靠灵感苦等观众，真正的高手早已把叙事当成可调试的系统

AI赋能安装：让快马平台智能诊断并修复你的9·1免费版安装难题