4月5日(大语言模型训练原理)

张开发
2026/4/10 1:04:00 15 分钟阅读

分享文章

4月5日(大语言模型训练原理)
AI时代四项核心技能掌握AI成为同龄人中最好使用AI的那个人练习敏捷训练每周预留一个小时更新自己对AI的认识坚持道德底线拒绝用AI做监控武器和操控停止亲信你不知道的大语言模型训练原理大模型训练其实是一条流水线平时我们使用豆包符合心意是因为其后训练做到位了完整的9个阶段预训练模型的底座预训练仍然是训练链路的起点搞清楚它到底在做什么才能理解后面的每一层都在补充什么。没有这一步就没有语言建模能力没有知识压缩也没有后面那些能力迁移的空间。在工程上它要做的不只是让模型学会预测下一个 token把语言分布学进去把大规模文本里的知识和模式压进参数还要给后面的能力激活留出空间。下一个 token 预测只描述了训练形式解释不了为什么规模上来之后模型会突然多出一些之前没有的能力。预训练更像是给模型能力打地基决定知识范围、泛化潜力和模式归纳能力也决定后训练有没有可以利用的空间。但听不听指令、配不配合用户、关键任务跑起来稳不稳这些预训练都是管不到的。数据配方决定模型能力参数规模是过去几年大家比较的重要指标但这两年更重要的东西叫「数据配方」。这个过程表面看是清洗数据实际上是完整的数据生产工程。网页、代码仓库、书籍、论坛这些原始数据要先走完文本抽取、语言识别、质量过滤、隐私处理、安全过滤和去重才能进入预训练下图展示了完整的漏斗处理流程。系统和架构的约束训练前就要想清楚很多人把训练理解成研究问题目标函数怎么设损失怎么降模型结构怎么改。但真正的大模型训练里系统约束这一块非常重要是分布式系统问题而非单机上的深度学习问题。GPU 数量、显存带宽、并行策略、容错和成本这些不能等到训练完才去调优最开始就决定了你能训多大、支持多长上下文、能不能跑更复杂的后训练这些点。后训练才决定用户真正感受到的差距普通用户真正能感受到的很多提升其实都发生在预训练之后。指令微调Instruction tuning用标注好的指令-回答数据对模型做监督训练。它改变的是回答方式把怎么接任务、怎么组织输出、怎么像个配合的助手这些要求变成监督信号。一个基础模型也许已经具备不少潜在能力但如果没有这一步这些能力往往不会以用户期待的形式稳定冒出来。RLHF基于人类反馈的强化学习先模仿高质量回答再用偏好比较做强化DPO直接偏好优化把这条路径缩短直接从偏好对比里学不需要单独训奖励模型RFT强化微调是工程上更容易落地的接口把任务定义、grader 设计和奖励信号放到产品化流程里Eval、Grader、Reward 在重新定义训练目标具体到实现里ORM 是结果奖励模型只给最终答案打分信号稀疏成本低适合先起步但也更容易让模型走捷径。PRM 是过程奖励模型给中间步骤打分信号更密对数学和代码推理通常更强但标注和系统成本都高很多。OpenAI 在数学推理实验里看到PRM 不只提高了正确率也更容易把过程约束住因为每一步都在被监督问题也很直接PRM 的成本通常是 ORM 的数倍所以大多数真实系统还是先从 ORM 起步只有在数学、代码、逻辑这类可验证任务里才更有条件把 PRM 自动化用程序去验证中间步骤绕开人工标注瓶颈。到了 Agent 训练优化的不只是模型本身了这时候训练对象不再只是一个会回答问题的模型而是一个能规划、调用工具、接收反馈、在长任务里保持连贯的系统。于是训练栈也跟着变了浏览器、终端、搜索、执行沙盒、内存系统、工具服务器、编排框架都开始进入训练系统。更准确地说harness 是包在模型外层的控制程序这个概念不只属于 Agent 运行时训练阶段同样有它决定模型看到什么输入、以什么形式接收反馈、何时裁剪上下文、何时调工具。prompt construction、memory update、retrieval policy、context editing、tool orchestration 都在这里。环境也不再只是静态验证器而是训练和部署都要直接面对的一层。以后怎么看一个模型为什么变强了后面再看一个模型为什么突然变强可以先看三件事先看变化发生在预训练层还是后面的训练流程。很多能力提升确实来自更强的预训练和更好的数据配方但也有很多体感变化其实主要出在后训练。模型会不会听指令、会不会用工具、回答风格稳不稳常常不是多训一点语料自己长出来的。再看提升来自哪一层是权重和训练配方还是 reward / eval / grader还是 harness code 和 deployment loop。到了推理模型和 Agent 这一段用户感受到的变强很多时候已经不是基础模型单独做出来的结果。评测怎么设、奖励怎么打、工具环境稳不稳、retrieval 和记忆怎么组织、summary 和上下文怎么剪、上线时选了哪个 checkpoint这些都会一起改掉最后的产品表现。最后看上线版本在优化什么。有些版本是在追求更高上限有些版本是在压成本、延迟和回归风险还有些版本是在给某一类场景做专用化。发布版本本来就是产品决策不是训练曲线最右边那个点所以看模型更新时顺手看它到底在优化什么会更接近真实情况。你真的了解Github吗搜索篇我们先对齐GitHub的认知我认为1、GitHub是全世界最强的资源网站、代码网站和信息网站2、GitHub是未来新的注意力窗口我翻遍了全x有很多GitHub项目推荐但发现没有关于GitHub的入门文章这篇文章旨在帮助小白可以熟练上手GitHub先从最简单的搜索开始。下文主要分享了GitHub项目信息的四种搜索方式以及GitHub中都有什么信息。GitHub项目四种搜索方式1、闲逛搜索第一步主页点击三个横杠第二步点击explore你会进入下图中的区域在这里面第一个区域是GitHub根据算法推荐的项目第二个区域是trending榜单。2、直接搜索点击 Type 搜索直接输入关键词搜索小tips: 搜索时添加“awesome” 可以更快找到高质量资源汇总仓库图中以「awesome-claude-code」为例子3、高级搜索强烈推荐第一步网页端直接输入「github.com/search 」第二步点击 advanced search在高级搜索中你可以限定关键词、作者、stars数等等非常实用。4、Copilot(GitHub内置AI)第一步点击图标进入Copilot第二步根据自己的需求搜索图中以「推荐几个教程类python仓库」为例GitHub中具体信息1、GitHub是最强的资源网站以学习资源为例你几乎可以找到你任何想学习的内容我们用python举例子GitHub中有一系列的python教程从入门到精通从理论到实战。基础入门1、30-Days-Of-Pythonhttps://github.com/asabeneh/30-days-of-python2、Python-100-Dayshttps://github.com/jackfrued/Python-100-Days算法与数据结构TheAlgorithms/Pythonhttps://github.com/TheAlgorithms/Python数据科学与机器学习PythonDataScienceHandbookhttps://github.com/jakevdp/PythonDataScienceHandbook项目实战project-based-learninghttps://github.com/practical-tutorials/project-based-learning2、GitHub是最强的信息网站在GitHub中信息资源是丰富与庞大的, 下面我列举了些例子 1大厂信息动态: 飞书、OpenAI、Anthropic等。比如以飞书为例你可以看到任何关于飞书推出的最新 Github 项目(2) 泛资源你任何需要的资源都可以在这里搜索试试1、雅思资料https://github.com/hefengxian/my-ielts2、数字游民指南 https://github.com/lukasz-madon/awesome-remote-job3、tg频道整理https://github.com/AZeC4/TelegramGroup3、GitHub是最强的代码网站GitHub 本身就是为开发者打造的有着非常多的代码资源这一块就不过多赘述了。

更多文章