苹果SSD方法:解锁大模型代码生成能力的简单之道

张开发
2026/4/9 18:51:36 15 分钟阅读

分享文章

苹果SSD方法:解锁大模型代码生成能力的简单之道
【导语当前AI大模型代码能力提升面临诸多制约苹果团队提出“简单自蒸馏”SSD方法。该方法在多个模型上取得稳定提升效果为大语言模型代码生成能力提升提供新方向。】SSD简单方法带来模型性能显著提升苹果团队提出的“简单自蒸馏”SSD方法以特定温度和截断配置从模型自身采样解决方案直接用未经验证样本进行标准监督微调。实验显示在LiveCodeBench v6基准测试中Qwen3 - 30B - Instruct模型的pass1指标从42.4%提升至55.3%相对提升幅度达30.4%。在更大的LCB v5基准测试中该模型的pass1也从45.8%提升至54.3%增加了8.5个百分点。这种提升具有普遍性不仅在Qwen系列模型上有效在Llama系列模型上也表现良好覆盖了4B、8B和30B等多种不同规模的模型无论是Instruct版本还是Thinking版本应用SSD后都能获得性能提升。SSD实施流程不依赖复杂验证与算法SSD的实施流程包含三个步骤。首先是数据合成从基础模型中以较高温度和特定截断配置采样生成代码解决方案每个问题仅采样一个解接着进入训练阶段直接使用未经验证的原始输出作为目标进行标准监督微调训练完成后使用经过微调的模型并在特定解码参数配置下进行评估测试。该方法的显著特点是整个过程完全不依赖代码执行环境或测试用例来验证答案的正确性也不需要引入更强的教师模型更不涉及复杂的强化学习算法。在数据合成阶段无需过滤掉错误的解模型生成的所有原始输出都会直接用于训练。SSD有效性源于重塑概率分布代码生成过程中存在“锁”和“叉”两类特定位置固定的全局解码温度难以同时满足精确性和探索性的要求。低温设置能确保“锁”的精确但会限制“叉”的多样性高温设置虽然能促进“叉”的探索却会破坏“锁”的稳定性。SSD通过高温采样结合截断操作重塑了模型内部的概率分布抑制了“锁”低概率的干扰项保留了“叉”多种合理的可能性。研究人员通过极端实验验证即便训练数据质量极低SSD依然能提升模型性能证明其有效性源于对概率分布的重塑。编辑观点苹果的SSD方法为提升大模型代码生成能力提供了新思路简单且有效不依赖复杂验证与算法挖掘出模型潜藏能力有望推动大模型代码生成领域的发展。

更多文章