微调后的Qwen3-4B在多项基准测试上战平或胜过GPT-OSS-120B


编者按: 如果你正在为边缘计算、本地部署或资源受限场景寻找高效的语言模型解决方案,你是否曾困惑:在众多小型语言模型(SLM)中,哪一个才是微调的最佳起点?是否真的存在”小而强”的模型,能在微调后媲美甚至超越规模大数十倍的教师模型?

近期,distil labs 团队进行了一项严谨的基准研究,或许能为你提供数据驱动的答案。他们在 8 类任务(涵盖分类、信息抽取、开卷与闭卷问答)上,对 12 个主流小型模型(包括 Qwen3、Llama、Gemma、Granite、SmolLM 等系列)进行了统一微调与评估,并对比了其与 120B 参数教师模型(GPT-OSS-120B)的性能差异。

作者 | Distil Labs

编译 | 岳扬

01 TL;DR

经过微调的小型语言模型(SLM)可以胜过规模大得多的模型:微调后的 Qwen3-4B 在 8 项基准测试中的 7 项上表现能够超越或战平 GPT-OSS-120B(一个比它模型规模大 30 倍的教师模型),剩下的一项差距也不到 3 个百分点。在 SQuAD 2.0 数据集上,微调后的学生模型甚至比教师模型高出 19 分。这意味着你只需极低的成本,就能在自己的硬件上实现前沿模型级别的准确率。

微调后性能最佳的模型:Qwen3 系列模型在微调后始终表现最强,其中 4B 版本整体表现最优。如果你的目标是在特定任务上获得最高准确率,Qwen3-4B 就是你的首选。

最具可微调性(🐟-ble)(微调收益最大):小型模型从微调中获得的提升远超大型模型。 如果你受限于使用非常小的模型(1B–3B),也不必担心 —— 它们能从微调中获益最多,能够大幅缩小与更大模型之间的性能差距。

02 引言

如果你正在构建需要在设备端、本地或边缘侧运行的 AI 应用,你很可能问过自己:我该微调哪个小型语言模型(SLM)?目前 SLM 领域选择众多(Qwen、Llama、Gemma、Granite、SmolLM),每个系列都提供多种模型规模的版本。选错基础模型可能意味着有数周时间在浪费计算资源,或者得到的模型始终无法达到生产质量要求。

我们进行了一项系统的基准测试,用数据来回答这个问题。借助 distil labs 平台,我们在 8 个不同的任务上(分类、信息抽取、开卷问答、闭卷问答)微调了 12 个模型,然后将它们的性能相互比较,并与用于生成合成训练数据的教师大模型进行对比。

本文回答了四个实际问题:

  • 哪个模型在微调后效果最好?
  • 哪个模型最具可微调性?(即微调后提升最大)
  • 哪个模型的基础性能最强?(即未经微调前)
  • 我们表现最好的学生模型,真的能媲美教师模型吗?

03 实验方法

我们评估了以下模型:

  • Qwen3 系列:Qwen3-8B、Qwen3-4B-Instruct-2507、Qwen3-1.7B、Qwen3-0.6B。注意,我们关闭了该系列的”thinking”功能,以保证实验的公平。
  • Llama 系列:Llama-3.1-8B-Instruct、Llama-3.2-3B-Instruct、Llama-3.2-1B-Instruct
  • SmolLM2 系列:SmolLM2-1.7B-Instruct、SmolLM2-135M-Instruct
  • Gemma 系列:gemma-3-1b-it、gemma-3-270m-it
  • Granite:granite-3.3-8b-instruct

针对每个模型,我们测量了:

  • Base score:仅使用提示词(prompting)的小样本(few-shot)场景下的性能
  • Finetuned score:在由我们的教师模型(GPT-OSS 120B)生成的合成数据上微调后的性能

我们的 8 项基准测试涵盖分类 (TREC、Banking77、Ecommerce、Mental Health)、文档理解 (docs)以及问答任务(HotpotQA、Roman Empire QA、SQuAD 2.0)。

为了实现公平测量,我们分别计算了每个模型在各个基准测试上的排名,然后计算所有任务上的平均排名,并以 95% 置信区间作为误差棒(error bars)绘制在图中。平均排名越低,表示整体性能越好。

04 问题一:哪个模型在微调后效果最好?

冠军:Qwen3-4B-Instruct-2507(平均排名:2.25)

Qwen3 系列占据了排行榜前列,其中 Qwen3-4B-Instruct-2507 摘得桂冠。值得注意的是,这款 4B 模型的表现甚至超过了更大的 Qwen3-8B,这表明在蒸馏任务中,Qwen3 的较新版本(2025 年 7 月 25 日更新的版本)比之前的 8B SLM 效果更好。

核心结论:如果你希望获得效果最好的微调模型,并且拥有支持约 4B 参数规模模型微调的 GPU 显存,那么 Qwen3-4B-Instruct-2507 是你的首选。

05 问题二:哪个模型最具可微调性?(即微调后提升最大)

冠军: Llama-3.2-1B-Instruct(平均排名:3.44)

这里我们测量的是可微调性(tunability) —— 即从基础性能到微调后性能的提升幅度(finetuned_score – base_score)。一个高度可微调的模型初始表现可能较弱,但经过微调后提升显著。

有趣的是,可微调性排名与模型大小的排序正好相反。像 Llama-3.2-1B 和 Qwen3-0.6B 这样的小型模型,从微调中获得的提升最大。而规模最大的模型(如 Qwen3-8B、granite-3.3-8b)在可微调性排名中接近垫底 —— 这并非因为它们表现差,而是因为它们起点相对较高,进步空间相对有限。

核心结论:如果你受限于使用极小的模型(<2B 参数),不必灰心。这些模型从微调中获益最大,并且能够显著缩小与更大模型之间的性能差距。

06 问题三:哪个模型的基础性能最强?(即未经微调前)

冠军: Qwen3-8B (平均排名: 1.75)

在未经任何微调的情况下,哪个模型开箱即用的表现最好?

正如预期,基础性能与模型大小呈正相关。8B 模型占据了榜首位置,其中 Qwen3-8B 在所有基准测试中都展现出非常稳定的性能(标准差最低)。

核心结论:如果你需要在不进行微调的情况下在零样本/小样本场景下也获得较优的性能,大模型仍是你的最佳选择。但请记住 —— 经过微调后,这种优势会减弱。

07 问题四:我们表现最好的学生模型,真的能媲美教师模型吗?

是的。Qwen3-4B-Instruct-2507 在 8 项基准测试中的 7 项上达到或超越了教师模型。

经过微调的 4B 学生模型在 6 项基准测试上超越了 120B+ 参数的教师模型,在 1 项(HotpotQA)上持平,仅在 1 项(Banking77)上略微落后(差距在误差范围内)。提升最显著的是 SQuAD 2.0 闭卷问答任务,学生模型比教师模型高出 19 个百分点 —— 这充分证明,微调比单纯依赖提示词(prompting)能更有效地将领域知识注入模型。

核心结论:一个经过适当微调的 4B 参数模型,可以媲美甚至超越规模达其 30 倍的模型。这意味着推理成本可降低约 30 倍,并且能够完全在本地部署运行。

08 实用建议

基于我们的基准测试结果,以下是选择基础模型的建议:

09 后续我们将进行的工作

本次基准测试只是一个起点,我们正在积极努力让这些结果更加可靠:

  • 评估更多模型:SLM 领域发展迅速。我们计划在 Qwen3.5、Phi-4 和 Mistral 系列等新模型版本发布后及时纳入评测。
  • 增加运行轮次:目前我们的结果基于有限次数的运行取平均。我们将为每项基准测试增加更多运行轮次,以缩小置信区间,确保排名具有统计可靠性。
  • 扩展基准测试覆盖范围:我们希望纳入更多任务类型,如文本摘要、代码生成和多轮对话,从而更全面地反映模型能力。

10 训练细节

每个模型都在使用我们蒸馏流程生成的合成数据进行微调(有关数据合成过程的详细信息,请参见《Small Expert Agents from 10 Examples》[1])。针对每个基准测试,我们使用教师模型(GPTOss-120B)生成了 10,000 条训练样本。

微调采用 distil labs 的默认配置[2]:训练 4 个 epoch,学习率 5e-5,使用线性学习率调度器,以及 rank 为 64 的 LoRA。

所有模型均使用完全相同的超参数进行训练。评估在训练和合成数据生成过程中均未接触过的预留测试集上进行。

11 结论

并非所有小型模型的性能都差不多,但经过微调后,它们之间的差距会大幅缩小。我们的基准测试表明,Qwen3-4B-Instruct-2507 在整体微调性能上表现最佳,不仅能媲美 120B+ 参数的教师模型,还能在单块消费级 GPU 上部署运行。在资源极度受限的环境中,像 Llama-3.2-1B 这样的小模型展现出卓越的可微调性,能够大幅缩小与大模型的性能差距。

核心结论:微调比基础模型的选择更重要。一个经过良好微调的 1B 模型,可以胜过仅靠提示词(prompting)驱动的 8B 模型。

END

本期互动内容 🍻

❓你在微调小型语言模型时,最看重的是”开箱即用的强基础能力”,还是”微调后巨大的提升空间”?为什么?

文中链接

[1]https://www.distillabs.ai/blog/small-expert-agents-from-10-examples

[2]https://docs.distillabs.ai/how-to/input-preparation/config

原文链接:

https://www.distillabs.ai/blog/we-benchmarked-12-small-language-models-across-8-tasks-to-find-the-best-base-model-for-fine-tuning

                                                                                </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » 微调后的Qwen3-4B在多项基准测试上战平或胜过GPT-OSS-120B

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的