一句话结论: 如今 4B 模型的能力已逼近一年前的 7B~9B 级别,2B 可跑多模态,0.5B 能做实时 TTS,百兆级模型可在 CPU 上运行语音克隆。
2025 年底到 2026 年初,开源小模型领域迎来了爆发式增长。Qwen3.5 全家族覆盖 0.8B 到 397B,Google Gemma 4 首次以 Apache 2.0 协议开放从 2B 到 31B 的全系列,微软 Phi-4-mini 以 3.8B 打出了远超体量的数学推理能力,而语音领域的 Qwen3-ASR、GLM-ASR-Nano 更是在听写任务上正面超越了 OpenAI Whisper V3。
本文从七个维度,梳理截至 2026 年 5 月 8 日的开源 ≤4B 小模型格局。
一、纯语言模型(LLM)
| 模型 | 参数 | 上下文 | 亮点 | 协议 |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | 128K | 极致轻量,端侧首选,速度极快 | Apache 2.0 |
| Qwen3.5-2B | 2B | 128K | 轻量 Agent 基座 | Apache 2.0 |
| Qwen3.5-4B | 4B | 128K | 原生多模态,轻量 Agent 核心,8GB 显卡可跑 | Apache 2.0 |
| Gemma 4 E2B | 2.1B | 128K | 2026.04 发布,手机/树莓派可离线跑,GPQA 追平 Gemma3 27B | Apache 2.0 |
| Gemma 4 E4B | 4B | 128K | 支持图/文/音/视频多模态输入,Fn Call,结构化输出 | Apache 2.0 |
| Phi-4-mini | 3.8B | 128K | 微软出品,数学/推理/编码强,Q4 量化约 3GB 显存 | MIT |
| MiniCPM3-4B | 4B | 128K | 超越 Phi-3.5-mini 和 GPT-3.5 | 商业可商用 |
| SmolLM3 (HuggingFace) | 3B | — | 超越 Llama 3.2 3B 和 Qwen2.5 3B | Apache 2.0 |
| Zen4-Mini | 4B | 40K | 端侧密集模型 | Apache 2.0 |
| Jan-Nano | 4B | — | 专为深度研究设计,支持 MCP | Apache 2.0 |
| MiniMind-3 | 64M | — | 从零训练,单卡 2h,显存仅 0.5GB | 开源 |
| MiniMind-3-MoE | 198M/A64M | — | MoE 极小模型 | 开源 |
趋势判断:
- Qwen3.5-4B 量化后仅需 4~5GB 显存,普通游戏本即可流畅运行本地推理。
- Gemma 4 E2B(2B) 的 GPQA 得分 43.4%,追平了上一代 270 亿参数的 Gemma 3 27B(42.4%),参数量仅为 1/13,参数效率的跃升堪称恐怖。
- MiniMind-3 以 64M 参数、0.5GB 显存即可运行多轮对话和小知识库问答,门槛已经低到几乎没有。
二、代码模型(Coding)
| 模型 | 参数 | 亮点 | 基准 |
|---|---|---|---|
| mini-coder-4b | 4B | 从 Qwen3-Coder 30B-A3B 蒸馏,SWE-bench 26.8% 超越 gpt-oss-120b(26.0%) | SWE-bench Verified |
| Jan-Code-4B | 4B | 基于 Qwen3-4B 微调,代码生成/编辑/重构/调试,本地快速迭代 | — |
| mini-swe-1.7B | 1.7B | 蒸馏版,SWE-bench 18.6%,参数量极小 | SWE-bench |
| TinyCodeLM | 150M / 400M | 完全开源,Python 代码合成,72B tokens 训练 | Python 代码合成 |
| MiniCoderX | 极小 | AST/CFG 感知编码,适合学习实验 | — |
趋势判断:
- 4B 编码模型已在 SWE-bench 上超越 120B 模型(gpt-oss-120b)——这是 2026 年最令人震撼的效率突破之一。
- mini-swe-1.7B 以 1.7B 参数达到 18.6% 通过率,一年前这是 7B+ 模型才能触及的领域。
- 这类小编码模型特别适合作为 Agent 工作流中的「Worker」子模型——处理 Scope 明确的子任务,响应快、成本低。
三、语音识别(ASR / 听写)
| 模型 | 参数 | 亮点 |
|---|---|---|
| Qwen3-ASR-1.7B | 1.7B | 阿里通义,52 语种方言,开源 SOTA,强噪/快语速/歌唱鲁棒 |
| Qwen3-ASR-0.6B | 0.6B | 支持 128 并发、2000 倍吞吐,10 秒处理 5h 音频 |
| GLM-ASR-Nano-2512 | 1.5B | 全面超越 OpenAI Whisper V3,低音量(耳语)场景极强 |
| Voxtral-Mini-4B-Realtime | 4B | Mistral 出品,13 种语言实时转录,延迟 240ms~2400ms 可配,边缘可部署 |
| MiMo-V2.5-ASR | 小 | 小米开源,多语言/方言/复杂声学场景,2026.04 发布 |
| StepAudio 2.5 ASR | 轻量 | 阶跃星辰,端侧离线 ASR,降噪/方言优化 |
| Whisper Tiny | 39M | 经典极小,ONNX 可跑浏览器 |
趋势判断:
- 2026 年 ASR 格局已彻底改变。 Whisper V3 不再是默认选择——GLM-ASR-Nano(1.5B)已在多项基准上全面超越它,且参数更少。
- Voxtral-Mini-4B-Realtime 将实时转录延迟压到 240ms,并可跑在边缘设备上,是实时语音助手场景的理想选择。
- Qwen3-ASR-0.6B 的 2000 倍吞吐意味着 10 秒处理 5 小时音频,离线批量转写的效率已经极高。
四、语音合成(TTS / 说话)
| 模型 | 参数 | 亮点 |
|---|---|---|
| Voxtral-4B-TTS | 4B | Mistral,3 秒克隆音色,20 预设语音,9 种语言 |
| Microsoft VibeVoice-Realtime | 0.5B | 300ms 首包延迟,边输入边朗读,支持 4 角色对话 |
| CosyVoice2 | 0.5B | 阿里通义,150ms 超低延迟流式,方言/情感细粒度控制 |
| Pocket TTS | 100M | Kyutai,CPU 无 GPU 可跑,高质量语音克隆 |
| MOSS-TTS-Nano | 100M | 多语言,CPU 可跑,Apache 2.0 |
| TinyTTS | 1.6M | ONNX 53x 实时率,仅 86ms 首包延迟 |
趋势判断:
- 百兆级(100M)TTS 模型已可纯 CPU 运行——Pocket TTS 和 MOSS-TTS-Nano 让语音合成的硬件门槛降到了零。
- **VibeVoice-Realtime(0.5B)**做到了 300ms 首包延迟 + 边输入边朗读(交错窗口架构),还支持最多 4 个角色的自然对话。
- Voxtral-4B-TTS 是目前 ≤4B 最强的 TTS,3 秒克隆+9 种语言,量化后约 2.5~3GB。
- CosyVoice2 在流式场景的 150ms 延迟已达商用水准,方言和情感控制是其独特优势。
五、视觉语言模型(VLM / 图像理解)
| 模型 | 参数 | 亮点 |
|---|---|---|
| Moondream | 2B | 极高效,可跑在任何设备上,图像理解能力扎实 |
| SmolVLM (HuggingFace) | 2B+ | 轻量开源多模态,图片问答/描述 |
| Phi-4-multimodal | 5.6B | 文本+图像+音频输入,128K 上下文 |
| MiniMind-V | 67M | 从零训练,1.3 元+1 小时训出 VLM |
| nanoVLM-450M | 450M | 极简 VLM 训练框架,ViT + 轻量 LM |
| Qwen3.5-4B(多模态版) | 4B | 原生多模态训练,无需额外视觉模块 |
趋势判断:
- 67M 的 MiniMind-V 让人跌破眼镜——1.3 元电费就能训出一个能看图的 VLM,全流程代码开源。
- Moondream 2B 是 ≤4B 多模态里综合最强的开源选择之一,主打「跑在任何地方」。
- Qwen3.5-4B 的多模态能力是原生训练的,无需额外视觉模块,架构简洁。
六、全模态大一统(Omni)
| 模型 | 参数 | 亮点 |
|---|---|---|
| MiniCPM-o 4.5 | 9B(总参) | 端到端全双工,图像+视频+文本+音频输入+语音输出,手机可跑 |
| Phi-4-multimodal | 5.6B | 文本+图像+音频输入,128K 上下文 |
MiniCPM-o 4.5 虽然总参数 9B,但其中语音编码器基于 Whisper-medium,TTS 基于 CosyVoice2,纯语言部分仅 8B。它的核心意义在于:一个模型搞定看、听、说、想,支持全双工语音流式对话,且能跑在手机上。论文1展示了它在实时交互场景中的端到端延迟和人机对话自然度,都已逼近商业级水平。
9B 虽略超本文 ≤4B 的范畴,但考虑到其各子模块的实际有效参数规模,以及它对「小模型全模态」方向的标杆意义,仍值得列出参考。
七、选型建议:按场景对号入座
你的场景 → 推荐模型
纯文本推理 → Gemma 4 E4B / Qwen3.5-4B
代码生成/Agent → mini-coder-4b / Jan-Code-4B
语音转文字 → Qwen3-ASR-1.7B / GLM-ASR-Nano
语音合成/克隆 → VibeVoice-0.5B / Voxtral-4B-TTS
图像理解 → Moondream 2B / Qwen3.5-4B-VL
全模态合一 → MiniCPM-o / Phi-4-multimodal
从零学习/教学 → MiniMind-3 (64M) / MiniMind-V (67M)
给资源有限的开发者:
- 只有 8GB 显存的游戏本? → Qwen3.5-4B 量化版是你门槛最低的入口。
- 想在手机上离线跑 AI? → **Gemma 4 E2B(2B)**仅需约 1.5GB 内存,128K 上下文,原生多模态。
- 要本地代码助手? → mini-coder-4b(SWE-bench 26.8%)是目前 4B 以下编码最强。
- 要做语音转文字产品? → 不要再默认选 Whisper,试试 GLM-ASR-Nano(1.5B),全面超越且参数更小。
- 想做实时语音助手? → VibeVoice-0.5B(300ms 延迟)或 Voxtral-4B-TTS+ASR 组合。
- 从零学习大模型训练? → **MiniMind-3(64M)**或 MiniMind-V(67M),一小时训完,全流程代码开源。
写在最后
这个领域的变化速度让我在撰写这份报告时不得不反复更新数据——Gemma 4 在 4 月 2 日发布,Qwen3.5 小模型在 3 月才开源,而 mini-coder-4b 用 1/30 的参数超越了 120B 模型。
一年前的"不可能",现在都成了"免费下载"。
我们可以合理推测:到 2026 年底,一个能在手机上本地运行的 2B 模型,其综合能力将逼近今天的 7B 云端模型;而 4B 模型将覆盖绝大多数日常 AI 场景——包括中等复杂度的代码生成、多轮对话、实时语音交互和基本的图像理解。
开源小模型的终极目标,不是取代大模型,而是让 AI 变得无处不在、永不付费、永不掉线。
Footnotes
-
MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction,https://arxiv.org/html/2604.27393 ↩
评论
有异议、有补充,或只想留一句话,皆可直言。我要的不是客气话,而是真反馈。