开源 ≤4B 小模型全景报告（2026年5月）

一句话结论： 如今 4B 模型的能力已逼近一年前的 7B~9B 级别，2B 可跑多模态，0.5B 能做实时 TTS，百兆级模型可在 CPU 上运行语音克隆。

2025 年底到 2026 年初，开源小模型领域迎来了爆发式增长。Qwen3.5 全家族覆盖 0.8B 到 397B，Google Gemma 4 首次以 Apache 2.0 协议开放从 2B 到 31B 的全系列，微软 Phi-4-mini 以 3.8B 打出了远超体量的数学推理能力，而语音领域的 Qwen3-ASR、GLM-ASR-Nano 更是在听写任务上正面超越了 OpenAI Whisper V3。

本文从七个维度，梳理截至 2026 年 5 月 8 日的开源 ≤4B 小模型格局。

一、纯语言模型（LLM）

模型	参数	上下文	亮点	协议
Qwen3.5-0.8B	0.8B	128K	极致轻量，端侧首选，速度极快	Apache 2.0
Qwen3.5-2B	2B	128K	轻量 Agent 基座	Apache 2.0
Qwen3.5-4B	4B	128K	原生多模态，轻量 Agent 核心，8GB 显卡可跑	Apache 2.0
Gemma 4 E2B	2.1B	128K	2026.04 发布，手机/树莓派可离线跑，GPQA 追平 Gemma3 27B	Apache 2.0
Gemma 4 E4B	4B	128K	支持图/文/音/视频多模态输入，Fn Call，结构化输出	Apache 2.0
Phi-4-mini	3.8B	128K	微软出品，数学/推理/编码强，Q4 量化约 3GB 显存	MIT
MiniCPM3-4B	4B	128K	超越 Phi-3.5-mini 和 GPT-3.5	商业可商用
SmolLM3 (HuggingFace)	3B	—	超越 Llama 3.2 3B 和 Qwen2.5 3B	Apache 2.0
Zen4-Mini	4B	40K	端侧密集模型	Apache 2.0
Jan-Nano	4B	—	专为深度研究设计，支持 MCP	Apache 2.0
MiniMind-3	64M	—	从零训练，单卡 2h，显存仅 0.5GB	开源
MiniMind-3-MoE	198M/A64M	—	MoE 极小模型	开源

趋势判断：

Qwen3.5-4B 量化后仅需 4~5GB 显存，普通游戏本即可流畅运行本地推理。
Gemma 4 E2B（2B） 的 GPQA 得分 43.4%，追平了上一代 270 亿参数的 Gemma 3 27B（42.4%），参数量仅为 1/13，参数效率的跃升堪称恐怖。
MiniMind-3 以 64M 参数、0.5GB 显存即可运行多轮对话和小知识库问答，门槛已经低到几乎没有。

二、代码模型（Coding）

模型	参数	亮点	基准
mini-coder-4b	4B	从 Qwen3-Coder 30B-A3B 蒸馏，SWE-bench 26.8% 超越 gpt-oss-120b（26.0%）	SWE-bench Verified
Jan-Code-4B	4B	基于 Qwen3-4B 微调，代码生成/编辑/重构/调试，本地快速迭代	—
mini-swe-1.7B	1.7B	蒸馏版，SWE-bench 18.6%，参数量极小	SWE-bench
TinyCodeLM	150M / 400M	完全开源，Python 代码合成，72B tokens 训练	Python 代码合成
MiniCoderX	极小	AST/CFG 感知编码，适合学习实验	—

趋势判断：

4B 编码模型已在 SWE-bench 上超越 120B 模型（gpt-oss-120b）——这是 2026 年最令人震撼的效率突破之一。
mini-swe-1.7B 以 1.7B 参数达到 18.6% 通过率，一年前这是 7B+ 模型才能触及的领域。
这类小编码模型特别适合作为 Agent 工作流中的「Worker」子模型——处理 Scope 明确的子任务，响应快、成本低。

三、语音识别（ASR / 听写）

模型	参数	亮点
Qwen3-ASR-1.7B	1.7B	阿里通义，52 语种方言，开源 SOTA，强噪/快语速/歌唱鲁棒
Qwen3-ASR-0.6B	0.6B	支持 128 并发、2000 倍吞吐，10 秒处理 5h 音频
GLM-ASR-Nano-2512	1.5B	全面超越 OpenAI Whisper V3，低音量（耳语）场景极强
Voxtral-Mini-4B-Realtime	4B	Mistral 出品，13 种语言实时转录，延迟 240ms~2400ms 可配，边缘可部署
MiMo-V2.5-ASR	小	小米开源，多语言/方言/复杂声学场景，2026.04 发布
StepAudio 2.5 ASR	轻量	阶跃星辰，端侧离线 ASR，降噪/方言优化
Whisper Tiny	39M	经典极小，ONNX 可跑浏览器

趋势判断：

2026 年 ASR 格局已彻底改变。 Whisper V3 不再是默认选择——GLM-ASR-Nano（1.5B）已在多项基准上全面超越它，且参数更少。
Voxtral-Mini-4B-Realtime 将实时转录延迟压到 240ms，并可跑在边缘设备上，是实时语音助手场景的理想选择。
Qwen3-ASR-0.6B 的 2000 倍吞吐意味着 10 秒处理 5 小时音频，离线批量转写的效率已经极高。

四、语音合成（TTS / 说话）

模型	参数	亮点
Voxtral-4B-TTS	4B	Mistral，3 秒克隆音色，20 预设语音，9 种语言
Microsoft VibeVoice-Realtime	0.5B	300ms 首包延迟，边输入边朗读，支持 4 角色对话
CosyVoice2	0.5B	阿里通义，150ms 超低延迟流式，方言/情感细粒度控制
Pocket TTS	100M	Kyutai，CPU 无 GPU 可跑，高质量语音克隆
MOSS-TTS-Nano	100M	多语言，CPU 可跑，Apache 2.0
TinyTTS	1.6M	ONNX 53x 实时率，仅 86ms 首包延迟

趋势判断：

百兆级（100M）TTS 模型已可纯 CPU 运行——Pocket TTS 和 MOSS-TTS-Nano 让语音合成的硬件门槛降到了零。
**VibeVoice-Realtime（0.5B）**做到了 300ms 首包延迟 + 边输入边朗读（交错窗口架构），还支持最多 4 个角色的自然对话。
Voxtral-4B-TTS 是目前 ≤4B 最强的 TTS，3 秒克隆+9 种语言，量化后约 2.5~3GB。
CosyVoice2 在流式场景的 150ms 延迟已达商用水准，方言和情感控制是其独特优势。

五、视觉语言模型（VLM / 图像理解）

模型	参数	亮点
Moondream	2B	极高效，可跑在任何设备上，图像理解能力扎实
SmolVLM (HuggingFace)	2B+	轻量开源多模态，图片问答/描述
Phi-4-multimodal	5.6B	文本+图像+音频输入，128K 上下文
MiniMind-V	67M	从零训练，1.3 元+1 小时训出 VLM
nanoVLM-450M	450M	极简 VLM 训练框架，ViT + 轻量 LM
Qwen3.5-4B（多模态版）	4B	原生多模态训练，无需额外视觉模块

趋势判断：

67M 的 MiniMind-V 让人跌破眼镜——1.3 元电费就能训出一个能看图的 VLM，全流程代码开源。
Moondream 2B 是 ≤4B 多模态里综合最强的开源选择之一，主打「跑在任何地方」。
Qwen3.5-4B 的多模态能力是原生训练的，无需额外视觉模块，架构简洁。

六、全模态大一统（Omni）

模型	参数	亮点
MiniCPM-o 4.5	9B（总参）	端到端全双工，图像+视频+文本+音频输入+语音输出，手机可跑
Phi-4-multimodal	5.6B	文本+图像+音频输入，128K 上下文

MiniCPM-o 4.5 虽然总参数 9B，但其中语音编码器基于 Whisper-medium，TTS 基于 CosyVoice2，纯语言部分仅 8B。它的核心意义在于：一个模型搞定看、听、说、想，支持全双工语音流式对话，且能跑在手机上。论文¹展示了它在实时交互场景中的端到端延迟和人机对话自然度，都已逼近商业级水平。

9B 虽略超本文 ≤4B 的范畴，但考虑到其各子模块的实际有效参数规模，以及它对「小模型全模态」方向的标杆意义，仍值得列出参考。

七、选型建议：按场景对号入座

你的场景          →  推荐模型

纯文本推理        →  Gemma 4 E4B / Qwen3.5-4B
代码生成/Agent    →  mini-coder-4b / Jan-Code-4B
语音转文字        →  Qwen3-ASR-1.7B / GLM-ASR-Nano
语音合成/克隆     →  VibeVoice-0.5B / Voxtral-4B-TTS
图像理解          →  Moondream 2B / Qwen3.5-4B-VL
全模态合一        →  MiniCPM-o / Phi-4-multimodal
从零学习/教学     →  MiniMind-3 (64M) / MiniMind-V (67M)

给资源有限的开发者：

只有 8GB 显存的游戏本？ → Qwen3.5-4B 量化版是你门槛最低的入口。
想在手机上离线跑 AI？ → **Gemma 4 E2B（2B）**仅需约 1.5GB 内存，128K 上下文，原生多模态。
要本地代码助手？ → mini-coder-4b（SWE-bench 26.8%）是目前 4B 以下编码最强。
要做语音转文字产品？ → 不要再默认选 Whisper，试试 GLM-ASR-Nano（1.5B），全面超越且参数更小。
想做实时语音助手？ → VibeVoice-0.5B（300ms 延迟）或 Voxtral-4B-TTS+ASR 组合。
从零学习大模型训练？ → **MiniMind-3（64M）**或 MiniMind-V（67M），一小时训完，全流程代码开源。

写在最后

这个领域的变化速度让我在撰写这份报告时不得不反复更新数据——Gemma 4 在 4 月 2 日发布，Qwen3.5 小模型在 3 月才开源，而 mini-coder-4b 用 1/30 的参数超越了 120B 模型。

一年前的"不可能"，现在都成了"免费下载"。

我们可以合理推测：到 2026 年底，一个能在手机上本地运行的 2B 模型，其综合能力将逼近今天的 7B 云端模型；而 4B 模型将覆盖绝大多数日常 AI 场景——包括中等复杂度的代码生成、多轮对话、实时语音交互和基本的图像理解。

开源小模型的终极目标，不是取代大模型，而是让 AI 变得无处不在、永不付费、永不掉线。

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction，https://arxiv.org/html/2604.27393 ↩

开源 ≤4B 小模型全景报告（2026年5月）

一、纯语言模型（LLM）

二、代码模型（Coding）

三、语音识别（ASR / 听写）

四、语音合成（TTS / 说话）

五、视觉语言模型（VLM / 图像理解）

六、全模态大一统（Omni）

七、选型建议：按场景对号入座

写在最后

Footnotes

评论