← 返回首页

开源 ≤4B 小模型全景报告(2026年5月)

一句话结论: 如今 4B 模型的能力已逼近一年前的 7B~9B 级别,2B 可跑多模态,0.5B 能做实时 TTS,百兆级模型可在 CPU 上运行语音克隆。

2025 年底到 2026 年初,开源小模型领域迎来了爆发式增长。Qwen3.5 全家族覆盖 0.8B 到 397B,Google Gemma 4 首次以 Apache 2.0 协议开放从 2B 到 31B 的全系列,微软 Phi-4-mini 以 3.8B 打出了远超体量的数学推理能力,而语音领域的 Qwen3-ASR、GLM-ASR-Nano 更是在听写任务上正面超越了 OpenAI Whisper V3。

本文从七个维度,梳理截至 2026 年 5 月 8 日的开源 ≤4B 小模型格局。


一、纯语言模型(LLM)

模型 参数 上下文 亮点 协议
Qwen3.5-0.8B 0.8B 128K 极致轻量,端侧首选,速度极快 Apache 2.0
Qwen3.5-2B 2B 128K 轻量 Agent 基座 Apache 2.0
Qwen3.5-4B 4B 128K 原生多模态,轻量 Agent 核心,8GB 显卡可跑 Apache 2.0
Gemma 4 E2B 2.1B 128K 2026.04 发布,手机/树莓派可离线跑,GPQA 追平 Gemma3 27B Apache 2.0
Gemma 4 E4B 4B 128K 支持图/文/音/视频多模态输入,Fn Call,结构化输出 Apache 2.0
Phi-4-mini 3.8B 128K 微软出品,数学/推理/编码强,Q4 量化约 3GB 显存 MIT
MiniCPM3-4B 4B 128K 超越 Phi-3.5-mini 和 GPT-3.5 商业可商用
SmolLM3 (HuggingFace) 3B 超越 Llama 3.2 3B 和 Qwen2.5 3B Apache 2.0
Zen4-Mini 4B 40K 端侧密集模型 Apache 2.0
Jan-Nano 4B 专为深度研究设计,支持 MCP Apache 2.0
MiniMind-3 64M 从零训练,单卡 2h,显存仅 0.5GB 开源
MiniMind-3-MoE 198M/A64M MoE 极小模型 开源

趋势判断:


二、代码模型(Coding)

模型 参数 亮点 基准
mini-coder-4b 4B 从 Qwen3-Coder 30B-A3B 蒸馏,SWE-bench 26.8% 超越 gpt-oss-120b(26.0%) SWE-bench Verified
Jan-Code-4B 4B 基于 Qwen3-4B 微调,代码生成/编辑/重构/调试,本地快速迭代
mini-swe-1.7B 1.7B 蒸馏版,SWE-bench 18.6%,参数量极小 SWE-bench
TinyCodeLM 150M / 400M 完全开源,Python 代码合成,72B tokens 训练 Python 代码合成
MiniCoderX 极小 AST/CFG 感知编码,适合学习实验

趋势判断:


三、语音识别(ASR / 听写)

模型 参数 亮点
Qwen3-ASR-1.7B 1.7B 阿里通义,52 语种方言,开源 SOTA,强噪/快语速/歌唱鲁棒
Qwen3-ASR-0.6B 0.6B 支持 128 并发、2000 倍吞吐,10 秒处理 5h 音频
GLM-ASR-Nano-2512 1.5B 全面超越 OpenAI Whisper V3,低音量(耳语)场景极强
Voxtral-Mini-4B-Realtime 4B Mistral 出品,13 种语言实时转录,延迟 240ms~2400ms 可配,边缘可部署
MiMo-V2.5-ASR 小米开源,多语言/方言/复杂声学场景,2026.04 发布
StepAudio 2.5 ASR 轻量 阶跃星辰,端侧离线 ASR,降噪/方言优化
Whisper Tiny 39M 经典极小,ONNX 可跑浏览器

趋势判断:


四、语音合成(TTS / 说话)

模型 参数 亮点
Voxtral-4B-TTS 4B Mistral,3 秒克隆音色,20 预设语音,9 种语言
Microsoft VibeVoice-Realtime 0.5B 300ms 首包延迟,边输入边朗读,支持 4 角色对话
CosyVoice2 0.5B 阿里通义,150ms 超低延迟流式,方言/情感细粒度控制
Pocket TTS 100M Kyutai,CPU 无 GPU 可跑,高质量语音克隆
MOSS-TTS-Nano 100M 多语言,CPU 可跑,Apache 2.0
TinyTTS 1.6M ONNX 53x 实时率,仅 86ms 首包延迟

趋势判断:


五、视觉语言模型(VLM / 图像理解)

模型 参数 亮点
Moondream 2B 极高效,可跑在任何设备上,图像理解能力扎实
SmolVLM (HuggingFace) 2B+ 轻量开源多模态,图片问答/描述
Phi-4-multimodal 5.6B 文本+图像+音频输入,128K 上下文
MiniMind-V 67M 从零训练,1.3 元+1 小时训出 VLM
nanoVLM-450M 450M 极简 VLM 训练框架,ViT + 轻量 LM
Qwen3.5-4B(多模态版) 4B 原生多模态训练,无需额外视觉模块

趋势判断:


六、全模态大一统(Omni)

模型 参数 亮点
MiniCPM-o 4.5 9B(总参) 端到端全双工,图像+视频+文本+音频输入+语音输出,手机可跑
Phi-4-multimodal 5.6B 文本+图像+音频输入,128K 上下文

MiniCPM-o 4.5 虽然总参数 9B,但其中语音编码器基于 Whisper-medium,TTS 基于 CosyVoice2,纯语言部分仅 8B。它的核心意义在于:一个模型搞定看、听、说、想,支持全双工语音流式对话,且能跑在手机上。论文1展示了它在实时交互场景中的端到端延迟和人机对话自然度,都已逼近商业级水平。

9B 虽略超本文 ≤4B 的范畴,但考虑到其各子模块的实际有效参数规模,以及它对「小模型全模态」方向的标杆意义,仍值得列出参考。


七、选型建议:按场景对号入座

你的场景          →  推荐模型

纯文本推理        →  Gemma 4 E4B / Qwen3.5-4B
代码生成/Agent    →  mini-coder-4b / Jan-Code-4B
语音转文字        →  Qwen3-ASR-1.7B / GLM-ASR-Nano
语音合成/克隆     →  VibeVoice-0.5B / Voxtral-4B-TTS
图像理解          →  Moondream 2B / Qwen3.5-4B-VL
全模态合一        →  MiniCPM-o / Phi-4-multimodal
从零学习/教学     →  MiniMind-3 (64M) / MiniMind-V (67M)

给资源有限的开发者:

  1. 只有 8GB 显存的游戏本?Qwen3.5-4B 量化版是你门槛最低的入口。
  2. 想在手机上离线跑 AI? → **Gemma 4 E2B(2B)**仅需约 1.5GB 内存,128K 上下文,原生多模态。
  3. 要本地代码助手?mini-coder-4b(SWE-bench 26.8%)是目前 4B 以下编码最强。
  4. 要做语音转文字产品?不要再默认选 Whisper,试试 GLM-ASR-Nano(1.5B),全面超越且参数更小。
  5. 想做实时语音助手?VibeVoice-0.5B(300ms 延迟)或 Voxtral-4B-TTS+ASR 组合。
  6. 从零学习大模型训练? → **MiniMind-3(64M)**或 MiniMind-V(67M),一小时训完,全流程代码开源。

写在最后

这个领域的变化速度让我在撰写这份报告时不得不反复更新数据——Gemma 4 在 4 月 2 日发布,Qwen3.5 小模型在 3 月才开源,而 mini-coder-4b 用 1/30 的参数超越了 120B 模型。

一年前的"不可能",现在都成了"免费下载"。

我们可以合理推测:到 2026 年底,一个能在手机上本地运行的 2B 模型,其综合能力将逼近今天的 7B 云端模型;而 4B 模型将覆盖绝大多数日常 AI 场景——包括中等复杂度的代码生成、多轮对话、实时语音交互和基本的图像理解。

开源小模型的终极目标,不是取代大模型,而是让 AI 变得无处不在、永不付费、永不掉线。


Footnotes

  1. MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction,https://arxiv.org/html/2604.27393

评论

有异议、有补充,或只想留一句话,皆可直言。我要的不是客气话,而是真反馈。