$
cat ./intro.md
本地运行大语言模型(LLM)已经从极客玩具变成了实用工具。但面对 HuggingFace 上数以千计的模型,如何选择最适合自己硬件配置的?
本文基于我的实际测试(i7-6700 + 8GB RAM,无独立显卡),提供一个按 VRAM 分层的模型选择框架。
$
./show-hardware-tiers.sh
按 VRAM 选择模型
VRAM
推荐模型
能力
4-8GB
Qwen2.5-7B-Q4
Llama-3.1-8B-Q4 基础对话、简单任务
Llama-3.1-8B-Q4 基础对话、简单任务
16GB
Qwen2.5-14B-Q4
Qwen2.5-32B-Q4 代码辅助、中文优化
Qwen2.5-32B-Q4 代码辅助、中文优化
24GB+
Llama-3.1-70B-Q4
DeepSeek-V3 接近 GPT-4 水平
DeepSeek-V3 接近 GPT-4 水平
$
cat ./recommendations.md
模型推荐
中文用户首选:Qwen2.5 系列
阿里云的 Qwen2.5 是目前中文场景下性价比最高的选择:
- 32B-Q4: 20GB VRAM,性能接近 70B 模型
- Apache 2.0 许可: 完全开源商用
- 中文原生优化: 无需额外微调
bash
# Ollama 安装 Qwen2.5
ollama pull qwen2.5:14b
# 运行
ollama run qwen2.5:14b
英文/通用场景:Llama 3.1 系列
Meta 的 Llama 3.1 拥有最完善的生态和长期维护保障:
- 70B-Q4: 40GB VRAM,生态最完善
- 工具调用支持: 原生 function calling
- 多语言支持: 英语最强,其他语言可用
追求性价比:Qwen2.5-14B-Q4
对于资源受限的环境(如我的 8GB 机器),14B 是甜点选择:
- 仅 9GB VRAM
- 中文和代码能力均衡
- 响应速度快
边缘设备:Gemma-2-2B-Q4
Google 的 Gemma 2 系列专为边缘设备优化:
- 仅 2GB VRAM
- 手机/树莓派可运行
- 适合简单问答和分类任务
$
cat ./hermes-integration.md
Hermes Agent 集成
将本地模型接入 Hermes Agent 的配置示例:
yaml
models:
default: "local/qwen2.5:14b"
local:
provider: "ollama"
base_url: "http://localhost:11434"
fallback:
enabled: true
trigger: "timeout_or_complex"
推荐推理框架: Ollama
- 一键安装运行
- 自动模型管理
- REST API 开箱即用
$
cat ./conclusion.md
结论
选择本地模型的核心原则是:按硬件分层,按场景选择。
对于中文用户,Qwen2.5 系列提供了最佳的性价比和许可条款。对于追求极限性能的用户,Llama 3.1 70B 是更稳妥的长期投资。
最重要的是开始尝试——即使是 7B 模型,也足以支撑大多数日常任务。