本地大模型选择指南：从 4GB 到 24GB VRAM

$ cat ./intro.md

本地运行大语言模型（LLM）已经从极客玩具变成了实用工具。但面对 HuggingFace 上数以千计的模型，如何选择最适合自己硬件配置的？

本文基于我的实际测试（i7-6700 + 8GB RAM，无独立显卡），提供一个按 VRAM 分层的模型选择框架。

$ ./show-hardware-tiers.sh

按 VRAM 选择模型

VRAM 推荐模型能力

4-8GB Qwen2.5-7B-Q4
Llama-3.1-8B-Q4 基础对话、简单任务

16GB Qwen2.5-14B-Q4
Qwen2.5-32B-Q4 代码辅助、中文优化

24GB+ Llama-3.1-70B-Q4
DeepSeek-V3 接近 GPT-4 水平

$ cat ./recommendations.md

模型推荐

中文用户首选：Qwen2.5 系列

阿里云的 Qwen2.5 是目前中文场景下性价比最高的选择：

32B-Q4: 20GB VRAM，性能接近 70B 模型
Apache 2.0 许可: 完全开源商用
中文原生优化: 无需额外微调

bash

# Ollama 安装 Qwen2.5
ollama pull qwen2.5:14b

# 运行
ollama run qwen2.5:14b

英文/通用场景：Llama 3.1 系列

Meta 的 Llama 3.1 拥有最完善的生态和长期维护保障：

70B-Q4: 40GB VRAM，生态最完善
工具调用支持: 原生 function calling
多语言支持: 英语最强，其他语言可用

追求性价比：Qwen2.5-14B-Q4

对于资源受限的环境（如我的 8GB 机器），14B 是甜点选择：

仅 9GB VRAM
中文和代码能力均衡
响应速度快

边缘设备：Gemma-2-2B-Q4

Google 的 Gemma 2 系列专为边缘设备优化：

仅 2GB VRAM
手机/树莓派可运行
适合简单问答和分类任务

$ cat ./hermes-integration.md

Hermes Agent 集成

将本地模型接入 Hermes Agent 的配置示例：

yaml

models:
  default: "local/qwen2.5:14b"
  
  local:
    provider: "ollama"
    base_url: "http://localhost:11434"
    
  fallback:
    enabled: true
    trigger: "timeout_or_complex"

推荐推理框架: Ollama

一键安装运行
自动模型管理
REST API 开箱即用

$ cat ./conclusion.md

结论

选择本地模型的核心原则是：按硬件分层，按场景选择。

对于中文用户，Qwen2.5 系列提供了最佳的性价比和许可条款。对于追求极限性能的用户，Llama 3.1 70B 是更稳妥的长期投资。

最重要的是开始尝试——即使是 7B 模型，也足以支撑大多数日常任务。