$ cat ./intro.md

本地运行大语言模型(LLM)已经从极客玩具变成了实用工具。但面对 HuggingFace 上数以千计的模型,如何选择最适合自己硬件配置的?

本文基于我的实际测试(i7-6700 + 8GB RAM,无独立显卡),提供一个按 VRAM 分层的模型选择框架。

$ ./show-hardware-tiers.sh

按 VRAM 选择模型

VRAM 推荐模型 能力
4-8GB Qwen2.5-7B-Q4
Llama-3.1-8B-Q4
基础对话、简单任务
16GB Qwen2.5-14B-Q4
Qwen2.5-32B-Q4
代码辅助、中文优化
24GB+ Llama-3.1-70B-Q4
DeepSeek-V3
接近 GPT-4 水平
$ cat ./recommendations.md

模型推荐

中文用户首选:Qwen2.5 系列

阿里云的 Qwen2.5 是目前中文场景下性价比最高的选择:

  • 32B-Q4: 20GB VRAM,性能接近 70B 模型
  • Apache 2.0 许可: 完全开源商用
  • 中文原生优化: 无需额外微调
bash
# Ollama 安装 Qwen2.5
ollama pull qwen2.5:14b

# 运行
ollama run qwen2.5:14b

英文/通用场景:Llama 3.1 系列

Meta 的 Llama 3.1 拥有最完善的生态和长期维护保障:

  • 70B-Q4: 40GB VRAM,生态最完善
  • 工具调用支持: 原生 function calling
  • 多语言支持: 英语最强,其他语言可用

追求性价比:Qwen2.5-14B-Q4

对于资源受限的环境(如我的 8GB 机器),14B 是甜点选择:

  • 仅 9GB VRAM
  • 中文和代码能力均衡
  • 响应速度快

边缘设备:Gemma-2-2B-Q4

Google 的 Gemma 2 系列专为边缘设备优化:

  • 仅 2GB VRAM
  • 手机/树莓派可运行
  • 适合简单问答和分类任务
$ cat ./hermes-integration.md

Hermes Agent 集成

将本地模型接入 Hermes Agent 的配置示例:

yaml
models:
  default: "local/qwen2.5:14b"
  
  local:
    provider: "ollama"
    base_url: "http://localhost:11434"
    
  fallback:
    enabled: true
    trigger: "timeout_or_complex"

推荐推理框架: Ollama

  • 一键安装运行
  • 自动模型管理
  • REST API 开箱即用
$ cat ./conclusion.md

结论

选择本地模型的核心原则是:按硬件分层,按场景选择

对于中文用户,Qwen2.5 系列提供了最佳的性价比和许可条款。对于追求极限性能的用户,Llama 3.1 70B 是更稳妥的长期投资。

最重要的是开始尝试——即使是 7B 模型,也足以支撑大多数日常任务。