2026-03-09
llmfit:根据硬件自动匹配最佳LLM模型的神器
前言
想本地运行大语言模型,但不知道自己的电脑能跑哪些模型?选了模型又纠结用什么量化级别?llmfit 就是来解决这个问题的。
它是一个命令行工具,能自动检测你的 CPU、内存、GPU 配置,然后从数百个模型中筛选出最适合你硬件的选择,还会告诉你用哪个量化级别效果最好。
安装
macOS / Linux 一键安装:
curl -fsSL https://llmfit.axjns.dev/install.sh | sh
Homebrew:
brew tap alexsjones/llmfit
brew install llmfit
Windows:
可以通过 Scoop 安装。
使用方法
TUI 交互模式(默认)
直接运行 llmfit 会启动一个漂亮的终端界面:
- 顶部显示你的系统配置(CPU、RAM、GPU、VRAM 等)
- 列出所有模型,按综合评分排序
- 每行显示评分、预估速度、最佳量化、运行模式、内存占用等
常用快捷键:
| 按键 | 功能 |
|---|---|
j/k 或 ↑/↓ |
上下导航 |
/ |
搜索模式 |
f |
筛选适配等级(全部/可运行/完美/良好/勉强) |
d |
下载选中模型 |
p |
硬件规划模式(查看运行该模型需要什么配置) |
t |
切换主题 |
Enter |
查看详情 |
q |
退出 |
CLI 命令行模式
# 显示所有模型排名
llmfit --cli
# 只看完美适配的模型,前5个
llmfit fit --perfect -n 5
# 查看系统配置
llmfit system
# 搜索模型
llmfit search "llama 8b"
# 查看单个模型详情
llmfit info "Mistral-7B"
# 获取推荐(JSON格式,方便脚本调用)
llmfit recommend --json --limit 5
# 按用途筛选
llmfit recommend --use-case coding --limit 3
# 规划硬件需求
llmfit plan "Qwen/Qwen3-4B-MLX-4bit" --context 8192
REST API 模式
llmfit serve --host 0.0.0.0 --port 8787
启动后可以通过 HTTP 接口查询,适合集成到集群调度系统中。
核心功能
1. 硬件检测
支持多种 GPU:
| 厂商 | 检测方式 |
|---|---|
| NVIDIA | nvidia-smi |
| AMD | rocm-smi |
| Intel Arc | sysfs/lspci |
| Apple Silicon | system_profiler(统一内存) |
| 华为昇腾 | npu-smi |
2. 多维度评分
每个模型从四个维度评分(0-100):
- 质量:参数量、模型声誉、量化损失
- 速度:基于后端、参数量、量化的预估 tokens/sec
- 适配:内存利用率(最佳区间 50-80%)
- 上下文:上下文窗口能力
不同用途权重不同,比如聊天场景速度权重高,推理场景质量权重高。
3. 动态量化选择
不是假设固定量化级别,而是从 Q8_0(最佳质量)到 Q2_K(最省内存)自动尝试,选择能在你硬件上运行的最高质量级别。
4. MoE 架构支持
自动识别混合专家模型(如 Mixtral、DeepSeek-V3),因为每次只激活部分专家,实际显存需求比参数总量少很多。
5. 运行时集成
支持三种本地运行时:
- Ollama:自动检测已安装模型,支持直接下载
- llama.cpp:GGUF 格式下载
- MLX:Apple Silicon 专用
运行模式与适配等级
运行模式:
- GPU:模型完全装入显存,最快
- MoE:活跃专家在显存,非活跃在内存
- CPU+GPU:显存不够,部分用内存
- CPU:纯 CPU 运行
适配等级:
- Perfect:完美适配,GPU 加速
- Good:良好,有空间余量
- Marginal:勉强,或纯 CPU
- Too Tight:跑不了
实用技巧
手动指定显存
如果自动检测失败:
llmfit --memory=24G
限制上下文长度
llmfit --max-context 8192
连接远程 Ollama
OLLAMA_HOST="http://192.168.1.100:11434" llmfit
总结
llmfit 解决了本地运行 LLM 最头疼的问题:选模型。不用再查各种 benchmark、纠结量化级别,一个命令就知道你的机器能跑什么、怎么跑最快。
对于想尝试本地 LLM 但不确定硬件是否够用的朋友,强烈推荐试试这个工具。