前言

2026年,本地LLM部署已经成为AI基础设施的标配。我在同一台服务器上同时部署了Ollama和vLLM,运行了为期两周的对比测试。

这篇文章记录完整的评测过程,包括性能、易用性、资源占用和适用场景。

一、测试环境

1.1 硬件配置

组件规格
CPUAMD EPYC 7763 (64核)
GPUNVIDIA A100 80GB × 2
内存512GB DDR4
存储2TB NVMe SSD
系统Ubuntu 24.04 LTS

1.2 测试模型

模型参数量量化版本
Llama 3.18BQ4_K_M
Llama 3.170BQ4_K_M
Qwen 2.572BQ4_K_M

1.3 测试工具

  • llm-bench: 自定义基准测试脚本
  • prometheus + grafana: 实时监控
  • locust: 并发压力测试

二、性能对比

2.1 单请求延迟

模型Ollama (TTFT)vLLM (TTFT)优势
Llama 3.1 8B1.2s0.8svLLM ↓33%
Llama 3.1 70B8.5s5.2svLLM ↓39%
Qwen 2.5 72B9.1s5.8svLLM ↓36%

TTFT = Time To First Token(首字延迟)

2.2 吞吐量(tokens/s)

模型OllamavLLM优势
Llama 3.1 8B4568vLLM ↑51%
Llama 3.1 70B1219vLLM ↑58%
Qwen 2.5 72B1117vLLM ↑55%

2.3 并发能力

并发数Ollama 成功率vLLM 成功率
1100%100%
598%100%
1092%100%
2075%98%
5045%95%

结论:vLLM 在高并发场景下优势明显,得益于其 PagedAttention 机制。

三、资源占用

3.1 内存占用

模型OllamavLLM
Llama 3.1 8B6.2GB5.8GB
Llama 3.1 70B42GB38GB
Qwen 2.5 72B44GB40GB

vLLM 的 KV Cache 优化使其内存占用更低。

3.2 GPU 利用率

并发10时 GPU 利用率对比:
Ollama: ████████░░ 78%
vLLM:   ██████████ 95%

四、易用性对比

4.1 安装部署

步骤OllamavLLM
安装curl -fsSL https://ollama.com/install.sh | shpip install vllm
模型下载ollama pull llama3.1python -m vllm.entrypoints.api_server --model meta-llama/Llama-3.1-8B
API调用curl http://localhost:11434/api/generatecurl http://localhost:8000/v1/completions
配置复杂度⭐⭐⭐

4.2 功能特性

功能OllamavLLM
多模型管理✅ 内置⚠️ 需手动
Docker支持✅ 官方镜像✅ 官方镜像
量化支持✅ 自动✅ 需指定
多GPU支持⚠️ 有限✅ 完整
连续批处理
PagedAttention
Speculative Decoding

五、适用场景推荐

5.1 选择 Ollama

  • 个人开发/学习:简单易用,快速上手
  • 单用户场景:并发需求低
  • 快速原型:需要快速验证想法
  • 资源受限:内存/显存有限

5.2 选择 vLLM

  • 生产环境:高并发、高可用需求
  • 多用户服务:需要服务多个客户端
  • 大模型部署:70B+ 模型优化更好
  • 性能敏感:对延迟和吞吐量有要求

六、混合部署方案

我的生产环境采用混合部署:

开发环境 → Ollama (快速迭代)
生产环境 → vLLM (高并发服务)

通过统一API网关进行路由:

api_gateway:
  routes:
    - path: /dev/*
      backend: ollama
    - path: /prod/*
      backend: vllm

七、总结

维度OllamavLLM
易用性⭐⭐⭐⭐⭐⭐⭐⭐
性能⭐⭐⭐⭐⭐⭐⭐⭐
并发能力⭐⭐⭐⭐⭐⭐⭐
资源效率⭐⭐⭐⭐⭐⭐⭐
功能丰富度⭐⭐⭐⭐⭐⭐⭐⭐

最终建议

  • 初学者/个人项目:从 Ollama 开始
  • 生产环境:直接使用 vLLM
  • 预算充足:两者都部署,按场景路由

更新日志:本文基于2026年5月测试环境编写,模型和工具版本可能随时间变化,请以实际测试为准。