成本优化 on 超越网

AI Agent 多模型路由架构：从单一供应商到智能分发

Thu, 28 May 2026 10:00:00 +0800

前言

2026年Q1，我的AI Agent系统经历了三次重大架构迭代。最初是单一模型驱动，后来发现成本失控和响应不稳定，最终演变成现在的多模型智能路由架构。

这篇文章记录完整的架构演进过程，以及为什么"智能路由"比"固定模型"更适合生产环境。

一、架构演进历程

1.1 第一阶段：单一模型（2025年Q1-Q2）

最初的设计非常简单：所有任务都路由到同一个模型。

用户请求 → 单一模型 → 响应

问题暴露：

成本不可控：简单任务占用高能力模型资源
限流风险：供应商API限流时全系统阻塞
响应延迟：高峰期排队严重

1.2 第二阶段：静态路由（2025年Q3-Q4）

根据任务类型手动配置路由规则：

代码任务 → Model A
文本任务 → Model B
多模态 → Model C

改进：成本降低约20%，但路由规则僵化，无法适应新场景。

1.3 第三阶段：智能路由（2026年Q1至今）

基于任务复杂度、成本、响应时间的动态路由：

用户请求 → 路由引擎 → 最优模型 → 响应
↓
降级策略（失败时自动切换）

二、路由引擎设计

2.1 任务分类器

使用轻量级分类器判断任务类型和复杂度：

维度	判断标准	权重
任务类型	代码/文本/多模态/数学	40%
复杂度	简单/中等/复杂	30%
时效性	实时/准实时/异步	20%
成本敏感	是/否	10%

2.2 模型能力矩阵

模型	代码	文本	多模态	数学	成本/千token
GLM Coding Lite	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐	⭐⭐	¥0.5
DeepSeek-V3	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐	⭐⭐⭐⭐⭐	¥1.0
SenseNova 6.7	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	¥2.0
Claude 3.5	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐	¥5.0

2.3 路由决策逻辑

def route_task(task):
 # 1. 分类任务
 task_type = classify(task)
 complexity = assess_complexity(task)

 # 2. 根据类型选择候选模型
 candidates = get_candidates(task_type)

 # 3. 根据复杂度过滤
 if complexity == "简单":
 candidates = filter_by_cost(candidates)
 elif complexity == "复杂":
 candidates = filter_by_capability(candidates, min_rating=4)

 # 4. 健康检查
 candidates = [m for m in candidates if is_healthy(m)]

 # 5. 选择最优
 return select_optimal(candidates, task)

三、降级与容错

3.1 三级降级策略

级别	触发条件	降级行为
L1	单个模型超时	切换同类型备选模型
L2	同类型全部失败	降级到低成本模型
L3	所有模型不可用	返回缓存结果或排队

3.2 熔断机制

circuit_breaker:
 failure_threshold: 5 # 连续失败5次触发熔断
 reset_timeout: 60s  # 60秒后尝试恢复
 half_open_requests: 3 # 半开状态测试请求数

3.3 监控指标

成功率：目标 > 99.5%
平均响应时间：目标 < 2s
成本/请求：目标 < ¥0.05
降级频率：目标 < 1%/天

四、成本优化效果

指标	单一模型	智能路由	优化幅度
月均成本	¥3,200	¥1,850	↓42%
平均响应时间	3.2s	1.8s	↓44%
限流事件	12次/月	0次/月	↓100%
任务成功率	94%	99.7%	↑6%

五、实现细节

5.1 统一API接口

# config.yaml
routing:
 providers:
 - name: glm-coding
 weight: 30
 timeout: 10s
 - name: deepseek
 weight: 25
 timeout: 15s
 - name: sensenova
 weight: 25
 timeout: 20s
 - name: claude
 weight: 20
 timeout: 30s

 fallback_order:
 - glm-coding
 - deepseek
 - sensenova
 - claude

5.2 健康检查

# 每30秒检查一次
curl -s "http://model-api/health" | jq '.status'

5.3 日志与追踪

所有请求记录到日志系统，支持按以下维度分析：

多供应商AI服务组合架构：为什么我不用单一API

Wed, 27 May 2026 13:00:00 +0800

前言

过去两年，我经历过三次AI服务供应商切换：从最初的单一供应商依赖，到发现限流和成本问题后的多供应商组合，再到现在的"可编程认知系统"架构。

这篇文章记录我当前的AI服务组合架构，以及为什么"单一供应商"在长期生产环境中是一个风险点。

一、当前架构概览

我的AI服务组合由四个供应商组成：

供应商	模型	主要用途	接入方式
智谱AI	GLM Coding Lite	代码生成、技术问答	API
MiniMax	多种模型	文本生成、创意写作	API
DeepSeek	DeepSeek-V3	代码审查、复杂推理	API
SenseNova	6.7 Flash-Lite	日常协作、多模态	自定义提供商

核心原则：没有单一供应商承担超过40%的工作负载。

二、为什么需要多供应商

2.1 限流风险

2025年Q3，我遇到的第一个限流事件：某供应商在高峰期对API调用实施软限流，返回429错误但不提供明确的重试头信息。当时我的自动化脚本全部阻塞，等待了12分钟才恢复。

教训：单一供应商的限流策略不可控，多供应商可以自动降级。

2.2 成本优化

不同供应商的定价策略差异显著：

简单任务（文本摘要、格式转换）→ 使用低价供应商
中等复杂度（代码审查、技术文档）→ 使用性价比最优供应商
高复杂度（架构设计、深度分析）→ 使用高能力供应商

通过任务路由，整体成本比单一使用高能力供应商降低约35%。

2.3 能力互补

没有哪个供应商在所有任务上都是最优的：

代码生成：GLM Coding Lite 在小型脚本上表现优异
复杂推理：DeepSeek-V3 在多步推理任务上更稳定
创意写作：MiniMax 在中文创意内容上更有表现力
多模态：SenseNova 在图像理解和生成上有独特优势

三、架构实现

3.1 统一接入层

我使用 Hermes Agent 作为统一接入层，配置如下：

# config.yaml 片段
providers:
  - name: glm-coding
    provider: custom:glm-coding-lite
    weight: 30
  - name: minimax
    provider: minimax
    weight: 25
  - name: deepseek
    provider: deepseek
    weight: 25
  - name: sensenova
    provider: custom:sensenova-6.7-flash-lite
    weight: 20

3.2 任务路由策略

任务类型 → 路由规则
─────────────────────────────────────
代码生成    → glm-coding (优先) → deepseek (降级)
技术问答    → deepseek (优先) → glm-coding (降级)
创意写作    → minimax (优先) → sensenova (降级)
多模态      → sensenova (唯一)
日常协作    → sensenova (优先) → 其他 (降级)

3.3 降级机制

当主供应商不可用时，自动切换到备用供应商：

检测到错误（超时、5xx、限流）
记录错误日志（用于后续分析）
切换备用供应商
通知用户（仅当所有供应商都不可用时）

四、代理环境集成

所有AI API调用都经过 Clash Meta 代理（聚合飞鸟云46节点 + 杜卡迪21节点 = 67节点），确保：

网络稳定性：多节点冗余，单节点故障不影响整体
地理优化：根据供应商服务器位置选择最优出口节点
合规性：国内供应商走国内节点，海外供应商走海外节点

五、成本分析

项目	单一供应商	多供应商组合	节省
月均API调用	50,000次	50,000次	-
月均成本	¥1,200	¥780	35%
限流事件	3次/月	0次/月	100%
平均响应时间	2.3s	1.8s	22%

六、总结

多供应商AI服务组合的核心价值不是"省钱"，而是可控性：

限流可控：一个供应商限流，其他供应商可以承接
成本可控：根据任务复杂度选择最优供应商
能力可控：不同任务使用最适合的模型
架构可控：统一接入层可以灵活调整供应商配置

如果你也在构建AI基础设施，我的建议是：不要把所有鸡蛋放在一个篮子里，尤其是在生产环境中。

更新日志：本文基于2026年5月实际架构编写，供应商和模型可能随时间变化，请以实际配置为准。