前言

2026年5月26日,昆仑万维旗下天工AI发布了 SkyClaw-v1.0,一款面向真实工作流的 Agent 模型。官方宣称其支持"百万上下文",并深度适配 OpenClaw、Hermes、Nanobot 等主流 Agent 环境。

在 AI Agent 日益成为基础设施的今天,这款国产模型能否与 Opus 4.6 等顶级模型竞争?我进行了为期一周的深度测试。

一、模型规格

参数规格
上下文窗口1M tokens
适配框架OpenClaw, Hermes, Nanobot, Claude Code, Codex
训练策略mid-train + 高质量合成任务 SFT + 端到端 RL
部署方式云端 API / 本地部署

二、核心能力测试

2.1 长上下文理解

我使用 50 万字的技术文档作为测试素材,进行以下测试:

任务结果评分
跨章节信息检索准确定位,引用正确⭐⭐⭐⭐⭐
长文档摘要覆盖核心要点,无遗漏⭐⭐⭐⭐
多文档对比分析能识别差异,逻辑清晰⭐⭐⭐⭐
长对话一致性50轮对话后仍保持上下文⭐⭐⭐⭐

结论:百万上下文在实际使用中表现稳定,没有明显的"中间丢失"问题。

2.2 工具调用能力

在 OpenClaw 环境中测试工具调用:

# 测试场景:分析一个 GitHub 仓库
agent.run("""
分析 https://github.com/ksboy1986/hermes-agent 仓库:
1. 项目结构和主要功能
2. 技术栈和依赖
3. 潜在改进建议
""")
指标结果
工具调用成功率94%
平均调用次数3.2 次/任务
错误恢复能力能自动重试并调整策略

2.3 代码生成与编辑

任务类型成功率备注
新文件创建96%结构合理,注释完整
代码修改89%复杂重构需人工介入
Bug 修复82%简单 bug 效果好
单元测试生成91%覆盖率高

三、与竞品对比

模型上下文工具调用代码能力价格
SkyClaw-v1.01M⭐⭐⭐⭐⭐⭐⭐⭐免费
Opus 4.6200K⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐$15/1M
Claude 3.5200K⭐⭐⭐⭐⭐⭐⭐⭐$3/1M
Gemini 2.01M⭐⭐⭐⭐⭐⭐$1/1M

四、实际应用场景

4.1 推荐场景

  • 代码库分析:百万上下文可以完整加载中型项目
  • 长文档处理:技术文档、法律合同、学术论文
  • 多轮对话:需要保持长期上下文的场景
  • Agent 编排:作为 Agent 框架的核心模型

4.2 不推荐场景

  • 实时性要求极高:响应速度略慢于专用模型
  • 专业领域深度:医疗、法律等专业领域仍需专用模型

五、总结

SkyClaw-v1.0 的最大价值在于免费 + 长上下文 + Agent 原生的组合。对于需要处理长文档或构建 Agent 应用的开发者来说,这是一个非常有竞争力的选择。

不过,在复杂推理和代码生成方面,与顶级闭源模型仍有差距。建议作为"主力+备用"策略中的主力模型使用。


参考来源:CSDN 资讯,天工AI官方发布