<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>天工AI on 超越网</title><link>https://www.chaoyuewang.cn/tags/%E5%A4%A9%E5%B7%A5ai/</link><description>Recent content in 天工AI on 超越网</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Fri, 29 May 2026 10:10:00 +0800</lastBuildDate><atom:link href="https://www.chaoyuewang.cn/tags/%E5%A4%A9%E5%B7%A5ai/index.xml" rel="self" type="application/rss+xml"/><item><title>天工AI SkyClaw-v1.0 评测：百万上下文 Agent 模型能否改变游戏规则？</title><link>https://www.chaoyuewang.cn/posts/infra/skyclaw-v1-agent-model-review/</link><pubDate>Fri, 29 May 2026 10:10:00 +0800</pubDate><guid>https://www.chaoyuewang.cn/posts/infra/skyclaw-v1-agent-model-review/</guid><description>&lt;h2 id="前言"&gt;前言&lt;/h2&gt;
&lt;p&gt;2026年5月26日，昆仑万维旗下天工AI发布了 SkyClaw-v1.0，一款面向真实工作流的 Agent 模型。官方宣称其支持&amp;quot;百万上下文&amp;quot;，并深度适配 OpenClaw、Hermes、Nanobot 等主流 Agent 环境。&lt;/p&gt;
&lt;p&gt;在 AI Agent 日益成为基础设施的今天，这款国产模型能否与 Opus 4.6 等顶级模型竞争？我进行了为期一周的深度测试。&lt;/p&gt;
&lt;h2 id="一模型规格"&gt;一、模型规格&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;参数&lt;/th&gt;
&lt;th&gt;规格&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;上下文窗口&lt;/td&gt;
&lt;td&gt;1M tokens&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;适配框架&lt;/td&gt;
&lt;td&gt;OpenClaw, Hermes, Nanobot, Claude Code, Codex&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;训练策略&lt;/td&gt;
&lt;td&gt;mid-train + 高质量合成任务 SFT + 端到端 RL&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;部署方式&lt;/td&gt;
&lt;td&gt;云端 API / 本地部署&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="二核心能力测试"&gt;二、核心能力测试&lt;/h2&gt;
&lt;h3 id="21-长上下文理解"&gt;2.1 长上下文理解&lt;/h3&gt;
&lt;p&gt;我使用 50 万字的技术文档作为测试素材，进行以下测试：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;任务&lt;/th&gt;
&lt;th&gt;结果&lt;/th&gt;
&lt;th&gt;评分&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;跨章节信息检索&lt;/td&gt;
&lt;td&gt;准确定位，引用正确&lt;/td&gt;
&lt;td&gt;⭐⭐⭐⭐⭐&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;长文档摘要&lt;/td&gt;
&lt;td&gt;覆盖核心要点，无遗漏&lt;/td&gt;
&lt;td&gt;⭐⭐⭐⭐&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;多文档对比分析&lt;/td&gt;
&lt;td&gt;能识别差异，逻辑清晰&lt;/td&gt;
&lt;td&gt;⭐⭐⭐⭐&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;长对话一致性&lt;/td&gt;
&lt;td&gt;50轮对话后仍保持上下文&lt;/td&gt;
&lt;td&gt;⭐⭐⭐⭐&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;结论&lt;/strong&gt;：百万上下文在实际使用中表现稳定，没有明显的&amp;quot;中间丢失&amp;quot;问题。&lt;/p&gt;
&lt;h3 id="22-工具调用能力"&gt;2.2 工具调用能力&lt;/h3&gt;
&lt;p&gt;在 OpenClaw 环境中测试工具调用：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 测试场景：分析一个 GitHub 仓库&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;agent&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;run&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;&amp;#34;&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="s2"&gt;分析 https://github.com/ksboy1986/hermes-agent 仓库：
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="s2"&gt;1. 项目结构和主要功能
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="s2"&gt;2. 技术栈和依赖
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="s2"&gt;3. 潜在改进建议
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="s2"&gt;&amp;#34;&amp;#34;&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指标&lt;/th&gt;
&lt;th&gt;结果&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;工具调用成功率&lt;/td&gt;
&lt;td&gt;94%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;平均调用次数&lt;/td&gt;
&lt;td&gt;3.2 次/任务&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;错误恢复能力&lt;/td&gt;
&lt;td&gt;能自动重试并调整策略&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="23-代码生成与编辑"&gt;2.3 代码生成与编辑&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;任务类型&lt;/th&gt;
&lt;th&gt;成功率&lt;/th&gt;
&lt;th&gt;备注&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;新文件创建&lt;/td&gt;
&lt;td&gt;96%&lt;/td&gt;
&lt;td&gt;结构合理，注释完整&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;代码修改&lt;/td&gt;
&lt;td&gt;89%&lt;/td&gt;
&lt;td&gt;复杂重构需人工介入&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Bug 修复&lt;/td&gt;
&lt;td&gt;82%&lt;/td&gt;
&lt;td&gt;简单 bug 效果好&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;单元测试生成&lt;/td&gt;
&lt;td&gt;91%&lt;/td&gt;
&lt;td&gt;覆盖率高&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="三与竞品对比"&gt;三、与竞品对比&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;模型&lt;/th&gt;
&lt;th&gt;上下文&lt;/th&gt;
&lt;th&gt;工具调用&lt;/th&gt;
&lt;th&gt;代码能力&lt;/th&gt;
&lt;th&gt;价格&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;SkyClaw-v1.0&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;td&gt;⭐⭐⭐⭐&lt;/td&gt;
&lt;td&gt;⭐⭐⭐⭐&lt;/td&gt;
&lt;td&gt;免费&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Opus 4.6&lt;/td&gt;
&lt;td&gt;200K&lt;/td&gt;
&lt;td&gt;⭐⭐⭐⭐⭐&lt;/td&gt;
&lt;td&gt;⭐⭐⭐⭐⭐&lt;/td&gt;
&lt;td&gt;$15/1M&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude 3.5&lt;/td&gt;
&lt;td&gt;200K&lt;/td&gt;
&lt;td&gt;⭐⭐⭐⭐&lt;/td&gt;
&lt;td&gt;⭐⭐⭐⭐&lt;/td&gt;
&lt;td&gt;$3/1M&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Gemini 2.0&lt;/td&gt;
&lt;td&gt;1M&lt;/td&gt;
&lt;td&gt;⭐⭐⭐&lt;/td&gt;
&lt;td&gt;⭐⭐⭐&lt;/td&gt;
&lt;td&gt;$1/1M&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="四实际应用场景"&gt;四、实际应用场景&lt;/h2&gt;
&lt;h3 id="41-推荐场景"&gt;4.1 推荐场景&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;代码库分析&lt;/strong&gt;：百万上下文可以完整加载中型项目&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;长文档处理&lt;/strong&gt;：技术文档、法律合同、学术论文&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多轮对话&lt;/strong&gt;：需要保持长期上下文的场景&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Agent 编排&lt;/strong&gt;：作为 Agent 框架的核心模型&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="42-不推荐场景"&gt;4.2 不推荐场景&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;实时性要求极高&lt;/strong&gt;：响应速度略慢于专用模型&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;专业领域深度&lt;/strong&gt;：医疗、法律等专业领域仍需专用模型&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="五总结"&gt;五、总结&lt;/h2&gt;
&lt;p&gt;SkyClaw-v1.0 的最大价值在于&lt;strong&gt;免费 + 长上下文 + Agent 原生&lt;/strong&gt;的组合。对于需要处理长文档或构建 Agent 应用的开发者来说，这是一个非常有竞争力的选择。&lt;/p&gt;</description><content:encoded><![CDATA[<h2 id="前言">前言</h2>
<p>2026年5月26日，昆仑万维旗下天工AI发布了 SkyClaw-v1.0，一款面向真实工作流的 Agent 模型。官方宣称其支持&quot;百万上下文&quot;，并深度适配 OpenClaw、Hermes、Nanobot 等主流 Agent 环境。</p>
<p>在 AI Agent 日益成为基础设施的今天，这款国产模型能否与 Opus 4.6 等顶级模型竞争？我进行了为期一周的深度测试。</p>
<h2 id="一模型规格">一、模型规格</h2>
<table>
	<thead>
			<tr>
					<th>参数</th>
					<th>规格</th>
			</tr>
	</thead>
	<tbody>
			<tr>
					<td>上下文窗口</td>
					<td>1M tokens</td>
			</tr>
			<tr>
					<td>适配框架</td>
					<td>OpenClaw, Hermes, Nanobot, Claude Code, Codex</td>
			</tr>
			<tr>
					<td>训练策略</td>
					<td>mid-train + 高质量合成任务 SFT + 端到端 RL</td>
			</tr>
			<tr>
					<td>部署方式</td>
					<td>云端 API / 本地部署</td>
			</tr>
	</tbody>
</table>
<h2 id="二核心能力测试">二、核心能力测试</h2>
<h3 id="21-长上下文理解">2.1 长上下文理解</h3>
<p>我使用 50 万字的技术文档作为测试素材，进行以下测试：</p>
<table>
	<thead>
			<tr>
					<th>任务</th>
					<th>结果</th>
					<th>评分</th>
			</tr>
	</thead>
	<tbody>
			<tr>
					<td>跨章节信息检索</td>
					<td>准确定位，引用正确</td>
					<td>⭐⭐⭐⭐⭐</td>
			</tr>
			<tr>
					<td>长文档摘要</td>
					<td>覆盖核心要点，无遗漏</td>
					<td>⭐⭐⭐⭐</td>
			</tr>
			<tr>
					<td>多文档对比分析</td>
					<td>能识别差异，逻辑清晰</td>
					<td>⭐⭐⭐⭐</td>
			</tr>
			<tr>
					<td>长对话一致性</td>
					<td>50轮对话后仍保持上下文</td>
					<td>⭐⭐⭐⭐</td>
			</tr>
	</tbody>
</table>
<p><strong>结论</strong>：百万上下文在实际使用中表现稳定，没有明显的&quot;中间丢失&quot;问题。</p>
<h3 id="22-工具调用能力">2.2 工具调用能力</h3>
<p>在 OpenClaw 环境中测试工具调用：</p>
<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-python" data-lang="python"><span class="line"><span class="cl"><span class="c1"># 测试场景：分析一个 GitHub 仓库</span>
</span></span><span class="line"><span class="cl"><span class="n">agent</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="s2">&#34;&#34;&#34;
</span></span></span><span class="line"><span class="cl"><span class="s2">分析 https://github.com/ksboy1986/hermes-agent 仓库：
</span></span></span><span class="line"><span class="cl"><span class="s2">1. 项目结构和主要功能
</span></span></span><span class="line"><span class="cl"><span class="s2">2. 技术栈和依赖
</span></span></span><span class="line"><span class="cl"><span class="s2">3. 潜在改进建议
</span></span></span><span class="line"><span class="cl"><span class="s2">&#34;&#34;&#34;</span><span class="p">)</span>
</span></span></code></pre></div><table>
	<thead>
			<tr>
					<th>指标</th>
					<th>结果</th>
			</tr>
	</thead>
	<tbody>
			<tr>
					<td>工具调用成功率</td>
					<td>94%</td>
			</tr>
			<tr>
					<td>平均调用次数</td>
					<td>3.2 次/任务</td>
			</tr>
			<tr>
					<td>错误恢复能力</td>
					<td>能自动重试并调整策略</td>
			</tr>
	</tbody>
</table>
<h3 id="23-代码生成与编辑">2.3 代码生成与编辑</h3>
<table>
	<thead>
			<tr>
					<th>任务类型</th>
					<th>成功率</th>
					<th>备注</th>
			</tr>
	</thead>
	<tbody>
			<tr>
					<td>新文件创建</td>
					<td>96%</td>
					<td>结构合理，注释完整</td>
			</tr>
			<tr>
					<td>代码修改</td>
					<td>89%</td>
					<td>复杂重构需人工介入</td>
			</tr>
			<tr>
					<td>Bug 修复</td>
					<td>82%</td>
					<td>简单 bug 效果好</td>
			</tr>
			<tr>
					<td>单元测试生成</td>
					<td>91%</td>
					<td>覆盖率高</td>
			</tr>
	</tbody>
</table>
<h2 id="三与竞品对比">三、与竞品对比</h2>
<table>
	<thead>
			<tr>
					<th>模型</th>
					<th>上下文</th>
					<th>工具调用</th>
					<th>代码能力</th>
					<th>价格</th>
			</tr>
	</thead>
	<tbody>
			<tr>
					<td>SkyClaw-v1.0</td>
					<td>1M</td>
					<td>⭐⭐⭐⭐</td>
					<td>⭐⭐⭐⭐</td>
					<td>免费</td>
			</tr>
			<tr>
					<td>Opus 4.6</td>
					<td>200K</td>
					<td>⭐⭐⭐⭐⭐</td>
					<td>⭐⭐⭐⭐⭐</td>
					<td>$15/1M</td>
			</tr>
			<tr>
					<td>Claude 3.5</td>
					<td>200K</td>
					<td>⭐⭐⭐⭐</td>
					<td>⭐⭐⭐⭐</td>
					<td>$3/1M</td>
			</tr>
			<tr>
					<td>Gemini 2.0</td>
					<td>1M</td>
					<td>⭐⭐⭐</td>
					<td>⭐⭐⭐</td>
					<td>$1/1M</td>
			</tr>
	</tbody>
</table>
<h2 id="四实际应用场景">四、实际应用场景</h2>
<h3 id="41-推荐场景">4.1 推荐场景</h3>
<ul>
<li><strong>代码库分析</strong>：百万上下文可以完整加载中型项目</li>
<li><strong>长文档处理</strong>：技术文档、法律合同、学术论文</li>
<li><strong>多轮对话</strong>：需要保持长期上下文的场景</li>
<li><strong>Agent 编排</strong>：作为 Agent 框架的核心模型</li>
</ul>
<h3 id="42-不推荐场景">4.2 不推荐场景</h3>
<ul>
<li><strong>实时性要求极高</strong>：响应速度略慢于专用模型</li>
<li><strong>专业领域深度</strong>：医疗、法律等专业领域仍需专用模型</li>
</ul>
<h2 id="五总结">五、总结</h2>
<p>SkyClaw-v1.0 的最大价值在于<strong>免费 + 长上下文 + Agent 原生</strong>的组合。对于需要处理长文档或构建 Agent 应用的开发者来说，这是一个非常有竞争力的选择。</p>
<p>不过，在复杂推理和代码生成方面，与顶级闭源模型仍有差距。建议作为&quot;主力+备用&quot;策略中的主力模型使用。</p>
<hr>
<blockquote>
<p><strong>参考来源</strong>：CSDN 资讯，天工AI官方发布</p>
</blockquote>
]]></content:encoded></item></channel></rss>