<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>TPU on 超越网</title><link>https://www.chaoyuewang.cn/tags/tpu/</link><description>Recent content in TPU on 超越网</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 01 Jun 2026 10:10:00 +0800</lastBuildDate><atom:link href="https://www.chaoyuewang.cn/tags/tpu/index.xml" rel="self" type="application/rss+xml"/><item><title>AI超算时代：从Chat到Agent的基础设施演进</title><link>https://www.chaoyuewang.cn/posts/infra/infra-2026-ai-hypercomputer/</link><pubDate>Mon, 01 Jun 2026 10:10:00 +0800</pubDate><guid>https://www.chaoyuewang.cn/posts/infra/infra-2026-ai-hypercomputer/</guid><description>&lt;h2 id="前言"&gt;前言&lt;/h2&gt;
&lt;p&gt;2026年，AI基础设施正在经历一场范式转移。曾经以&amp;quot;对话式AI&amp;quot;为核心的基础设施设计，正在被&amp;quot;代理智能&amp;quot;（Agentic Intelligence）的新需求所重塑。这场变革的核心不是&amp;quot;更多GPU&amp;quot;，而是&amp;quot;更智能的GPU&amp;quot;。&lt;/p&gt;
&lt;h2 id="为什么基础设施需要重新设计"&gt;为什么基础设施需要重新设计？&lt;/h2&gt;
&lt;h3 id="从单轮对话到多智能体协作"&gt;从单轮对话到多智能体协作&lt;/h3&gt;
&lt;p&gt;传统Chat AI的工作模式：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;用户输入 → 模型推理 → 返回答案
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;代理智能的工作模式：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;用户意图 → 主代理分解目标 → 多个子代理并行执行 → 结果汇总 → 强化学习反馈 → 迭代优化
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;这种模式转变对基础设施提出了全新要求：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;需求维度&lt;/th&gt;
&lt;th&gt;Chat AI&lt;/th&gt;
&lt;th&gt;Agentic AI&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;延迟要求&lt;/td&gt;
&lt;td&gt;秒级可接受&lt;/td&gt;
&lt;td&gt;毫秒级关键&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;内存需求&lt;/td&gt;
&lt;td&gt;KV Cache适中&lt;/td&gt;
&lt;td&gt;KV Cache巨大&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;网络拓扑&lt;/td&gt;
&lt;td&gt;点对点&lt;/td&gt;
&lt;td&gt;多对多协作&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;状态管理&lt;/td&gt;
&lt;td&gt;无状态&lt;/td&gt;
&lt;td&gt;有状态持久化&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;推理模式&lt;/td&gt;
&lt;td&gt;单模型&lt;/td&gt;
&lt;td&gt;多模型路由&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="google-tpu-8代专为agent设计"&gt;Google TPU 8代：专为Agent设计&lt;/h3&gt;
&lt;p&gt;Google在2026年Next大会上发布的TPU 8代，首次将训练芯片和推理芯片分开设计：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;TPU 8t（训练专用）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;单Superpod：9,600芯片，121 exaflops&lt;/li&gt;
&lt;li&gt;共享内存：2PB via ICI（片间互联）&lt;/li&gt;
&lt;li&gt;目标：将大模型训练周期从&amp;quot;月&amp;quot;缩短到&amp;quot;周&amp;quot;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;TPU 8i（推理专用）&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;片上SRAM：384MB（前代的3倍）&lt;/li&gt;
&lt;li&gt;HBM：288GB（容纳巨型KV Cache）&lt;/li&gt;
&lt;li&gt;ICI带宽：19.2 Tb/s（翻倍）&lt;/li&gt;
&lt;li&gt;推理性能/美元：提升80%&lt;/li&gt;
&lt;li&gt;片上延迟：降低5x（CAE引擎）&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="网络革命消除扩展税"&gt;网络革命：消除&amp;quot;扩展税&amp;quot;&lt;/h2&gt;
&lt;h3 id="virgo-fabric数据中心网络的新标准"&gt;Virgo Fabric：数据中心网络的新标准&lt;/h3&gt;
&lt;p&gt;Google的Virgo网络架构解决了传统数据中心网络的&amp;quot;扩展税&amp;quot;问题：&lt;/p&gt;</description><content:encoded><![CDATA[<h2 id="前言">前言</h2>
<p>2026年，AI基础设施正在经历一场范式转移。曾经以&quot;对话式AI&quot;为核心的基础设施设计，正在被&quot;代理智能&quot;（Agentic Intelligence）的新需求所重塑。这场变革的核心不是&quot;更多GPU&quot;，而是&quot;更智能的GPU&quot;。</p>
<h2 id="为什么基础设施需要重新设计">为什么基础设施需要重新设计？</h2>
<h3 id="从单轮对话到多智能体协作">从单轮对话到多智能体协作</h3>
<p>传统Chat AI的工作模式：</p>
<pre tabindex="0"><code>用户输入 → 模型推理 → 返回答案
</code></pre><p>代理智能的工作模式：</p>
<pre tabindex="0"><code>用户意图 → 主代理分解目标 → 多个子代理并行执行 → 结果汇总 → 强化学习反馈 → 迭代优化
</code></pre><p>这种模式转变对基础设施提出了全新要求：</p>
<table>
	<thead>
			<tr>
					<th>需求维度</th>
					<th>Chat AI</th>
					<th>Agentic AI</th>
			</tr>
	</thead>
	<tbody>
			<tr>
					<td>延迟要求</td>
					<td>秒级可接受</td>
					<td>毫秒级关键</td>
			</tr>
			<tr>
					<td>内存需求</td>
					<td>KV Cache适中</td>
					<td>KV Cache巨大</td>
			</tr>
			<tr>
					<td>网络拓扑</td>
					<td>点对点</td>
					<td>多对多协作</td>
			</tr>
			<tr>
					<td>状态管理</td>
					<td>无状态</td>
					<td>有状态持久化</td>
			</tr>
			<tr>
					<td>推理模式</td>
					<td>单模型</td>
					<td>多模型路由</td>
			</tr>
	</tbody>
</table>
<h3 id="google-tpu-8代专为agent设计">Google TPU 8代：专为Agent设计</h3>
<p>Google在2026年Next大会上发布的TPU 8代，首次将训练芯片和推理芯片分开设计：</p>
<p><strong>TPU 8t（训练专用）</strong></p>
<ul>
<li>单Superpod：9,600芯片，121 exaflops</li>
<li>共享内存：2PB via ICI（片间互联）</li>
<li>目标：将大模型训练周期从&quot;月&quot;缩短到&quot;周&quot;</li>
</ul>
<p><strong>TPU 8i（推理专用）</strong></p>
<ul>
<li>片上SRAM：384MB（前代的3倍）</li>
<li>HBM：288GB（容纳巨型KV Cache）</li>
<li>ICI带宽：19.2 Tb/s（翻倍）</li>
<li>推理性能/美元：提升80%</li>
<li>片上延迟：降低5x（CAE引擎）</li>
</ul>
<h2 id="网络革命消除扩展税">网络革命：消除&quot;扩展税&quot;</h2>
<h3 id="virgo-fabric数据中心网络的新标准">Virgo Fabric：数据中心网络的新标准</h3>
<p>Google的Virgo网络架构解决了传统数据中心网络的&quot;扩展税&quot;问题：</p>
<pre tabindex="0"><code>传统网络：每增加10%算力，网络开销增加30%
Virgo网络：每增加10%算力，网络开销仅增加2%
</code></pre><p><strong>关键指标：</strong></p>
<ul>
<li>单数据中心：连接134,000 TPU</li>
<li>跨数据中心：连接超1,000,000 TPU</li>
<li>GPU支持：单数据中心80,000 GPU</li>
</ul>
<h3 id="infiniband-vs-ethernet2026年的选择">InfiniBand vs Ethernet：2026年的选择</h3>
<table>
	<thead>
			<tr>
					<th>协议</th>
					<th>带宽</th>
					<th>延迟</th>
					<th>成本</th>
					<th>适用场景</th>
			</tr>
	</thead>
	<tbody>
			<tr>
					<td>InfiniBand NDR</td>
					<td>400 Gb/s</td>
					<td>&lt;1μs</td>
					<td>高</td>
					<td>训练集群</td>
			</tr>
			<tr>
					<td>InfiniBand XDR</td>
					<td>800 Gb/s</td>
					<td>&lt;0.8μs</td>
					<td>很高</td>
					<td>超大规模训练</td>
			</tr>
			<tr>
					<td>RoCE v2</td>
					<td>400 Gb/s</td>
					<td>2-5μs</td>
					<td>中</td>
					<td>推理集群</td>
			</tr>
			<tr>
					<td>Ethernet 800G</td>
					<td>800 Gb/s</td>
					<td>5-10μs</td>
					<td>低</td>
					<td>通用工作负载</td>
			</tr>
	</tbody>
</table>
<p><strong>2026年趋势</strong>：训练集群仍首选InfiniBand，但推理集群向RoCE/Ethernet迁移以降低成本。</p>
<h2 id="存储瓶颈的突破">存储瓶颈的突破</h2>
<h3 id="为什么存储成为新瓶颈">为什么存储成为新瓶颈？</h3>
<p>在GPU算力过剩的今天，存储I/O成为新的性能瓶颈：</p>
<pre tabindex="0"><code>GPU计算：100 TFLOPS
存储带宽：10 TB/s
数据加载时间：占总训练时间30-40%
</code></pre><h3 id="2026年存储创新">2026年存储创新</h3>
<p><strong>1. Google Managed Lustre</strong></p>
<ul>
<li>带宽：10 TB/s（前代的10倍）</li>
<li>容量：80 PB</li>
<li>对比：比其它超大规模云快20倍</li>
</ul>
<p><strong>2. Rapid Buckets</strong></p>
<ul>
<li>延迟：亚毫秒级</li>
<li>吞吐量：2000万OPS</li>
<li>适用：高频推理场景</li>
</ul>
<p><strong>3. Z4M VM（专用文件服务器）</strong></p>
<ul>
<li>本地SSD：168 TiB</li>
<li>RDMA支持</li>
<li>适用：自定义并行文件系统（Vast Data、Sycomp）</li>
</ul>
<h2 id="推理优化从模型到网关">推理优化：从模型到网关</h2>
<h3 id="ai推理网关的革命">AI推理网关的革命</h3>
<p>2026年，推理优化不再局限于模型压缩，而是扩展到整个推理链路：</p>
<p><strong>AI-Powered Inference Gateway</strong></p>
<ul>
<li>实时容量感知路由</li>
<li>基于ML的负载均衡</li>
<li>TTFT（首Token延迟）降低70%</li>
</ul>
<h3 id="vllm--tpu开源推理框架的崛起">vLLM + TPU：开源推理框架的崛起</h3>
<p>Google宣布对vLLM提供原生TPU支持，这意味着：</p>
<ul>
<li>开源推理框架不再被GPU生态绑定</li>
<li>TPU推理生态加速成熟</li>
<li>多厂商互操作性提升</li>
</ul>
<h2 id="成本优化spot-vm的成熟">成本优化：Spot VM的成熟</h2>
<h3 id="spot-vm从实验工具到生产选项">Spot VM：从&quot;实验工具&quot;到&quot;生产选项&quot;</h3>
<p>2026年，Spot VM（抢占式实例）已从实验性工具转变为生产级选项：</p>
<table>
	<thead>
			<tr>
					<th>云厂商</th>
					<th>Spot折扣</th>
					<th>中断率</th>
					<th>适用场景</th>
			</tr>
	</thead>
	<tbody>
			<tr>
					<td>GCP</td>
					<td>91%</td>
					<td>&lt;5%</td>
					<td>训练、批处理</td>
			</tr>
			<tr>
					<td>AWS</td>
					<td>90%</td>
					<td>&lt;10%</td>
					<td>推理、训练</td>
			</tr>
			<tr>
					<td>Azure</td>
					<td>85%</td>
					<td>&lt;8%</td>
					<td>通用工作负载</td>
			</tr>
	</tbody>
</table>
<p><strong>关键改进</strong>：</p>
<ul>
<li>中断通知时间从秒级延长到分钟级</li>
<li>自动检查点（Checkpoint）机制成熟</li>
<li>混合调度（Spot + On-demand）成为标准实践</li>
</ul>
<h2 id="选型指南">选型指南</h2>
<h3 id="场景1大模型训练">场景1：大模型训练</h3>
<p><strong>推荐架构</strong>：</p>
<pre tabindex="0"><code>GPU：NVIDIA H200/B200 或 TPU 8t
网络：InfiniBand NDR/XDR
存储：并行文件系统（Lustre/WekaFS）
调度：Slurm + Kubernetes
</code></pre><p><strong>推荐厂商</strong>：CoreWeave、Nebius、Lambda</p>
<h3 id="场景2大规模推理">场景2：大规模推理</h3>
<p><strong>推荐架构</strong>：</p>
<pre tabindex="0"><code>GPU：NVIDIA H100 或 TPU 8i
网络：RoCE v2 / Ethernet 800G
存储：对象存储 + KV Cache专用存储
调度：Kubernetes + vLLM
</code></pre><p><strong>推荐厂商</strong>：AWS、GCP、Vultr</p>
<h3 id="场景3多智能体协作">场景3：多智能体协作</h3>
<p><strong>推荐架构</strong>：</p>
<pre tabindex="0"><code>GPU：混合部署（训练节点 + 推理节点）
网络：Virgo Fabric / InfiniBand
存储：高吞吐 + 低延迟混合
调度：GKE Agent Sandbox + Axion N4A
</code></pre><p><strong>推荐厂商</strong>：GCP（原生支持Agent工作负载）</p>
<h2 id="总结">总结</h2>
<p>2026年的AI基础设施竞争，已从&quot;拼GPU数量&quot;转向&quot;拼系统效率&quot;。关键趋势包括：</p>
<ol>
<li><strong>芯片分化</strong>：训练芯片与推理芯片分离设计</li>
<li><strong>网络革命</strong>：消除扩展税，支持超大规模集群</li>
<li><strong>存储突破</strong>：10 TB/s带宽成为标配</li>
<li><strong>推理优化</strong>：从模型层扩展到网关层</li>
<li><strong>成本成熟</strong>：Spot VM成为生产级选项</li>
</ol>
<p>对于基础设施决策者而言，关键问题不再是&quot;买多少GPU&quot;，而是&quot;如何构建支持代理智能的完整系统&quot;。</p>
<hr>
<p><em>本文基于Google Cloud Next 2026、MLPerf基准测试及行业分析报告整理。</em></p>
]]></content:encoded></item></channel></rss>