Groq 深度拆解 — 最快的 AI 推理硬件

开场

1345 tokens/秒跑 Llama-3 8B，662 tokens/秒跑 Qwen-3 32B——Groq 的 LPU（Language Processing Unit）在推理速度上确实达到了行业最快。然后在 2025 年 12 月 24 日，Nvidia 以约 200 亿美元收购了 Groq 的资产和核心团队。估值 69 亿的公司被以 2.9 倍溢价买走。我从 2024 年初开始在个人项目中试用 Groq 的推理 API，速度体验令人印象深刻。这篇文章拆解 Groq 的技术故事，以及这次收购对 AI 推理市场意味着什么。

他们解决什么问题

GPU 不是为推理设计的。

这是 Groq 整个商业叙事的核心论点。Nvidia 的 GPU 架构源自图形处理，后来被用于深度学习训练，再被用于推理。但训练和推理是截然不同的工作负载：

训练：大规模并行矩阵运算，GPU 擅长
推理：序列化的 token 生成，需要低延迟和可预测性，GPU 不是最优解

Groq 的 LPU 从零开始为推理设计——确定性计算、大容量片上 SRAM、单核架构。结果：推理速度大约是同等 GPU 方案的 2 倍。

目标场景：

实时对话和交互式 AI 应用（延迟敏感）
Agent 系统中的快速思考链（每个 Agent 调用都需要低延迟）
大规模并发推理（同时服务大量用户）

产品矩阵

核心产品

GroqCloud API：通过 API 访问运行在 LPU 上的模型。支持 Llama、Qwen、Mistral 等主流开源模型。三个定价层级：

Free：免费入门，有速率限制
On Demand：按 token 付费，更高的调用限制
Business：定制方案，SLA 保障

LPU Inference Engine：Groq 自研的推理引擎，配合 LPU 硬件实现超低延迟推理。确定性（deterministic）是核心特性——同样的输入，同样的计算路径，同样的时间，可预测。

批处理 API：50% 折扣的异步推理，针对非实时场景。

技术差异化

LPU 架构：Groq 2016 年开始设计 LPU，这是第一款专门为推理设计的芯片。核心特点：

确定性执行：不像 GPU 的非确定性调度，LPU 的每个操作时间可精确预测
大容量片上 SRAM：减少对外部内存的依赖，降低延迟
单核设计：简化硬件复杂度，提升能效比

在独立测试中，LPU 的推理速度大约是最好的 GPU 方案的 2 倍，吞吐量在 275-594 tokens/秒（视模型大小），远超传统 GPU 设置。

商业模式

定价策略

方案	价格	目标客户
Free Tier	$0（速率限制）	开发者试用
On Demand（大模型输入）	$0.05-$1.00 每百万token	标准使用
On Demand（大模型输出）	$0.08-$3.00 每百万token	标准使用
Batch API	标准价 50% 折扣	批量处理
Business	定制报价	企业客户

Groq 的定价策略是"速度溢价"——价格和 GPU 推理方案相当甚至更低，但速度快 2 倍。

收入模式

API 使用量计费为主。2023 年收入约 320 万美元，2025 年预计 5 亿美元——增速极快但起点很低。

融资与估值

轮次	时间	金额	估值
早期融资	2019-2023	多轮	—
最新轮	2025.9	$7.5亿	$69亿
Nvidia 收购	2025.12	$200亿	—

最后一轮由 Disruptive 领投，BlackRock、Neuberger Berman 参投。另获沙特阿拉伯 15 亿美元的基础设施投资承诺。

然后，三个月后被 Nvidia 买走了。

Nvidia 收购的结构

这不是传统的全资收购：

Nvidia 支付约 200 亿美元，获取 Groq 的 IP 许可和核心团队
创始人 Jonathan Ross 和总裁 Sunny Madra 及高管团队加入 Nvidia
Groq 名义上"继续作为独立公司"，由财务官 Simon Edwards 担任新 CEO
被定性为"非独占许可协议"而非公司收购——这个结构设计显然是为了应对反垄断审查

客户与市场

标杆客户

Groq 的主要用户群包括：

AI 开发者和创业公司（通过 GroqCloud API）
需要低延迟推理的实时应用开发者
Agent 框架开发者（每次 Agent 调用的延迟直接影响用户体验）

由于被 Nvidia 收购后的整合期，Groq 的独立客户发展方向变得不明确。

市场规模

AI 推理芯片市场在 2026 年预计超过 500 亿美元，而且增速远快于训练芯片——因为每个 AI 应用上线后，推理需求是持续的。Groq 的 LPU 瞄准的就是这个市场，但被 Nvidia 收购后，LPU 更可能作为 Nvidia 产品组合的一部分出现。

竞争格局

维度	Groq (LPU)	Nvidia (GPU)	Google (TPU)	AWS (Inferentia)
芯片类型	推理专用 ASIC	通用 GPU	训练+推理 ASIC	推理专用 ASIC
推理速度	最快	快	快	中等
训练能力	无	最强	强	无
生态系统	小	最大	仅GCP	仅AWS
模型兼容性	主流开源模型	几乎所有模型	Google模型+开源	有限
市场状态	已被Nvidia收购	主导者	持续投入	持续投入

我实际看到的

好的：Groq 的速度体验确实不一样。在做 Agent 链式调用的项目中，每个步骤用 Groq 跑比用 GPU 推理快了将近一倍——当 Agent 需要 5-6 步推理时，总延迟从 15 秒降到 7-8 秒。这对用户体验的影响是质的，不是量的。Free Tier 的门槛很低，注册就能用，这让个人开发者和创业团队可以零成本体验最快的推理速度。

复杂的：LPU 只能做推理，不能做训练。这意味着 Groq 永远是一个"推理层"的玩家，无法进入训练市场（这是 Nvidia 最赚钱的部分）。而且 LPU 对大模型的支持有限——70B 以上的模型在 LPU 上跑会遇到内存限制。模型兼容性不如 GPU 广泛。

现实的：Nvidia 200 亿收购 Groq 本身就是最有意义的信号——行业最大的玩家认为推理专用芯片值得收购。但这也意味着 Groq 作为独立公司的故事结束了。GroqCloud API 还在运营，但长期看它很可能被整合进 Nvidia 的产品线。对于已经在用 Groq 的开发者来说，需要开始考虑备选方案。

我的判断

✅ 适合：需要极低推理延迟的实时应用（聊天机器人、语音 Agent）；做 Agent 系统需要快速链式调用的团队；想体验最快推理速度的开发者（Free Tier 零成本）
❌ 跳过如果：你需要长期稳定的供应商承诺（Nvidia 收购后前景不明）；你需要跑 405B 级别的超大模型；你的场景是批处理而非实时（速度优势不重要）

一句话：Groq 证明了推理专用芯片的价值，LPU 的速度优势是真实的，但 Nvidia 的收购让它从"独立挑战者"变成了"巨头的零部件"——未来这项技术会以什么形式存在，取决于 Nvidia 的战略选择。

互动

推理延迟对你的 AI 应用重要吗？我的观察是，大多数 API 调用场景对 500ms 和 200ms 的差别不敏感，但 Agent 多步推理和实时语音交互场景下，延迟差异决定了产品能不能用。你最在意推理延迟的场景是什么？

Groq 深度拆解 — 最快的 AI 推理硬件

Groq 深度拆解 — 最快的 AI 推理硬件

开场

他们解决什么问题

产品矩阵

核心产品

技术差异化

商业模式

定价策略

收入模式

融资与估值

Nvidia 收购的结构

客户与市场

标杆客户

市场规模

竞争格局

我实际看到的

我的判断

互动

Keep reading.

Together AI 深度拆解 — 开源模型推理

Fireworks AI 深度拆解 — 快速生成式 AI 推理

Glean 深度拆解 — 估值 72 亿美元的企业 AI 搜索独角兽