Solo Unicorn Club logoSolo Unicorn
2,700

Groq 深度拆解 — 最快的 AI 推理硬件

公司拆解GroqLPUAI推理NvidiaAI芯片
Groq 深度拆解 — 最快的 AI 推理硬件

Groq 深度拆解 — 最快的 AI 推理硬件

开场

1345 tokens/秒跑 Llama-3 8B,662 tokens/秒跑 Qwen-3 32B——Groq 的 LPU(Language Processing Unit)在推理速度上确实达到了行业最快。然后在 2025 年 12 月 24 日,Nvidia 以约 200 亿美元收购了 Groq 的资产和核心团队。估值 69 亿的公司被以 2.9 倍溢价买走。我从 2024 年初开始在个人项目中试用 Groq 的推理 API,速度体验令人印象深刻。这篇文章拆解 Groq 的技术故事,以及这次收购对 AI 推理市场意味着什么。

他们解决什么问题

GPU 不是为推理设计的。

这是 Groq 整个商业叙事的核心论点。Nvidia 的 GPU 架构源自图形处理,后来被用于深度学习训练,再被用于推理。但训练和推理是截然不同的工作负载:

  • 训练:大规模并行矩阵运算,GPU 擅长
  • 推理:序列化的 token 生成,需要低延迟和可预测性,GPU 不是最优解

Groq 的 LPU 从零开始为推理设计——确定性计算、大容量片上 SRAM、单核架构。结果:推理速度大约是同等 GPU 方案的 2 倍。

目标场景:

  • 实时对话和交互式 AI 应用(延迟敏感)
  • Agent 系统中的快速思考链(每个 Agent 调用都需要低延迟)
  • 大规模并发推理(同时服务大量用户)

产品矩阵

核心产品

GroqCloud API:通过 API 访问运行在 LPU 上的模型。支持 Llama、Qwen、Mistral 等主流开源模型。三个定价层级:

  • Free:免费入门,有速率限制
  • On Demand:按 token 付费,更高的调用限制
  • Business:定制方案,SLA 保障

LPU Inference Engine:Groq 自研的推理引擎,配合 LPU 硬件实现超低延迟推理。确定性(deterministic)是核心特性——同样的输入,同样的计算路径,同样的时间,可预测。

批处理 API:50% 折扣的异步推理,针对非实时场景。

技术差异化

LPU 架构:Groq 2016 年开始设计 LPU,这是第一款专门为推理设计的芯片。核心特点:

  • 确定性执行:不像 GPU 的非确定性调度,LPU 的每个操作时间可精确预测
  • 大容量片上 SRAM:减少对外部内存的依赖,降低延迟
  • 单核设计:简化硬件复杂度,提升能效比

在独立测试中,LPU 的推理速度大约是最好的 GPU 方案的 2 倍,吞吐量在 275-594 tokens/秒(视模型大小),远超传统 GPU 设置。

商业模式

定价策略

方案 价格 目标客户
Free Tier $0(速率限制) 开发者试用
On Demand(大模型输入) $0.05-$1.00 每百万token 标准使用
On Demand(大模型输出) $0.08-$3.00 每百万token 标准使用
Batch API 标准价 50% 折扣 批量处理
Business 定制报价 企业客户

Groq 的定价策略是"速度溢价"——价格和 GPU 推理方案相当甚至更低,但速度快 2 倍。

收入模式

API 使用量计费为主。2023 年收入约 320 万美元,2025 年预计 5 亿美元——增速极快但起点很低。

融资与估值

轮次 时间 金额 估值
早期融资 2019-2023 多轮
最新轮 2025.9 $7.5亿 $69亿
Nvidia 收购 2025.12 $200亿

最后一轮由 Disruptive 领投,BlackRock、Neuberger Berman 参投。另获沙特阿拉伯 15 亿美元的基础设施投资承诺。

然后,三个月后被 Nvidia 买走了。

Nvidia 收购的结构

这不是传统的全资收购:

  • Nvidia 支付约 200 亿美元,获取 Groq 的 IP 许可和核心团队
  • 创始人 Jonathan Ross 和总裁 Sunny Madra 及高管团队加入 Nvidia
  • Groq 名义上"继续作为独立公司",由财务官 Simon Edwards 担任新 CEO
  • 被定性为"非独占许可协议"而非公司收购——这个结构设计显然是为了应对反垄断审查

客户与市场

标杆客户

Groq 的主要用户群包括:

  • AI 开发者和创业公司(通过 GroqCloud API)
  • 需要低延迟推理的实时应用开发者
  • Agent 框架开发者(每次 Agent 调用的延迟直接影响用户体验)

由于被 Nvidia 收购后的整合期,Groq 的独立客户发展方向变得不明确。

市场规模

AI 推理芯片市场在 2026 年预计超过 500 亿美元,而且增速远快于训练芯片——因为每个 AI 应用上线后,推理需求是持续的。Groq 的 LPU 瞄准的就是这个市场,但被 Nvidia 收购后,LPU 更可能作为 Nvidia 产品组合的一部分出现。

竞争格局

维度 Groq (LPU) Nvidia (GPU) Google (TPU) AWS (Inferentia)
芯片类型 推理专用 ASIC 通用 GPU 训练+推理 ASIC 推理专用 ASIC
推理速度 最快 中等
训练能力 最强
生态系统 最大 仅GCP 仅AWS
模型兼容性 主流开源模型 几乎所有模型 Google模型+开源 有限
市场状态 已被Nvidia收购 主导者 持续投入 持续投入

我实际看到的

好的:Groq 的速度体验确实不一样。在做 Agent 链式调用的项目中,每个步骤用 Groq 跑比用 GPU 推理快了将近一倍——当 Agent 需要 5-6 步推理时,总延迟从 15 秒降到 7-8 秒。这对用户体验的影响是质的,不是量的。Free Tier 的门槛很低,注册就能用,这让个人开发者和创业团队可以零成本体验最快的推理速度。

复杂的:LPU 只能做推理,不能做训练。这意味着 Groq 永远是一个"推理层"的玩家,无法进入训练市场(这是 Nvidia 最赚钱的部分)。而且 LPU 对大模型的支持有限——70B 以上的模型在 LPU 上跑会遇到内存限制。模型兼容性不如 GPU 广泛。

现实的:Nvidia 200 亿收购 Groq 本身就是最有意义的信号——行业最大的玩家认为推理专用芯片值得收购。但这也意味着 Groq 作为独立公司的故事结束了。GroqCloud API 还在运营,但长期看它很可能被整合进 Nvidia 的产品线。对于已经在用 Groq 的开发者来说,需要开始考虑备选方案。

我的判断

  • ✅ 适合:需要极低推理延迟的实时应用(聊天机器人、语音 Agent);做 Agent 系统需要快速链式调用的团队;想体验最快推理速度的开发者(Free Tier 零成本)
  • ❌ 跳过如果:你需要长期稳定的供应商承诺(Nvidia 收购后前景不明);你需要跑 405B 级别的超大模型;你的场景是批处理而非实时(速度优势不重要)

一句话:Groq 证明了推理专用芯片的价值,LPU 的速度优势是真实的,但 Nvidia 的收购让它从"独立挑战者"变成了"巨头的零部件"——未来这项技术会以什么形式存在,取决于 Nvidia 的战略选择。

互动

推理延迟对你的 AI 应用重要吗?我的观察是,大多数 API 调用场景对 500ms 和 200ms 的差别不敏感,但 Agent 多步推理和实时语音交互场景下,延迟差异决定了产品能不能用。你最在意推理延迟的场景是什么?