Solo Unicorn Club logoSolo Unicorn
2,600

Fireworks AI 深度拆解 — 快速生成式 AI 推理

公司拆解Fireworks AIAI推理PyTorch推理优化
Fireworks AI 深度拆解 — 快速生成式 AI 推理

Fireworks AI 深度拆解 — 快速生成式 AI 推理

开场

每天处理超过 10 万亿个 token,服务超过 1 万家客户——Fireworks AI 在推理基础设施赛道上跑出了实实在在的规模。创始团队来自 Meta 的 PyTorch 团队,包括 PyTorch 的核心贡献者。2.8 亿美元 ARR,40 亿美元估值。我在一个需要多模态推理(文本 + 图像 + 语音)的项目中评估过 Fireworks 的平台,它的产品定位和 Together AI 有重叠,但在"复合 AI 系统"(compound AI systems)方向上走得更远。

他们解决什么问题

现代 AI 应用不是调一个模型就行了。一个真实的 AI 产品可能需要:

  • LLM 做文本理解和生成
  • Embedding 模型做语义搜索
  • Whisper 做语音识别
  • TTS 模型做语音合成
  • Stable Diffusion / Flux 做图像生成
  • 多个模型之间的编排和路由

Fireworks AI 要做的就是把这些全部放在一个平台上,统一管理推理基础设施。他们管这叫"compound AI systems"的推理层。

目标客户:

  • 构建多模态 AI 产品的技术团队
  • 需要快速推理和低延迟的 AI 应用开发者
  • 想要一站式推理平台(不用在不同供应商之间跳转)的企业
  • 做 Voice Agent 的公司(Fireworks 在语音推理上有专门布局)

产品矩阵

核心产品

Serverless Inference API:支持文本(Llama 3.1、DeepSeek R1 等)、图像(Stable Diffusion、Flux.1)、音频(Whisper)、以及新兴的视频模型。按 token 或按请求计费。

FireAttention:Fireworks 自研的 CUDA kernel,专门优化 Transformer 的 attention 计算。在 Mixtral 8x7B 等模型上实现了 300+ tokens/秒的速度。配合 Speculative Decoding 技术进一步提速。

Dedicated Deployments:为大客户提供专属 GPU 实例。按 GPU 小时计费,保证算力独占。

Fine-tuning 服务:支持在平台上微调 Llama 等开源模型,按训练 token 计费。

Voice Agent 基础设施:2025 年新推出的产品方向。将语音识别、LLM 推理、TTS 打包成实时语音对话系统。这是一个增长很快的新赛道。

技术差异化

Fireworks 的技术壁垒在推理引擎层:

  • FireAttention:自研 CUDA kernel,比 vLLM 等开源推理引擎更快
  • Speculative Decoding:在不损失质量的前提下加速 token 生成
  • 多模态推理统一:文本、图像、音频在同一平台上,模型间调度和资源分配有优化
  • PyTorch 团队基因:对 PyTorch 生态和 GPU 编程的深度理解是核心竞争力

商业模式

定价策略

方案 价格 目标客户
Serverless API(文本) 按 token 计费(模型不同价格不同) 开发者/企业
Serverless API(图像) 按请求计费 图像应用开发者
Serverless API(音频) 按时长/请求计费 语音应用开发者
Dedicated GPU 按 GPU 小时计费 大型企业
Fine-tuning 按训练 token 计费 模型定制需求
On-demand 按需付费,无承诺 弹性需求

收入模式

主要收入来自 token 计费的推理 API 和 GPU 小时的专属部署。Fireworks 的收入结构比 Together AI 更偏向 API(token 计费),GPU 租赁占比相对较小。

融资与估值

轮次 时间 金额 估值
Series A 2023.12 $2500万
Series B 2024.5 $5200万
Series C 2025.10 $2.5亿 $40亿

总融资 3.27 亿美元。Series C 由 Lightspeed Venture Partners、Index Ventures、Evantic 领投,Sequoia Capital、Nvidia、AMD、Databricks 参投。

注意投资人阵容:Nvidia + AMD 两家芯片巨头同时投资,加上 Sequoia 和 Databricks——这个组合说明 Fireworks 在推理层的技术能力得到了广泛认可。

客户与市场

标杆客户

  • Cursor:AI 代码编辑器的推理后端之一
  • Samsung:消费电子巨头的 AI 功能
  • Uber / DoorDash:实时推理需求的配送平台
  • Notion:知识管理平台的 AI 功能(服务超 1 亿用户)
  • Shopify / Upwork / GitLab:SaaS 产品的 AI 集成

这些客户的共同特征:都是把 AI 功能嵌入核心产品的公司,需要高吞吐、低延迟的推理服务。

市场规模

和 Together AI 类似,Fireworks 的目标市场是 AI 推理服务(2026 年 500-800 亿美元)。但 Fireworks 在多模态推理和 Voice Agent 方向上的差异化,让它的可寻址市场更大一些。

竞争格局

维度 Fireworks AI Together AI Groq AWS Bedrock
多模态支持 最全(文/图/音/视频) 仅文本
自研推理引擎 FireAttention LPU
Voice Agent 有专门方案
客户质量 Samsung/Uber/Cursor AI创业公司为主 开发者为主 大企业
ARR $2.8亿 $3亿 未公开 远超
估值 $40亿 $33亿 $69亿(已被收购)

我实际看到的

好的:Fireworks 在多模态推理的统一体验上做得最好。我测试过一个需要同时调用 LLM + Whisper + TTS 的语音 Agent 项目,在 Fireworks 上可以用统一的 API 和账户管理,而在其他平台上需要拼接 2-3 个不同的服务商。FireAttention 在 Mixtral 模型上的速度确实领先。客户名单的质量很高——Cursor、Notion、Uber 都是实打实的大流量客户。

复杂的:推理市场的价格竞争非常激烈。Fireworks、Together、DeepInfra 之间的价格差距在快速缩小。当推理变成纯商品化服务时,利润率会被压缩。而且 Fireworks 的品牌知名度不如 Together AI(Together 在开源社区的声量更大)。

现实的:PyTorch 团队的基因是 Fireworks 最大的技术资产,但也是一个限制——公司文化更偏工程驱动而非销售驱动。在推理这个需要大量 GTM(Go-to-Market)投入的市场中,技术优秀但销售不够激进的公司可能会被规模更大的对手追上。40 亿估值对应 2.8 亿 ARR(P/S 约 14 倍),比 Together AI 的估值倍数低,说明市场对 Fireworks 的定价相对理性。

我的判断

  • ✅ 适合:构建多模态 AI 产品的团队(一站式推理平台);做 Voice Agent 需要语音推理基础设施的公司;用 Cursor 或类似工具做开发、需要快速推理后端的场景;已有一定规模、需要专属 GPU 部署的企业
  • ❌ 跳过如果:你只需要文本推理(选择很多,不一定需要 Fireworks);你用闭源模型为主(直接调 OpenAI/Anthropic 的 API 更直接);你的用量很小(Free Tier 不如 Groq 慷慨)

一句话:Fireworks AI 的技术底子扎实(PyTorch 团队基因),多模态推理定位清晰,客户质量高——但在推理市场的商品化压力下,它需要用 Voice Agent 等垂直场景建立更深的护城河。

互动

Voice Agent 正在成为 AI 应用的下一个爆发点。你在项目中尝试过实时语音 AI 交互吗?从你的经验看,最大的技术瓶颈是什么——是延迟、音质、还是语义理解?