Together AI 深度拆解 — 开源模型推理

开场

当所有人都在讨论闭源模型谁更强的时候，Together AI 在做另一件事：让开源模型跑得更快、更便宜。年化收入 3 亿美元，客户数量在 2025 年内快速增长，200MW 的算力容量正在部署 Nvidia Blackwell 集群。我在多个项目中用过 Together AI 的 API 来跑 Llama 和 Mixtral 模型——它是开源模型推理领域最大的独立玩家之一。

他们解决什么问题

开源模型的核心矛盾：模型是免费的，但跑模型不是。

下载一个 Llama 70B 模型需要什么？至少 2 张 A100 80GB GPU、合适的推理框架、优化过的推理引擎、负载均衡、监控、自动扩缩容。对大多数团队来说，自己搞这套基础设施的工程成本远高于直接用 API。

Together AI 的定位：成为开源模型世界的"AWS"——你选模型，我来跑，按 token 收费。

目标客户：

AI-native 创业公司，用开源模型构建产品但不想管基础设施
需要 Fine-tuning 能力的技术团队
对成本敏感但需要生产级别可靠性的中型公司
做大规模批处理（数据标注、内容生成）的团队

产品矩阵

核心产品

Serverless Inference：Together AI 的核心产品。接 API 就能调用 Llama、Mixtral、DeepSeek 等主流开源模型，按 token 计费。支持数十种模型，新模型上线速度快。

Together Reasoning Clusters：针对高吞吐量、低延迟需求的专用推理集群。解码速度可达 110 tokens/秒，适合 token 密集型场景（Agent、长文本生成）。

GPU Cloud：直接租用 GPU。支持 Nvidia H100、Blackwell 系列。面向需要完全控制的团队——跑自己的训练任务、部署自定义模型。

Fine-tuning 服务：在 Together 平台上对开源模型做微调，按训练 token 计费。不需要自己管 GPU 集群。

Batch Inference：异步大批量推理，50% 折扣，支持最高 300 亿 token 的单次任务。

技术差异化

Together AI 的技术核心不在模型本身，而在推理优化：

自研推理引擎，在 Llama 等模型上的吞吐量和延迟表现优于 vLLM 等通用框架
Speculative Decoding（投机解码）技术在部分模型上提速 2-3 倍
正在部署 Nvidia GB200 NVL72 和 HGX B200 集群，跟上最新硬件迭代

商业模式

定价策略

方案	价格	目标客户
Serverless API（Llama 70B）	~$0.90/$0.90 每百万token	一般使用
Serverless API（Llama 405B）	~$3.50 输出每百万token	高质量推理
Batch API	标准价格 50% 折扣	大规模批处理
Reasoning Clusters	定制报价	高吞吐量企业
GPU Cloud（H100）	按小时计费	训练/自定义部署
Fine-tuning	按训练 token 计费	模型定制

收入模式

双线收入：API 使用量（30-40%）+ GPU 租赁（60-70%）。

API 业务按 token 计费，利润率较高但收入受模型定价竞争压力影响。GPU 租赁收入更稳定但需要大量前期资本投入。

融资与估值

轮次	时间	金额	估值
Series A	2023.11	$1.03亿	—
Series A+	2024.4	$1.25亿	$12.5亿
Series B	2025.2	$3.05亿	$33亿

总融资 5.34 亿美元。Series B 由 General Catalyst 和 Prosperity7 领投。

客户与市场

标杆客户

Together AI 的客户画像以 AI-native 公司和开发者为主。虽然具体客户名单披露较少，但从产品定位和收入规模推断，其核心用户群包括：

使用开源模型构建产品的 AI 创业公司
需要大规模数据处理的中大型企业
做 Fine-tuning 和模型实验的研究机构和技术团队

市场规模

AI 推理市场（Inference-as-a-Service）在 2026 年预计 500-800 亿美元。这个市场在快速增长——推理成本占 AI 应用总成本的 60-80%，而推理需求随着 AI 应用普及在指数级增长。Together AI 在开源模型推理这个子市场中占据重要位置。

竞争格局

维度	Together AI	Fireworks AI	Groq	AWS/GCP/Azure
核心定位	开源模型推理+GPU	快速推理	最快推理（LPU）	全栈云服务
推理速度	快	很快	最快	中等
模型覆盖	广（数十种开源模型）	广	有限	最广
GPU 租赁	有	有	无（自研芯片）	有
Fine-tuning	有	有	无	有
年化收入	$3亿	$2.8亿	未公开	远超
估值	$33亿	$40亿	$69亿（被Nvidia收购）	—

我实际看到的

好的：在一个需要用 Llama 70B 做大规模文本分类的项目中，Together AI 的 API 体验比自建推理服务好很多——不用管 GPU 调度、OOM 问题和模型版本管理。Batch API 的 50% 折扣对大规模任务很有吸引力。模型上新速度快，DeepSeek R1 发布后很快就能在 Together 上用到。

复杂的：开源模型推理是一个高度商品化的市场。Together、Fireworks、DeepInfra、Anyscale 等多家公司在做类似的事情，区别主要在价格和速度上——而这两个维度的竞争是残酷的。一旦客户开始做 A/B 测试，切换成本很低。GPU 租赁业务需要持续的大额资本投入，200MW 的算力部署意味着大量前期资金。

现实的：Together AI 的命运很大程度上和开源模型的发展绑定。如果 Llama 5 和 Mistral 下一代模型的能力继续逼近闭源模型，Together AI 的业务会继续增长。但如果闭源模型拉开差距（目前没有这个趋势），开源推理市场可能萎缩。另一个风险：Nvidia 和大云厂商可能直接进入这个市场——AWS 已经在做 Bedrock 推理服务了。

我的判断

✅ 适合：用开源模型构建产品但不想管基础设施的创业公司；需要大规模 Batch 推理的数据团队；想快速试验多种开源模型的开发者；预算有限但需要生产级 API 的团队
❌ 跳过如果：你只用 GPT-5 或 Claude（不需要开源推理平台）；你有自己的 GPU 集群且团队有运维能力；你需要最高安全级别的私有部署（不是 Together 的主要场景）

一句话：Together AI 在开源模型推理市场中占据了一个清晰的位置，但这个市场的竞争正在快速加剧——最终的赢家可能不是谁的 API 更快，而是谁能在规模和成本上建立持久的优势。

互动

你在跑开源模型时，是自建推理服务还是用第三方 API？我的经验是：如果月花费低于 5000 美元，API 几乎一定更划算；超过这个数，自建开始有经济性。你的临界点在哪？

Together AI 深度拆解 — 开源模型推理

Together AI 深度拆解 — 开源模型推理

开场

他们解决什么问题

产品矩阵

核心产品

技术差异化

商业模式

定价策略

收入模式

融资与估值

客户与市场

标杆客户

市场规模

竞争格局

我实际看到的

我的判断

互动

Keep reading.

Mistral AI 深度拆解 — 欧洲的开源 AI 冠军

Groq 深度拆解 — 最快的 AI 推理硬件

Fireworks AI 深度拆解 — 快速生成式 AI 推理