Together AI 深度拆解 — 开源模型推理

Together AI 深度拆解 — 开源模型推理
开场
当所有人都在讨论闭源模型谁更强的时候,Together AI 在做另一件事:让开源模型跑得更快、更便宜。年化收入 3 亿美元,客户数量在 2025 年内快速增长,200MW 的算力容量正在部署 Nvidia Blackwell 集群。我在多个项目中用过 Together AI 的 API 来跑 Llama 和 Mixtral 模型——它是开源模型推理领域最大的独立玩家之一。
他们解决什么问题
开源模型的核心矛盾:模型是免费的,但跑模型不是。
下载一个 Llama 70B 模型需要什么?至少 2 张 A100 80GB GPU、合适的推理框架、优化过的推理引擎、负载均衡、监控、自动扩缩容。对大多数团队来说,自己搞这套基础设施的工程成本远高于直接用 API。
Together AI 的定位:成为开源模型世界的"AWS"——你选模型,我来跑,按 token 收费。
目标客户:
- AI-native 创业公司,用开源模型构建产品但不想管基础设施
- 需要 Fine-tuning 能力的技术团队
- 对成本敏感但需要生产级别可靠性的中型公司
- 做大规模批处理(数据标注、内容生成)的团队
产品矩阵
核心产品
Serverless Inference:Together AI 的核心产品。接 API 就能调用 Llama、Mixtral、DeepSeek 等主流开源模型,按 token 计费。支持数十种模型,新模型上线速度快。
Together Reasoning Clusters:针对高吞吐量、低延迟需求的专用推理集群。解码速度可达 110 tokens/秒,适合 token 密集型场景(Agent、长文本生成)。
GPU Cloud:直接租用 GPU。支持 Nvidia H100、Blackwell 系列。面向需要完全控制的团队——跑自己的训练任务、部署自定义模型。
Fine-tuning 服务:在 Together 平台上对开源模型做微调,按训练 token 计费。不需要自己管 GPU 集群。
Batch Inference:异步大批量推理,50% 折扣,支持最高 300 亿 token 的单次任务。
技术差异化
Together AI 的技术核心不在模型本身,而在推理优化:
- 自研推理引擎,在 Llama 等模型上的吞吐量和延迟表现优于 vLLM 等通用框架
- Speculative Decoding(投机解码)技术在部分模型上提速 2-3 倍
- 正在部署 Nvidia GB200 NVL72 和 HGX B200 集群,跟上最新硬件迭代
商业模式
定价策略
| 方案 | 价格 | 目标客户 |
|---|---|---|
| Serverless API(Llama 70B) | ~$0.90/$0.90 每百万token | 一般使用 |
| Serverless API(Llama 405B) | ~$3.50 输出每百万token | 高质量推理 |
| Batch API | 标准价格 50% 折扣 | 大规模批处理 |
| Reasoning Clusters | 定制报价 | 高吞吐量企业 |
| GPU Cloud(H100) | 按小时计费 | 训练/自定义部署 |
| Fine-tuning | 按训练 token 计费 | 模型定制 |
收入模式
双线收入:API 使用量(30-40%)+ GPU 租赁(60-70%)。
API 业务按 token 计费,利润率较高但收入受模型定价竞争压力影响。GPU 租赁收入更稳定但需要大量前期资本投入。
融资与估值
| 轮次 | 时间 | 金额 | 估值 |
|---|---|---|---|
| Series A | 2023.11 | $1.03亿 | — |
| Series A+ | 2024.4 | $1.25亿 | $12.5亿 |
| Series B | 2025.2 | $3.05亿 | $33亿 |
总融资 5.34 亿美元。Series B 由 General Catalyst 和 Prosperity7 领投。
客户与市场
标杆客户
Together AI 的客户画像以 AI-native 公司和开发者为主。虽然具体客户名单披露较少,但从产品定位和收入规模推断,其核心用户群包括:
- 使用开源模型构建产品的 AI 创业公司
- 需要大规模数据处理的中大型企业
- 做 Fine-tuning 和模型实验的研究机构和技术团队
市场规模
AI 推理市场(Inference-as-a-Service)在 2026 年预计 500-800 亿美元。这个市场在快速增长——推理成本占 AI 应用总成本的 60-80%,而推理需求随着 AI 应用普及在指数级增长。Together AI 在开源模型推理这个子市场中占据重要位置。
竞争格局
| 维度 | Together AI | Fireworks AI | Groq | AWS/GCP/Azure |
|---|---|---|---|---|
| 核心定位 | 开源模型推理+GPU | 快速推理 | 最快推理(LPU) | 全栈云服务 |
| 推理速度 | 快 | 很快 | 最快 | 中等 |
| 模型覆盖 | 广(数十种开源模型) | 广 | 有限 | 最广 |
| GPU 租赁 | 有 | 有 | 无(自研芯片) | 有 |
| Fine-tuning | 有 | 有 | 无 | 有 |
| 年化收入 | $3亿 | $2.8亿 | 未公开 | 远超 |
| 估值 | $33亿 | $40亿 | $69亿(被Nvidia收购) | — |
我实际看到的
好的:在一个需要用 Llama 70B 做大规模文本分类的项目中,Together AI 的 API 体验比自建推理服务好很多——不用管 GPU 调度、OOM 问题和模型版本管理。Batch API 的 50% 折扣对大规模任务很有吸引力。模型上新速度快,DeepSeek R1 发布后很快就能在 Together 上用到。
复杂的:开源模型推理是一个高度商品化的市场。Together、Fireworks、DeepInfra、Anyscale 等多家公司在做类似的事情,区别主要在价格和速度上——而这两个维度的竞争是残酷的。一旦客户开始做 A/B 测试,切换成本很低。GPU 租赁业务需要持续的大额资本投入,200MW 的算力部署意味着大量前期资金。
现实的:Together AI 的命运很大程度上和开源模型的发展绑定。如果 Llama 5 和 Mistral 下一代模型的能力继续逼近闭源模型,Together AI 的业务会继续增长。但如果闭源模型拉开差距(目前没有这个趋势),开源推理市场可能萎缩。另一个风险:Nvidia 和大云厂商可能直接进入这个市场——AWS 已经在做 Bedrock 推理服务了。
我的判断
- ✅ 适合:用开源模型构建产品但不想管基础设施的创业公司;需要大规模 Batch 推理的数据团队;想快速试验多种开源模型的开发者;预算有限但需要生产级 API 的团队
- ❌ 跳过如果:你只用 GPT-5 或 Claude(不需要开源推理平台);你有自己的 GPU 集群且团队有运维能力;你需要最高安全级别的私有部署(不是 Together 的主要场景)
一句话:Together AI 在开源模型推理市场中占据了一个清晰的位置,但这个市场的竞争正在快速加剧——最终的赢家可能不是谁的 API 更快,而是谁能在规模和成本上建立持久的优势。
互动
你在跑开源模型时,是自建推理服务还是用第三方 API?我的经验是:如果月花费低于 5000 美元,API 几乎一定更划算;超过这个数,自建开始有经济性。你的临界点在哪?