Solo Unicorn Club logoSolo Unicorn
2,550

Together AI 深度拆解 — 开源模型推理

公司拆解Together AI开源模型AI推理GPU云
Together AI 深度拆解 — 开源模型推理

Together AI 深度拆解 — 开源模型推理

开场

当所有人都在讨论闭源模型谁更强的时候,Together AI 在做另一件事:让开源模型跑得更快、更便宜。年化收入 3 亿美元,客户数量在 2025 年内快速增长,200MW 的算力容量正在部署 Nvidia Blackwell 集群。我在多个项目中用过 Together AI 的 API 来跑 Llama 和 Mixtral 模型——它是开源模型推理领域最大的独立玩家之一。

他们解决什么问题

开源模型的核心矛盾:模型是免费的,但跑模型不是。

下载一个 Llama 70B 模型需要什么?至少 2 张 A100 80GB GPU、合适的推理框架、优化过的推理引擎、负载均衡、监控、自动扩缩容。对大多数团队来说,自己搞这套基础设施的工程成本远高于直接用 API。

Together AI 的定位:成为开源模型世界的"AWS"——你选模型,我来跑,按 token 收费。

目标客户:

  • AI-native 创业公司,用开源模型构建产品但不想管基础设施
  • 需要 Fine-tuning 能力的技术团队
  • 对成本敏感但需要生产级别可靠性的中型公司
  • 做大规模批处理(数据标注、内容生成)的团队

产品矩阵

核心产品

Serverless Inference:Together AI 的核心产品。接 API 就能调用 Llama、Mixtral、DeepSeek 等主流开源模型,按 token 计费。支持数十种模型,新模型上线速度快。

Together Reasoning Clusters:针对高吞吐量、低延迟需求的专用推理集群。解码速度可达 110 tokens/秒,适合 token 密集型场景(Agent、长文本生成)。

GPU Cloud:直接租用 GPU。支持 Nvidia H100、Blackwell 系列。面向需要完全控制的团队——跑自己的训练任务、部署自定义模型。

Fine-tuning 服务:在 Together 平台上对开源模型做微调,按训练 token 计费。不需要自己管 GPU 集群。

Batch Inference:异步大批量推理,50% 折扣,支持最高 300 亿 token 的单次任务。

技术差异化

Together AI 的技术核心不在模型本身,而在推理优化:

  • 自研推理引擎,在 Llama 等模型上的吞吐量和延迟表现优于 vLLM 等通用框架
  • Speculative Decoding(投机解码)技术在部分模型上提速 2-3 倍
  • 正在部署 Nvidia GB200 NVL72 和 HGX B200 集群,跟上最新硬件迭代

商业模式

定价策略

方案 价格 目标客户
Serverless API(Llama 70B) ~$0.90/$0.90 每百万token 一般使用
Serverless API(Llama 405B) ~$3.50 输出每百万token 高质量推理
Batch API 标准价格 50% 折扣 大规模批处理
Reasoning Clusters 定制报价 高吞吐量企业
GPU Cloud(H100) 按小时计费 训练/自定义部署
Fine-tuning 按训练 token 计费 模型定制

收入模式

双线收入:API 使用量(30-40%)+ GPU 租赁(60-70%)。

API 业务按 token 计费,利润率较高但收入受模型定价竞争压力影响。GPU 租赁收入更稳定但需要大量前期资本投入。

融资与估值

轮次 时间 金额 估值
Series A 2023.11 $1.03亿
Series A+ 2024.4 $1.25亿 $12.5亿
Series B 2025.2 $3.05亿 $33亿

总融资 5.34 亿美元。Series B 由 General Catalyst 和 Prosperity7 领投。

客户与市场

标杆客户

Together AI 的客户画像以 AI-native 公司和开发者为主。虽然具体客户名单披露较少,但从产品定位和收入规模推断,其核心用户群包括:

  • 使用开源模型构建产品的 AI 创业公司
  • 需要大规模数据处理的中大型企业
  • 做 Fine-tuning 和模型实验的研究机构和技术团队

市场规模

AI 推理市场(Inference-as-a-Service)在 2026 年预计 500-800 亿美元。这个市场在快速增长——推理成本占 AI 应用总成本的 60-80%,而推理需求随着 AI 应用普及在指数级增长。Together AI 在开源模型推理这个子市场中占据重要位置。

竞争格局

维度 Together AI Fireworks AI Groq AWS/GCP/Azure
核心定位 开源模型推理+GPU 快速推理 最快推理(LPU) 全栈云服务
推理速度 很快 最快 中等
模型覆盖 广(数十种开源模型) 广 有限 最广
GPU 租赁 无(自研芯片)
Fine-tuning
年化收入 $3亿 $2.8亿 未公开 远超
估值 $33亿 $40亿 $69亿(被Nvidia收购)

我实际看到的

好的:在一个需要用 Llama 70B 做大规模文本分类的项目中,Together AI 的 API 体验比自建推理服务好很多——不用管 GPU 调度、OOM 问题和模型版本管理。Batch API 的 50% 折扣对大规模任务很有吸引力。模型上新速度快,DeepSeek R1 发布后很快就能在 Together 上用到。

复杂的:开源模型推理是一个高度商品化的市场。Together、Fireworks、DeepInfra、Anyscale 等多家公司在做类似的事情,区别主要在价格和速度上——而这两个维度的竞争是残酷的。一旦客户开始做 A/B 测试,切换成本很低。GPU 租赁业务需要持续的大额资本投入,200MW 的算力部署意味着大量前期资金。

现实的:Together AI 的命运很大程度上和开源模型的发展绑定。如果 Llama 5 和 Mistral 下一代模型的能力继续逼近闭源模型,Together AI 的业务会继续增长。但如果闭源模型拉开差距(目前没有这个趋势),开源推理市场可能萎缩。另一个风险:Nvidia 和大云厂商可能直接进入这个市场——AWS 已经在做 Bedrock 推理服务了。

我的判断

  • ✅ 适合:用开源模型构建产品但不想管基础设施的创业公司;需要大规模 Batch 推理的数据团队;想快速试验多种开源模型的开发者;预算有限但需要生产级 API 的团队
  • ❌ 跳过如果:你只用 GPT-5 或 Claude(不需要开源推理平台);你有自己的 GPU 集群且团队有运维能力;你需要最高安全级别的私有部署(不是 Together 的主要场景)

一句话:Together AI 在开源模型推理市场中占据了一个清晰的位置,但这个市场的竞争正在快速加剧——最终的赢家可能不是谁的 API 更快,而是谁能在规模和成本上建立持久的优势。

互动

你在跑开源模型时,是自建推理服务还是用第三方 API?我的经验是:如果月花费低于 5000 美元,API 几乎一定更划算;超过这个数,自建开始有经济性。你的临界点在哪?