Anyscale 深度拆解 — 可扩展 AI 计算

Anyscale 深度拆解 — 可扩展 AI 计算
开场
OpenAI 用它训练 GPT 系列。Uber 用它优化数十亿次出行的路线。Spotify 用它为 5 亿用户做个性化推荐。Netflix、Pinterest、Coinbase 也在用。"它"不是某个模型,是一个叫 Ray 的开源分布式计算框架——而 Anyscale 是 Ray 背后的商业公司。我在做 AI Agent 系统的分布式部署时深入研究过 Ray 的架构,也在项目中用过 Anyscale 的托管服务。这篇文章拆解一个很少被讨论但极其关键的 AI 基础设施层:当你的 AI 工作负载需要从 1 台 GPU 扩展到 1000 台时,你需要什么。
他们解决什么问题
AI 的"最后一公里"问题不是模型不够好,而是模型跑不起来。
具体来说:
- 你训练一个模型,数据分散在 50 个节点上,你需要分布式训练
- 你部署推理服务,流量从 100 QPS 涨到 10000 QPS,你需要弹性扩缩
- 你跑一个 Pipeline:数据预处理 -> 训练 -> 评估 -> 部署,每个步骤对资源的需求不同
- 你的 GPU 集群利用率只有 30%,因为调度器不够智能
Ray 的核心价值:把这些分布式计算的复杂性抽象掉。开发者写 Python 代码,Ray 负责把它分发到集群上运行——训练、推理、数据处理、超参搜索,都可以用同一个框架。
Anyscale 则是 Ray 的全托管云服务:你不需要自己搭建和运维 Ray 集群,Anyscale 帮你搞定。
目标客户:
- 大规模 AI 训练团队(需要管理 GPU 集群)
- 跑复杂 ML Pipeline 的数据工程团队
- 有分布式推理需求的企业
- 已经在用 Ray 但不想自己运维的组织
产品矩阵
核心产品
Ray(开源框架):Anyscale 的基础。核心组件包括:
- Ray Core:分布式计算原语(远程函数、Actor)
- Ray Data:分布式数据处理
- Ray Train:分布式训练(支持 PyTorch、TensorFlow、HuggingFace)
- Ray Serve:模型推理服务
- Ray Tune:超参数搜索和实验管理
2025 年底,Ray 加入 PyTorch Foundation,成为中立的行业标准——类似 Kubernetes 对容器的意义。
Anyscale Platform:Ray 的全托管商业版。
- 自动化集群管理和扩缩容
- 成本优化和 GPU 利用率监控
- 企业级安全和权限管理
- 一键部署到 AWS、GCP、Azure
Anyscale + Azure(2025 年 11 月推出):与微软合作开发的 AI 原生计算服务,作为 Azure 上的第一方托管服务。2026 年正式 GA。
技术差异化
Ray 的核心差异化在于它是一个"通用"的分布式 AI 计算框架——不只做训练,也不只做推理,而是从数据到训练到推理到服务的全链路。
和 Kubernetes 的对比很有意思:K8s 管容器编排,但不理解 AI 工作负载的特性(GPU 调度、弹性训练、模型版本管理)。Ray 在更高的抽象层解决 AI 特有的问题。
商业模式
定价策略
| 方案 | 价格 | 目标客户 |
|---|---|---|
| Ray 开源 | 免费 | 所有人 |
| Anyscale Platform | 用量计费(基础设施成本 + 管理费) | 企业 |
| GPU 实例 | 按小时计费(H100 >> CPU) | 训练/推理团队 |
| Enterprise | 定制报价 | 大型组织 |
Anyscale 的定价核心是"基础设施使用费"——你选择的硬件(CPU/GPU)决定了大部分成本,Anyscale 在此基础上收取管理和优化费用。
收入模式
- 基础设施使用量计费(核心收入)
- 企业年度合同(高稳定性)
- 专业服务(部署咨询、架构优化)
这种模式和 Databricks 类似:开源框架建立生态,商业化在托管服务和企业功能上变现。
融资与估值
| 轮次 | 时间 | 金额 | 估值 |
|---|---|---|---|
| Seed | 2019.11 | $2060万 | — |
| Series A | 2020.9 | $4000万 | — |
| Series B | 2021.12 | $1亿 | ~$5亿 |
| Series C | 2023.9 | $1亿 | $10亿 |
总融资 2.81 亿美元。投资人包括 A16Z、NEA、Addition、Intel Capital。
10 亿估值相对保守——考虑到 Ray 的行业影响力。员工约 573 人。
客户与市场
标杆客户
- OpenAI:用 Ray 做分布式训练(这可能是最重量级的背书)
- Uber:用 Ray 优化出行成本、行程时间和预计到达时间
- Spotify:用 Ray 做播客推荐和音乐电台个性化
- Netflix / Pinterest:推荐系统的后端计算
- Coinbase / Instacart:金融和电商场景的 AI 工作负载
- AWS / Cohere / Ant Group:云服务和 AI 公司也在用
市场规模
AI 基础设施(训练 + 推理 + 数据处理)市场在 2026 年预计超过 2000 亿美元。Anyscale 作为"AI 计算的操作系统"层,理论上可以切入这个市场的一大块。但实际的可寻址市场受限于:需要大规模分布式计算的团队数量有限。
竞争格局
| 维度 | Anyscale (Ray) | Databricks | AWS SageMaker | 自建 K8s |
|---|---|---|---|---|
| 核心能力 | 分布式AI计算 | 数据+AI平台 | 全托管ML | 通用容器编排 |
| 开源框架 | Ray | Spark/MLflow | — | Kubernetes |
| 训练支持 | 强 | 强 | 强 | 需自建 |
| 推理支持 | 有(Ray Serve) | 有 | 强 | 需自建 |
| GPU 管理 | 智能调度 | 有 | 有 | 手动 |
| 估值 | $10亿 | $620亿+ | AWS 子服务 | — |
| 云中立 | 是 | 是 | 仅AWS | 是 |
我实际看到的
好的:Ray 的设计哲学很优雅——用 Python 装饰器就能把普通函数变成分布式任务。在我测试的一个并行数据处理 Pipeline 中,Ray 的开发体验比直接用 Dask 或 Spark 好得多。加入 PyTorch Foundation 是一个聪明的战略动作——让 Ray 从"Anyscale 的项目"变成"行业标准",降低了企业采用的顾虑。微软合作也验证了它的企业级定位。
复杂的:Anyscale 的商业化进展比技术影响力慢。Ray 被 OpenAI、Uber 这些巨头广泛使用,但 Anyscale 的商业服务收入规模尚未公开,估值停留在 10 亿。原因可能是:很多大客户直接用开源的 Ray,不需要 Anyscale 的托管服务(他们有自己的基础设施团队)。这是所有开源商业化公司的经典困境——Red Hat 花了 25 年才解决。
现实的:Anyscale 面对的最大威胁可能不是直接竞品,而是云厂商自己做类似的东西。AWS 的 SageMaker、Google 的 Vertex AI、Azure 的 ML 服务都在提供越来越完善的分布式训练和推理能力。如果云厂商把 Ray 的能力直接内建到自己的平台中(微软合作已经在朝这个方向走),Anyscale 独立平台的价值会被压缩。
我的判断
- ✅ 适合:需要大规模分布式 AI 训练的团队(尤其是已经在用 PyTorch 的);跑复杂 ML Pipeline 且不想被单一云厂商绑定的企业;用开源 Ray 但缺运维能力的中型公司
- ❌ 跳过如果:你的 AI 工作负载规模不大(单卡或几卡能搞定);你已经深度使用 SageMaker 或 Vertex AI(切换成本高);你只需要调 API 不需要管基础设施
一句话:Ray 是 AI 分布式计算领域的 Kubernetes——几乎所有大玩家都在用。但 Anyscale 能不能把 Ray 的影响力转化为商业收入,仍然是一个未完全回答的问题。
互动
你的团队在做 AI 工作负载的分布式计算时用什么方案?是直接用 Ray,还是用云厂商的托管服务,还是自己在 K8s 上搭?我的感受是,大多数团队在不够大的规模下,K8s + 自定义脚本反而比引入 Ray 更简单。你的临界规模在哪?