Solo Unicorn Club logoSolo Unicorn
2,550

Anyscale 深度拆解 — 可扩展 AI 计算

公司拆解AnyscaleRay分布式计算AI基础设施
Anyscale 深度拆解 — 可扩展 AI 计算

Anyscale 深度拆解 — 可扩展 AI 计算

开场

OpenAI 用它训练 GPT 系列。Uber 用它优化数十亿次出行的路线。Spotify 用它为 5 亿用户做个性化推荐。Netflix、Pinterest、Coinbase 也在用。"它"不是某个模型,是一个叫 Ray 的开源分布式计算框架——而 Anyscale 是 Ray 背后的商业公司。我在做 AI Agent 系统的分布式部署时深入研究过 Ray 的架构,也在项目中用过 Anyscale 的托管服务。这篇文章拆解一个很少被讨论但极其关键的 AI 基础设施层:当你的 AI 工作负载需要从 1 台 GPU 扩展到 1000 台时,你需要什么。

他们解决什么问题

AI 的"最后一公里"问题不是模型不够好,而是模型跑不起来。

具体来说:

  • 你训练一个模型,数据分散在 50 个节点上,你需要分布式训练
  • 你部署推理服务,流量从 100 QPS 涨到 10000 QPS,你需要弹性扩缩
  • 你跑一个 Pipeline:数据预处理 -> 训练 -> 评估 -> 部署,每个步骤对资源的需求不同
  • 你的 GPU 集群利用率只有 30%,因为调度器不够智能

Ray 的核心价值:把这些分布式计算的复杂性抽象掉。开发者写 Python 代码,Ray 负责把它分发到集群上运行——训练、推理、数据处理、超参搜索,都可以用同一个框架。

Anyscale 则是 Ray 的全托管云服务:你不需要自己搭建和运维 Ray 集群,Anyscale 帮你搞定。

目标客户:

  • 大规模 AI 训练团队(需要管理 GPU 集群)
  • 跑复杂 ML Pipeline 的数据工程团队
  • 有分布式推理需求的企业
  • 已经在用 Ray 但不想自己运维的组织

产品矩阵

核心产品

Ray(开源框架):Anyscale 的基础。核心组件包括:

  • Ray Core:分布式计算原语(远程函数、Actor)
  • Ray Data:分布式数据处理
  • Ray Train:分布式训练(支持 PyTorch、TensorFlow、HuggingFace)
  • Ray Serve:模型推理服务
  • Ray Tune:超参数搜索和实验管理

2025 年底,Ray 加入 PyTorch Foundation,成为中立的行业标准——类似 Kubernetes 对容器的意义。

Anyscale Platform:Ray 的全托管商业版。

  • 自动化集群管理和扩缩容
  • 成本优化和 GPU 利用率监控
  • 企业级安全和权限管理
  • 一键部署到 AWS、GCP、Azure

Anyscale + Azure(2025 年 11 月推出):与微软合作开发的 AI 原生计算服务,作为 Azure 上的第一方托管服务。2026 年正式 GA。

技术差异化

Ray 的核心差异化在于它是一个"通用"的分布式 AI 计算框架——不只做训练,也不只做推理,而是从数据到训练到推理到服务的全链路。

和 Kubernetes 的对比很有意思:K8s 管容器编排,但不理解 AI 工作负载的特性(GPU 调度、弹性训练、模型版本管理)。Ray 在更高的抽象层解决 AI 特有的问题。

商业模式

定价策略

方案 价格 目标客户
Ray 开源 免费 所有人
Anyscale Platform 用量计费(基础设施成本 + 管理费) 企业
GPU 实例 按小时计费(H100 >> CPU) 训练/推理团队
Enterprise 定制报价 大型组织

Anyscale 的定价核心是"基础设施使用费"——你选择的硬件(CPU/GPU)决定了大部分成本,Anyscale 在此基础上收取管理和优化费用。

收入模式

  • 基础设施使用量计费(核心收入)
  • 企业年度合同(高稳定性)
  • 专业服务(部署咨询、架构优化)

这种模式和 Databricks 类似:开源框架建立生态,商业化在托管服务和企业功能上变现。

融资与估值

轮次 时间 金额 估值
Seed 2019.11 $2060万
Series A 2020.9 $4000万
Series B 2021.12 $1亿 ~$5亿
Series C 2023.9 $1亿 $10亿

总融资 2.81 亿美元。投资人包括 A16Z、NEA、Addition、Intel Capital。

10 亿估值相对保守——考虑到 Ray 的行业影响力。员工约 573 人。

客户与市场

标杆客户

  • OpenAI:用 Ray 做分布式训练(这可能是最重量级的背书)
  • Uber:用 Ray 优化出行成本、行程时间和预计到达时间
  • Spotify:用 Ray 做播客推荐和音乐电台个性化
  • Netflix / Pinterest:推荐系统的后端计算
  • Coinbase / Instacart:金融和电商场景的 AI 工作负载
  • AWS / Cohere / Ant Group:云服务和 AI 公司也在用

市场规模

AI 基础设施(训练 + 推理 + 数据处理)市场在 2026 年预计超过 2000 亿美元。Anyscale 作为"AI 计算的操作系统"层,理论上可以切入这个市场的一大块。但实际的可寻址市场受限于:需要大规模分布式计算的团队数量有限。

竞争格局

维度 Anyscale (Ray) Databricks AWS SageMaker 自建 K8s
核心能力 分布式AI计算 数据+AI平台 全托管ML 通用容器编排
开源框架 Ray Spark/MLflow Kubernetes
训练支持 需自建
推理支持 有(Ray Serve) 需自建
GPU 管理 智能调度 手动
估值 $10亿 $620亿+ AWS 子服务
云中立 仅AWS

我实际看到的

好的:Ray 的设计哲学很优雅——用 Python 装饰器就能把普通函数变成分布式任务。在我测试的一个并行数据处理 Pipeline 中,Ray 的开发体验比直接用 Dask 或 Spark 好得多。加入 PyTorch Foundation 是一个聪明的战略动作——让 Ray 从"Anyscale 的项目"变成"行业标准",降低了企业采用的顾虑。微软合作也验证了它的企业级定位。

复杂的:Anyscale 的商业化进展比技术影响力慢。Ray 被 OpenAI、Uber 这些巨头广泛使用,但 Anyscale 的商业服务收入规模尚未公开,估值停留在 10 亿。原因可能是:很多大客户直接用开源的 Ray,不需要 Anyscale 的托管服务(他们有自己的基础设施团队)。这是所有开源商业化公司的经典困境——Red Hat 花了 25 年才解决。

现实的:Anyscale 面对的最大威胁可能不是直接竞品,而是云厂商自己做类似的东西。AWS 的 SageMaker、Google 的 Vertex AI、Azure 的 ML 服务都在提供越来越完善的分布式训练和推理能力。如果云厂商把 Ray 的能力直接内建到自己的平台中(微软合作已经在朝这个方向走),Anyscale 独立平台的价值会被压缩。

我的判断

  • ✅ 适合:需要大规模分布式 AI 训练的团队(尤其是已经在用 PyTorch 的);跑复杂 ML Pipeline 且不想被单一云厂商绑定的企业;用开源 Ray 但缺运维能力的中型公司
  • ❌ 跳过如果:你的 AI 工作负载规模不大(单卡或几卡能搞定);你已经深度使用 SageMaker 或 Vertex AI(切换成本高);你只需要调 API 不需要管基础设施

一句话:Ray 是 AI 分布式计算领域的 Kubernetes——几乎所有大玩家都在用。但 Anyscale 能不能把 Ray 的影响力转化为商业收入,仍然是一个未完全回答的问题。

互动

你的团队在做 AI 工作负载的分布式计算时用什么方案?是直接用 Ray,还是用云厂商的托管服务,还是自己在 K8s 上搭?我的感受是,大多数团队在不够大的规模下,K8s + 自定义脚本反而比引入 Ray 更简单。你的临界规模在哪?