Anyscale 深度拆解 — 可扩展 AI 计算

开场

OpenAI 用它训练 GPT 系列。Uber 用它优化数十亿次出行的路线。Spotify 用它为 5 亿用户做个性化推荐。Netflix、Pinterest、Coinbase 也在用。"它"不是某个模型，是一个叫 Ray 的开源分布式计算框架——而 Anyscale 是 Ray 背后的商业公司。我在做 AI Agent 系统的分布式部署时深入研究过 Ray 的架构，也在项目中用过 Anyscale 的托管服务。这篇文章拆解一个很少被讨论但极其关键的 AI 基础设施层：当你的 AI 工作负载需要从 1 台 GPU 扩展到 1000 台时，你需要什么。

他们解决什么问题

AI 的"最后一公里"问题不是模型不够好，而是模型跑不起来。

具体来说：

你训练一个模型，数据分散在 50 个节点上，你需要分布式训练
你部署推理服务，流量从 100 QPS 涨到 10000 QPS，你需要弹性扩缩
你跑一个 Pipeline：数据预处理 -> 训练 -> 评估 -> 部署，每个步骤对资源的需求不同
你的 GPU 集群利用率只有 30%，因为调度器不够智能

Ray 的核心价值：把这些分布式计算的复杂性抽象掉。开发者写 Python 代码，Ray 负责把它分发到集群上运行——训练、推理、数据处理、超参搜索，都可以用同一个框架。

Anyscale 则是 Ray 的全托管云服务：你不需要自己搭建和运维 Ray 集群，Anyscale 帮你搞定。

目标客户：

大规模 AI 训练团队（需要管理 GPU 集群）
跑复杂 ML Pipeline 的数据工程团队
有分布式推理需求的企业
已经在用 Ray 但不想自己运维的组织

产品矩阵

核心产品

Ray（开源框架）：Anyscale 的基础。核心组件包括：

Ray Core：分布式计算原语（远程函数、Actor）
Ray Data：分布式数据处理
Ray Train：分布式训练（支持 PyTorch、TensorFlow、HuggingFace）
Ray Serve：模型推理服务
Ray Tune：超参数搜索和实验管理

2025 年底，Ray 加入 PyTorch Foundation，成为中立的行业标准——类似 Kubernetes 对容器的意义。

Anyscale Platform：Ray 的全托管商业版。

自动化集群管理和扩缩容
成本优化和 GPU 利用率监控
企业级安全和权限管理
一键部署到 AWS、GCP、Azure

Anyscale + Azure（2025 年 11 月推出）：与微软合作开发的 AI 原生计算服务，作为 Azure 上的第一方托管服务。2026 年正式 GA。

技术差异化

Ray 的核心差异化在于它是一个"通用"的分布式 AI 计算框架——不只做训练，也不只做推理，而是从数据到训练到推理到服务的全链路。

和 Kubernetes 的对比很有意思：K8s 管容器编排，但不理解 AI 工作负载的特性（GPU 调度、弹性训练、模型版本管理）。Ray 在更高的抽象层解决 AI 特有的问题。

商业模式

定价策略

方案	价格	目标客户
Ray 开源	免费	所有人
Anyscale Platform	用量计费（基础设施成本 + 管理费）	企业
GPU 实例	按小时计费（H100 >> CPU）	训练/推理团队
Enterprise	定制报价	大型组织

Anyscale 的定价核心是"基础设施使用费"——你选择的硬件（CPU/GPU）决定了大部分成本，Anyscale 在此基础上收取管理和优化费用。

收入模式

基础设施使用量计费（核心收入）
企业年度合同（高稳定性）
专业服务（部署咨询、架构优化）

这种模式和 Databricks 类似：开源框架建立生态，商业化在托管服务和企业功能上变现。

融资与估值

轮次	时间	金额	估值
Seed	2019.11	$2060万	—
Series A	2020.9	$4000万	—
Series B	2021.12	$1亿	~$5亿
Series C	2023.9	$1亿	$10亿

总融资 2.81 亿美元。投资人包括 A16Z、NEA、Addition、Intel Capital。

10 亿估值相对保守——考虑到 Ray 的行业影响力。员工约 573 人。

客户与市场

标杆客户

OpenAI：用 Ray 做分布式训练（这可能是最重量级的背书）
Uber：用 Ray 优化出行成本、行程时间和预计到达时间
Spotify：用 Ray 做播客推荐和音乐电台个性化
Netflix / Pinterest：推荐系统的后端计算
Coinbase / Instacart：金融和电商场景的 AI 工作负载
AWS / Cohere / Ant Group：云服务和 AI 公司也在用

市场规模

AI 基础设施（训练 + 推理 + 数据处理）市场在 2026 年预计超过 2000 亿美元。Anyscale 作为"AI 计算的操作系统"层，理论上可以切入这个市场的一大块。但实际的可寻址市场受限于：需要大规模分布式计算的团队数量有限。

竞争格局

维度	Anyscale (Ray)	Databricks	AWS SageMaker	自建 K8s
核心能力	分布式AI计算	数据+AI平台	全托管ML	通用容器编排
开源框架	Ray	Spark/MLflow	—	Kubernetes
训练支持	强	强	强	需自建
推理支持	有（Ray Serve）	有	强	需自建
GPU 管理	智能调度	有	有	手动
估值	$10亿	$620亿+	AWS 子服务	—
云中立	是	是	仅AWS	是

我实际看到的

好的：Ray 的设计哲学很优雅——用 Python 装饰器就能把普通函数变成分布式任务。在我测试的一个并行数据处理 Pipeline 中，Ray 的开发体验比直接用 Dask 或 Spark 好得多。加入 PyTorch Foundation 是一个聪明的战略动作——让 Ray 从"Anyscale 的项目"变成"行业标准"，降低了企业采用的顾虑。微软合作也验证了它的企业级定位。

复杂的：Anyscale 的商业化进展比技术影响力慢。Ray 被 OpenAI、Uber 这些巨头广泛使用，但 Anyscale 的商业服务收入规模尚未公开，估值停留在 10 亿。原因可能是：很多大客户直接用开源的 Ray，不需要 Anyscale 的托管服务（他们有自己的基础设施团队）。这是所有开源商业化公司的经典困境——Red Hat 花了 25 年才解决。

现实的：Anyscale 面对的最大威胁可能不是直接竞品，而是云厂商自己做类似的东西。AWS 的 SageMaker、Google 的 Vertex AI、Azure 的 ML 服务都在提供越来越完善的分布式训练和推理能力。如果云厂商把 Ray 的能力直接内建到自己的平台中（微软合作已经在朝这个方向走），Anyscale 独立平台的价值会被压缩。

我的判断

✅ 适合：需要大规模分布式 AI 训练的团队（尤其是已经在用 PyTorch 的）；跑复杂 ML Pipeline 且不想被单一云厂商绑定的企业；用开源 Ray 但缺运维能力的中型公司
❌ 跳过如果：你的 AI 工作负载规模不大（单卡或几卡能搞定）；你已经深度使用 SageMaker 或 Vertex AI（切换成本高）；你只需要调 API 不需要管基础设施

一句话：Ray 是 AI 分布式计算领域的 Kubernetes——几乎所有大玩家都在用。但 Anyscale 能不能把 Ray 的影响力转化为商业收入，仍然是一个未完全回答的问题。

互动

你的团队在做 AI 工作负载的分布式计算时用什么方案？是直接用 Ray，还是用云厂商的托管服务，还是自己在 K8s 上搭？我的感受是，大多数团队在不够大的规模下，K8s + 自定义脚本反而比引入 Ray 更简单。你的临界规模在哪？

Anyscale 深度拆解 — 可扩展 AI 计算

Anyscale 深度拆解 — 可扩展 AI 计算

开场

他们解决什么问题

产品矩阵

核心产品

技术差异化

商业模式

定价策略

收入模式

融资与估值

客户与市场

标杆客户

市场规模

竞争格局

我实际看到的

我的判断

互动

Keep reading.

Modal 深度拆解 — Serverless AI 基础设施

Glean 深度拆解 — 估值 72 亿美元的企业 AI 搜索独角兽

Guru 深度拆解 — AI 驱动的知识管理平台，搜索之外的另一条路