Solo Unicorn Club logoSolo Unicorn
2,500

Modal 深度拆解 — Serverless AI 基础设施

公司拆解ModalServerlessAI基础设施GPU
Modal 深度拆解 — Serverless AI 基础设施

Modal 深度拆解 — Serverless AI 基础设施

开场

把一个 Python 函数部署到 GPU 集群上需要多少行代码?在 Modal 上,大约 10 行。不需要写 Dockerfile,不需要配 Kubernetes,不需要管 GPU 驱动——加一个装饰器,你的函数就跑在云端的 H100 上了,按秒计费。Modal 的年化收入约 5000 万美元,即将以 25 亿美元估值完成新一轮融资。我在个人项目中用过 Modal 跑图像生成和批量推理任务,开发体验确实不一样。这篇文章拆解 Modal 的产品逻辑和它在 AI 基础设施领域的独特位置。

他们解决什么问题

AI 工程师日常面对的一个反复出现的痛点:本地能跑的代码,上云就变成了另一个工程项目。

传统的云部署流程:写代码 -> 写 Dockerfile -> 配 K8s -> 搞 GPU 调度 -> 处理依赖 -> 监控 -> 自动扩缩容。这套流程需要 DevOps/MLOps 工程师,很多 AI 团队并没有这种人力配置。

Modal 的方案:消除这个中间层。开发者只写 Python,Modal 处理其余所有事情。

核心价值主张:

  • 零运维:不需要管服务器、容器、集群
  • 按秒计费:没有空闲资源浪费,用多少付多少
  • 冷启动快:GPU 实例的启动时间在秒级
  • 自动扩缩:从 0 到数百个 GPU,自动处理

目标客户:

  • AI 工程师和数据科学家(不想做 DevOps 的人)
  • 小型 AI 创业团队(没有专门的基础设施工程师)
  • 需要间歇性 GPU 算力的研究者
  • 数据团队做批处理任务(一次性跑完不需要常驻资源)

产品矩阵

核心产品

Modal Functions:核心产品。通过 Python 装饰器(@app.function)把任何函数变成云端任务。支持 GPU(H100、A100、L4、T4 等)和 CPU,自动管理容器化和依赖安装。

Modal Volumes:分布式文件系统,让多个函数共享数据。读写速度快,适合模型权重存储和数据集管理。

Modal Web Endpoints:把函数直接变成 HTTP API。不需要 Flask/FastAPI,加一个装饰器就是 API。

Modal Scheduling:定时任务调度。可以用 cron 表达式定义周期性任务,Modal 自动按需启动计算资源。

Modal Sandboxes:安全的代码执行环境。适合运行不受信任的代码(比如 AI Agent 生成的代码),有隔离和权限控制。

技术差异化

Modal 的核心技术壁垒在两个方面:

  1. 容器启动速度:Modal 用自定义的容器运行时(不是标准的 Docker),GPU 实例冷启动时间压到秒级。这在 Serverless 场景中至关重要——传统云的 GPU 实例启动需要分钟级。

  2. 开发者体验:Modal 的 API 设计极其 Pythonic。不需要学新的配置语言或 DSL,写 Python 就是在写基础设施配置。这种"infrastructure as code"做到了极致简洁。

商业模式

定价策略

资源 价格 说明
H100 GPU ~$3.95/小时($0.001097/秒) 最高性能
A100 80GB GPU ~$2.50/小时($0.000694/秒) 性价比之选
A100 40GB GPU ~$2.10/小时($0.000583/秒) 中端
L4 GPU ~$0.76/小时 轻量推理
T4 GPU ~$0.59/小时 入门级
CPU 按核心/秒计费 非 GPU 任务

按秒计费是 Modal 的定价核心——跑 30 秒的任务就付 30 秒的钱。对比传统云的按小时计费,在间歇性工作负载上能省 80% 以上。

收入模式

纯用量计费模式。没有订阅费、没有最低消费承诺(Free Tier 有一定额度)。收入随客户用量线性增长。

融资与估值

轮次 时间 金额 估值
Series A 2023.3 $1600万
Series B 2025.9 $8700万 $11亿
传闻中新轮 2026.2 融资中 ~$25亿

总融资约 1.11 亿美元(不含最新轮)。Series B 由 Lux Capital 领投。最新传闻的新一轮由 General Catalyst 领投,估值从 11 亿跃升至 25 亿——不到 5 个月翻了一倍多。

客户与市场

标杆客户

  • Ramp:金融科技公司,用 Modal 跑数据密集型项目
  • Substack:用 Modal 做 AI 驱动的音频转录,数百个 GPU 并行
  • SphinxBio:生物技术公司,在 Modal 上跑蛋白质折叠模型
  • 超过 10000 周活跃用户(截至 2024 年数据)
  • 70% 的用户只在 Modal 上跑 ML/AI 工作负载

市场规模

Serverless GPU 市场在 2026 年预计 50-100 亿美元规模,但增速极快(AI 工作负载的爆发带动)。更广义的 AI 基础设施市场超过 2000 亿。Modal 切入的是其中"开发者友好"的一层——不是替代 AWS,而是替代 AWS 上那些复杂的配置和运维工作。

竞争格局

维度 Modal Replicate RunPod Lambda AWS/GCP
核心体验 Python-native Serverless 模型市场 GPU云 GPU云 全栈云
按秒计费 否(按小时)
冷启动速度 最快(秒级) 中等 不适用 不适用 慢(分钟级)
GPU 种类 丰富(T4到H100) 有限 丰富 丰富 最丰富
开发者体验 最好 一般 一般 复杂
自定义代码 完全支持 受限 完全支持 完全支持 完全支持
ARR $5000万 未公开 未公开 未公开 远超

我实际看到的

好的:Modal 的开发体验是我试过的所有 GPU 云服务中最好的。在一个个人项目中,我需要用 Stable Diffusion 批量生成 500 张图片——在 Modal 上写了大约 20 行代码,10 个 A100 并行跑,15 分钟搞定,花了不到 10 美元。同样的事情在 AWS 上需要先配 EC2、装 CUDA、管依赖,光环境搭建就要半天。按秒计费对间歇性任务太友好了。Sandboxes 功能对跑 AI Agent 生成的代码也很有用。

复杂的:Modal 的定位限制了它的天花板。它面向的是"不想管基础设施的开发者"——但大企业的 AI 团队通常有专门的 MLOps/平台工程师,他们更倾向于用 Kubernetes 或 Ray 搭建自己可控的平台。5000 万 ARR 对 25 亿估值(P/S 50 倍)偏高,说明投资人在为增长潜力买单。

现实的:Modal 的竞争壁垒归根结底是"开发者体验"。这是一个真实但可能被模仿的优势——如果 AWS 或 GCP 推出一个同样简单的 Serverless GPU 方案,Modal 的核心卖点会被削弱。不过 AWS 的产品简洁性一直不太行(谁用过 SageMaker 谁知道),所以 Modal 可能有时间窗口。另外,10000 周活用户和 85% 的留存率说明产品粘性不错。

我的判断

  • ✅ 适合:AI 工程师/数据科学家想快速把代码跑在 GPU 上(零运维);小型 AI 创业团队没有 DevOps 能力;间歇性 GPU 需求(批处理、实验、原型验证);个人开发者做 side project
  • ❌ 跳过如果:你有成熟的 MLOps 团队和 K8s 集群(Modal 的价值不大);你需要常驻的 GPU 资源(按小时租更划算);你有严格的合规要求需要私有部署(Modal 是公有云服务)

一句话:Modal 做到了"GPU 的 AWS Lambda"——让 GPU 计算像跑 Python 脚本一样简单。它的天花板取决于有多少 AI 开发者愿意为"不用管基础设施"这个价值付费。

互动

你第一次把 AI 代码部署到 GPU 云上时花了多长时间?我记得我第一次用 AWS 跑 Fine-tuning,光环境配置就折腾了两天。Modal 把这个时间压到了分钟级。你愿意为"省时间"付多少溢价?