很多模型死在「实验阶段跑得通,上线却部署不了」。托管 ML 平台的价值,就是把这条路标准化。
标准工作流的六个阶段
- 数据准备:特征工程与特征存储,保证训练/推理特征一致。
- 训练:托管 Notebook 起步,规模化时切换到分布式训练任务。
- 调参:自动超参优化(HPO)替代手工试错。
- 注册:把通过验证的模型登记进模型注册表,带版本与指标。
- 部署:一键部署为在线端点或批量推理。
- 监控:跟踪线上指标与数据漂移,触发再训练。
💡 先打通最小闭环(训练→注册→部署→监控)再谈优化。一开始就追求完美 MLOps,往往迟迟无法上线。