机器学习操作 (MLOps) 产品类别一直在快速发展,特别是在去年,并且出现了几个来承担它。 包括 AWS 和 Microsoft 在内的云供应商,包括 Databricks 和 Cloudera 在内的分析公司,像 Algorithmia 这样的纯粹 MLOps,甚至像 MLflow 这样的开源项目,都提供了集成来管理机器学习模型的实验、部署、监控和可解释性。 现在,位于纽约市的 MLOps 初创公司 Spell 正在提供专门针对深度学习的 MLOps 。 因此,Spell 将其上周宣布的称为促进“DLOps”。
ZDNet 采访了 Spell 的营销主管 Tim Negris 及其首席执行官兼联合创始人 Serkan Piantino(他曾担任 Facebook AI Research 的工程总监,并开设了 Facebook 纽约市办事处)。 两人解释说,当今大多数著名的 MLOps 都迎合了传统的机器学习(分类、回归、聚类等),而不是深度学习,深度学习通过在一个整体中分层多个神经网络结构来构建模型。 市场差距是 Spell DLOps 背后的动机。
特殊要求
为什么 Spell 将 DLOps 视为一个独特的类别? Piantini 和 Negris 解释说,深度学习特别适用于涉及自然语言处理 (NLP)、计算机视觉和语音识别的场景。 深度学习模型通常比传统的 ML 模型更复杂,不太可能在数据科学家的笔记本电脑上进行训练。 相反,深度学习模型训练受益于额外且更强大的基于云的硬件,包括基于 CPU 的计算,尤其是基于 GPU 的计算。 后者在深度学习模型实验和训练方面可能非常昂贵,因此能够在云中对此类硬件进行管理和成本管理的 MLOps 至关重要。
Piantino 和 Negris 描述了 Spell 并指出它如何谨慎地管理基于 CPU 和 GPU 的集群节点的可用性和成本计算。 Spell 的一个特别有趣的功能是它可以创建云点实例池,并按需将它们提供给用户。 因此,Spell Virtual On-Demand Instances 以现货实例价格提供按需使用,这为客户节省了大量资金,尤其是在 GPU 资源用于训练复杂深度学习模型的情况下。
由于 Spot 实例经常会被中断,因此 Spell 被设计为在这种情况下具有弹性,允许进行长时间运行的训练工作,即使在抢占的情况下,也无需用户干预。 Spell 通过其在新实例上重建深度学习环境、仔细跟踪此类环境的完整起源和沿袭的能力来做到这一点。 这种方法还有助于提高模型的可重复性,并在与初始训练环境相同的配置下重新训练模型。
DLOps 与 MLOps
Spell 团队不仅讨论了他们的,他们还演示了它。 当他们这样做时,很明显标准 MLOps(甚至 AutoML)的许多装备——包括实验管理、模型存储库、沿袭、监控和可解释性——也存在于 Spell 的 DLOps 中。 因此,看起来 DLOps 确实是传统 MLOps 的超集,我问 Piantino 和 Negris 是否是这种情况。 两人一致认为,从技术上讲,我的猜想是正确的,但解释说 Spell 仍然专门针对深度学习用例。 Spell 将 AI 的深度学习部分视为最具动力和行动的部分。
Negris 和 Piantino 解释说,一旦组织成熟到一定规模和机器学习工作量,最终就会采用传统的 MLOps 。 但他们解释说,大多数进行深度学习的客户从第一天起就真正需要一个运维。这解释了为什么 Spell 真正专注于这个市场——因为它有紧迫的需求,不需要接受教育来理解为什么它最终会拥有 一个需要补救的痛点。 相反,深度学习客户会立即感到压力。
考虑到这一点,看起来 MLOps 和 DLOps 似乎并没有太大区别,但深度学习对 MLOps 的压力测试比传统机器学习更费力。 从本质上讲,今天的 DLOps 要求可能会成为明天的传统 MLOps 要求。 因此,这两个子类别是否有朝一日会合并尚不清楚。 显而易见的是,Spell 正在根据合法且已证明的需求打造其,以优化深度学习并将其操作化为企业主流。
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/66496.html