谢谢您的订阅!
当新的内容发布后您将开始接收邮件。您也可以点击邮件内的链接随时取消订阅。关闭Close

MLOps 面临的五大挑战

by Canonical on 8 August 2023

ChatGPT 推出后,AI/ML 市场突然成为所有人的焦点。但是,启动一个项目会如此容易吗?最重要的是,扩展一个 AI 计划需要什么?涉及到机器学习工作流的自动化时,MLOps或机器学习运维就是答案。

采用 MLOps 和采用 DevOps 一样,您需要接受不同的思维方式和工作方式。但是,这项计划产生的投资回报值得您付出努力。从大局来看,您需要考虑两个关键方面。一方面,MLOps 是一种相对较新的做法,因此使用过程中遇到挑战不足为奇。另一方面,MLOps 发展迅速,因此每天都会有解决方案迸现。那么,企业通常需要奋力解决的常见 MLOps 挑战是什么?以及如何解决?我们将在本篇博文深入探讨这些问题。

MLOps 挑战 1:人才

Glassdoor 拥有 3 万多个与数据科学相关的工作岗位,以及 1.5 万多个与机器学习工程相关的工作岗位,这些工作都要求不同程度的经验、研究和技能。数据科学职业的吸引力得到了极大的提高,市场上的机会也很多。

从不同角度分析这些数据,企业不断增加劳动力方面的投入,来支持机器学习计划。他们优先考虑了 AI 项目,除了设备,还在人才方面投入大量资金。但是,这也造就了寻找技术人才,减少机器学习和数据科学专业团队的自然减员等相关挑战。缺乏技能和员工流失影响了机器学习生命周期的实现,并对启动新计划所需的时间表带来影响。

因其竞争特性,想要减轻这一挑战造成的影响非常困难。远程招聘无疑是解决方案之一,因其增加了获得更多技术人才的机会。另一个不错的机会是考虑年轻人才,他们可以在公司里通过实习或研究生项目发展技能。然而,这将是一项长期战略,对于短期解决方案,可以聘请提供咨询服务的公司帮助企业启动 AI 项目。公司可根据 AI 准备情况,寻求用例、MLOps 架构,甚至概念证明的指导。

通过我们的指南,深入了解 MLOps 以及如何在您的企业内启用

下载白皮书

MLOps 挑战 2:启动

对于大多数企业来说启动 AI 项目是一项挑战。

开始一个 AI 项目就像拥有商业案例一样简单。回答以下三个主要问题,将帮助您更好地了解实际要达成的目标:

  • 您试图解决什么问题?
  • 您是否拥有现实的期望?
  • 您是否拥有正确的数据?

简而言之,要启动 AI 计划,您需要在开始时就将目标铭记在心,并朝此不断前进。然后,您可以评估公司的 AI 准备情况,并创建自己的项目。考虑差距、关键因素、要避免的常见陷阱以及基础设施挑战等问题,有助于公司更深入地审视 AI 项目的启动准备情况。回答这些问题能够引导对整个 AI 计划的设计。最终,该设计将帮助您的团队确定优先事项,制定预算,并设定合适的时间表。

MLOps 挑战 3:数据

数据是任何 AI 项目的核心。这是决定计划成败的关键部分。为了评估数据质量和数据访问点,需要进行有效性检查。尽管现在数据似乎无处不在,但它尚未成为大多数公司的优先考虑。因此数据收集过程通常都不是非常规范,导致数据不干净、不一致。

整体而言,数据准备并不简单。在涉及到数据管理、收集和存储时,组织可能会面临巨大挑战。通常,数据来自多个来源,这会导致数值和格式上的不匹配。从另一个角度来看,机器学习模型依赖大量数据,而这通常都很难处理。

应对这一挑战有多个微妙之处,因为它在不同层面都有影响。兢兢业业地处理数据可能才是成功的秘诀。限制数据差异和集中存储数据,简化了数据的准备阶段。数据版本化可解决因数据中出现更改而引起的问题。

MLOps 挑战 4:安全

机器学习的运行经常涉及非常敏感的数据和项目。因此,确保环境安全对项目的长期成功至关重要。最近,IBM 的一份 AI 采用报告显示,五分之一的公司提到了确保数据安全的困难。因此,解决这一问题的人数不断增多,这也解释了为什么 25% 的受访者是安全专业人士。

与安全相关的挑战中,运行过时的库是最常见的一项挑战。用户往往没有发现他们拥有多个漏洞,而这代表着有可能招致恶意攻击。

另一个安全隐患和没有得到正确保护的模型端点和数据管线有关。这些有时是可以公开访问的,这可能会导致将敏感的元数据暴露给第三方。端点是一个开发环境。若将它们当做开发环境,则表示有明确的安全标准来确保项目安全和数据安全。

对任何 MLOps 环境来说,安全可能都是一项挑战,因此运行提供安全补丁和支持的软件对项目存在和生产部署来说至关重要。使用具有多租户选项的工具可保护内部环境、数据隐私以及对公众敏感的不同计划的安全。

帮助您的团队部署 AI 模型并提供价值的咨询服务和产品

Read the Datasheet

MLOps 挑战 5:扩大规模

正如麦肯锡《2022年 AI 现状》中提到的那样,许多组织很大程度上已从 AI 实验转到积极将其植入企业应用。这一方面证实了企业对 AI 项目的承诺,但另一方面,又提出了很多与扩大规模的知识和能力相关的问题。从拥有正确的工作流和工具来部署和监控生产模型,一直到支持此类计划所需的基础设施,公司需要快速应用和学习新做法。

许多人对机器学习的首选是开源。诸如 Charmed Kubeflow 等端对端 MLOps 平台,是市场上一个可用的开源选项。它借助一套数据科学家已经惯用的工具,解决了与扩展相关的多种需求,诸如自动化、监控、警示、集成以及部署等。这是应对常见 MLOPs 挑战的一种理想选择。

深入了解 MLOps



订阅博客文章

订阅您感兴趣的主题

在提交此表格的同时,我确认已阅读和同意的隐私声明隐私政策。

查看更多内容

Canonical x Lenovo: 在边缘运行 AI workloads

携手 Canonical 和 Lenovo,在边缘运行 AI 工作负载 从制造业中的预测性维护,到医疗保健行业中的虚拟助手,再到最偏远地区的电信路由器优化,AI 正在各种边缘环境中掀起新浪潮,带来新机遇。但为了支持这些几乎随处运行的 AI 工作负载,公司需要具备快速、安全且高度可扩展的边缘基础架构。 开源工具 —— 例如用于轻量级 Kubernetes 编排的 MicroK8s 和用于 ML 机器学习工作流的 Charmed Kubeflow —— 可以为边缘 AI 部署提供更高的灵活性和安全性。如果配合加速计算堆栈使用,这些解决方案可以帮助专业人员更快地交付项目,降低运营成本,以及确保更可预测的结果。 今天这篇博客探讨为什么企业正逐渐在边缘 AI 领域转向开放式基础架构 […]

Canonical 将出席 2024 KubeCon China 主题会议

2024 年 8 月 21 日,我们的 AI 产品经理 Andreea Munteanu 和托管服务产品经理 Adrian Matei 将代表 Canonical 出席在嘉里酒店举办的 Kubecon China 会议。Canonical 多年来一直是 KubeCon 盛会的常客,我们非常高兴参加本次 KubeCon China 首秀。 本会议将以“应对人工智能/机器学习项目中的运营时间市场减速因素”为主题(Tackling Operational Time-to-Market Decelerators in AI/ML Projects),深入探讨实现 AI 企业卓越运营方面的要求和因素,涵盖基础架构配置到监控以及应急恢复等。 在竞争激烈的人工智能市场中,上市时间对于成 […]

《网络弹性法案》对开源意味着什么

《网络弹性法案》(Cyber Resilience Act,CRA)即将生效。这项影响广泛的法规将引入针对开发商、零售商和设备制造商的新要求和制衡措施;而许多亟待满足的需求在开源社区并没有得到很好的解决。  在本篇博客中,笔者将探讨 CRA 对开源的影响,分享一些专家的见解,说明该法案在哪些方面有着积极的影响以及在哪些方面存在灰色地带,并向大家介绍在使用或创建开源的情况下应该为法案的推行做好哪些准备。 为何制定《网络弹性法案》? 首先大致介绍一下,CRA 是欧盟即将出台的一项法规,旨在通过对欧盟 IT 行业实施更严格的网络安全、文档和漏洞报告要求,提高设备安全性。这项法规将适用于硬件、设备、软件、应用程序和其他“带有数字连接元素的产品”的开发商、分销商、制造商和零售商。 […]