解开Kubeflow管道的神秘面纱第一部分:Kubernetes上的数据科学工作流程
by liam zheng on 3 September 2020
Kubeflow管道(Pipeline)是构建可移植、可扩展的机器学习工作流程最好的方式,也是更大的Kubeflow生态的一部分,旨在减少大规模训练和部署机器学习模型的复杂性和时间。
在这个系列的博客文章中,我们将介绍Kubeflow pipelines和展示了这种方法来产生可重用和可再现的数据科学。 🚀
我们将探讨为什么Kubeflow为数据科学工作流程带来了正确的标准化,然后说明了如何通过Kubeflow管道实现这一目标。
在第二部分种,我们将开始上手实践。我们也会利用Fashion MNIST数据集和基础Tensorflow示例,采用逐步方法将示例模型转换为Kubeflow管道,以便你可以执行此操作。
为什么要用Kubeflow
机器学习工作流程可能涉及许多步骤,并且如要保存所有这些步骤到笔记本或脚本中将会变得难以维护,共享和协作,这导致大量“机器学习系统中隐藏的技术债务”。
另外,这些步骤通常在不同的系统上运行。在实验的初始阶段,数据科学家将在工作站或本地训练平台上工作,大规模训练通常会在云环境(私有,混合或公有云)中进行,而推理和分布式训练则经常发生在边缘端。
容器提供了正确的封装,避免了每次开发者改变执行环境时调试的需求,且Kubernetes将容器的调度和编排带到了基础设施中。
然而,管理Kubernetes顶端的机器学习工作流程仍然是一项专门的运营工作,这也是我们不想给数据科学家添加的工作。Kubeflow弥补了在AI工作负载和Kubernetes间的间隔,使得机器学习运营更好管理。
什么是Kubeflow管道?
Kubeflow管道是Kubeflow最重要的功能之一,有望使您的AI实验具有可重复性,可组合性。例如,可互换的组件,可扩展,并且易于共享。
管道是机器学习工作流程的统一表示形式,类似于第一幅图中描述的步骤序列,其中包括工作流程的组件及其各自的依存关系。具体地说,管道是有向无环图(DAG),每个节点上都有一个容器化过程,该过程在Argo之上运行。
每个管道组件,呈现为一个区块,是一个独立的代码,通常打包为Docker镜像。它包含输入(参数),输出和管道中执行的一步。在上面管道示例中,transform_data步骤需要作为extract_data和generate_schema步骤的输出产生的参数,并且其输出是train_model的依赖项。
你的机器学习代码是被包入组件中的,你可以对组件进行:
- 指定参数——在每次运行时在仪表中可进行编辑,配置。
- 挂载持久卷——如我们的笔记本无故终止,不能添加持久卷的话,我们会丢失全部的数据。
- 指定要生成的工程文件——如方便地存储在Kubeflow仪表板内的Artifact Store中的图形,表格,选择的图片,模型。
最后,当你运行管道,根据Kubernetes调度,现在将在整个集群中执行每个容器,同时考虑到相关性。
容器化的编排使得其可简单复用,分享或随着工作流程的变化而更换组件,这种情况很常见。
在运行管道后,你能在管道接口上研究结果,调试,调整参数和通过不同参数或数据源执行的管道来进行实验。
通过这样的实验,你保存和比较运行结果,保持最佳性能的模型和工作流程的版本控制。
扩展阅读
要持续学习和实验Kubeflow和Kubeflow管道,你可以:
- 观看我们举办的研讨会
- 尝试运行Github上的Kubeflow示例
- 阅读文章Kubernetes for data science: meet Kubeflow
- 访问ubuntu.com/kubeflow
如何体验Kubeflow?
要在Windows、macOS或者Ubuntu上部署Kubeflow,可参考:
This blog series is part of the joint collaboration between Canonical and Manceps.
Visit our AI consulting and delivery services page to know more.
订阅博客文章
查看更多内容
如何使用 DSS 构建您的首个模型
GenAI 无处不在,它正在改变我们对待技术的方式。如果您曾想要深入大型语言模型(LLM)的世界,但是感到无从下手,那么有一个好消息!Hugging Face 最近推出了一个自定进度的课程,非常适合初学者和更有经验的爱好者。由于模型占用面积小,它可以实际操作,易于使用,并且设计为在标准硬件上工作。 当我听到这个消息时,我决定使用 Canonical 的数据科学堆栈(DSS)来尝试一下。 在这篇博客中,我将指导您设置 DSS 并运行 Hugging Face 课程的第一个笔记本。该笔记本侧重于受监督的微调,这是一种使预先训练的语言模型适应特定任务或领域的方法。在这篇帖子的结尾,您将会看到 GenAI 是多么的简单和容易理解——这将是一项用于开启新年篇章的完美新技能。 设置您 […]
Canonical 获得 ISO/SAE 21434 认证,强化了汽车网络安全标准
经过认证的网络安全流程有助于保护下一代互联汽车 Canonical 自豪地宣布,其安全管理系统经过全球知名认证提供商 TÜV SÜD 的广泛评估,已获得 ISO/SAE 21434 认证。这一里程碑突出了 Canonical 在为汽车行业提供可信可靠的开源解决方案方面的领导地位。它强调了 Canonical 对三大关键业务支柱的承诺:强大的网络安全、符合全球行业标准以及为自动驾驶和智能汽车构建更安全的未来。 强大的汽车网络安全 随着车辆的互联程度越来越高,未经授权的访问、远程攻击和数据泄露的风险也显著增加。ISO/SAE 21434 为在整个车辆生命周期内管理这些风险提供了详细的框架。对于原始设备制造商和一级供应商来说,合规是在竞争激烈的市场中交付产品的关键。 Canon […]
Canonical 和 Renesas 宣布将合作加速企业 AI 创新
Ubuntu 的发行商 Canonical 宣布,半导体解决方案的全球领导者 Renesas Electronics Corporation 已加入 Canonical 的硅合作伙伴计划,以提供量身定制的尖端解决方案来满足边缘计算和 AI 应用不断增长的需求。随着行业越来越多地采用 AI 驱动的解决方案,对高效、可扩展和安全维护的边缘计算平台的需求前所未有地高涨。此次合作将结合 Renesas 在嵌入式处理方面的专业知识和 Canonical 全面的物联网(IoT)软件堆栈。 可扩展的生产级解决方案 Canonical 和 Renesas 的合作旨在为原始设备制造商(OEM)和原始设计制造商 (ODM)提供可扩展的生产级解决方案,从而缩短上市时间(TTM)。Renesas […]