利用开源机器学习基础架构加速 AI 发展
by Canonical on 13 June 2025

人工智能技术在迅速发展,对稳健强大且可扩展的基础架构具有迫切需求。为应对这些挑战,我们精心打造了一套全面的参考架构(RA),充分利用了开源工具与尖端硬件的强大功能与性能。这套架构基于 Canonical 的 MicroK8s 和 Charmed Kubeflow 构建,运行于 Dell PowerEdge R7525 服务器之上,并借助NVIDIA NIM 微服务实现加速,为部署和管理机器学习工作负载提供了一个简便高效的途径。
为数据科学家与工程师赋能
该解决方案旨在为数据科学家和机器学习工程师赋能,使其能够实现更快迭代、无缝扩展以及强有力的安全保障。对于基础架构构建者、解决方案架构师、DevOps 工程师以及首席技术官(CTO)而言,这套参考架构提供了一条畅通无阻的途径,既能推进人工智能项目,又能应对大规模部署所带来的复杂性问题。
这套架构的核心在于 Canonical 与 NVIDIA 之间的协同合作。我们通过合作确保从 Ubuntu Server 和 Ubuntu Pro 到 Charmed Kubeflow 的整个软件栈,都针对 NVIDIA 认证系统进行优化。这样的集成可以实现卓越的性能和可靠性,使企业组织能够提升其 AI 运行效率。
Dell PowerEdge R7525:高性能 AI 的硬件基础
Dell PowerEdge R7525 服务器在这套架构中起着至关重要的作用,其为处理高要求的 AI 工作负载提供了稳健可靠的硬件基础。这是一款 2U 机架式服务器,专为高性能计算、虚拟化以及数据密集型任务而设计。
R7525 配备双插槽 AMD EPYC 处理器,具备出色的可扩展性、高级的记忆功能以及灵活的存储选项。因此,它非常适合必须要处理大规模数据集和复杂模型的 AI 和机器学习环境。R7525 的设计可以确保企业组织能够在运行变革性 AI 系统的同时对传统 IT 应用程序进行虚拟化处理,为多样化的工作负载提供一个统一的平台。
利用 NVIDIA NIM 和 A100 GPU 之优势
这套架构利用 NVIDIA AI Enterprise 软件平台随附的 NVIDIA NIM 微服务,可以实现安全可靠的 AI 模型推理。再结合 NVIDIA A100 GPU 的强大功能,能够为高要求的 AI 工作负载提供所需的计算能力。通过在 Charmed Kubeflow 平台上部署基于 NVIDIA NIM 的 LLM,企业组织可实现从模型开发到生产的无缝衔接。
Canonical 的开源组件
Canonical 推出的 MicroK8s 是一款 CNCF 认证的 Kubernetes 发行版,可提供一个轻量高效的容器编排平台。Charmed Kubeflow 可以简化 AI 工作流的部署与管理,并且提供一个庞大的工具和框架生态系统。二者结合可以确保机器学习生命周期流程的顺畅高效运转。
架构的主要优点
这套架构具有迭代速度更快、可扩展性提升以及强有力的安全保障等众多优点。NVIDIA 与 Canonical 产品的深度集成,确保了该解决方案开箱即用的无缝运行体验,以及更快的漏洞修复速度和及时的安全更新。此外,Ubuntu 提供的硬件基础还可以提供安全稳定的运行环境。
这套参考架构不仅是一纸蓝图,更是一套实用性指南。文档中包含硬件规格、软件版本以及关于使用 NIM 部署 LLM 的分步教程。文档中还介绍了设备集群监测与管理,为用户呈现系统运行的全貌。
解锁新机遇
凭借 Canonical、Dell 和 NVIDIA 三方专业技术的强强联合,企业组织可在各自的领域中解锁新机遇。该解决方案可以提升数据分析能力,优化决策流程,并彻底改变客户体验。
即刻行动
这套参考架构可为部署 AI 工作负载奠定坚实基础。凭借 Canonical、Dell 和 NVIDIA 三方专业技术的强强联合,企业组织能够提升数据分析能力,优化决策流程,并彻底改变客户体验。综上所述,企业组织可放心采用这一解决方案,推动创新进程,加速 AI 应用进程。
准备好推动您的 AI 项目迈向新高度了吗?
订阅博客文章
查看更多内容
Canonical 宣布推出 12 年 Kubernetes LTS
Canonical 的 Kubernetes LTS(长期支持)将支持 FedRAMP 合规性,并在裸机、公共云、OpenStack、Canonical MicroCloud 和 VMware 上获得至少 12 年的承诺安全维护和企业支持。 Canonical 宣布,从 Kubernetes 1.32 开始,将提供 12 年的安全维护和支持。新版本易于安装、操作和升级,具有一流的开源网络、DNS、网关、度量服务器、本地存储、负载平衡器和入口服务。Canonical Kubernetes 使客户能够按照自己的节奏进行升级,对于喜欢快速行动的组织,将每四个月发布一次新的上游版本,对于需要长期支持环境的组织,则提供 12 年的承诺。 “Kubernetes 的不断升级是企业团队 […]
Ubuntu 正式支持 NVIDIA Jetson
Ubuntu 正式支持 NVIDIA Jetson:助力边缘 AI 未来发展 Canonical 宣布推出支持 NVIDIA® Jetson Orin™ 的 Ubuntu 正式发布版本,该版本专为边缘 AI 和机器人领域打造,为全球 AI 开发者带来优化的性能、开箱即用的兼容性以及实现高性能 AI 解决方案的便捷途径。 Ubuntu 发行商 Canonical 宣布正式支持 NVIDIA Jetson 平台,标志着其与 NVIDIA 的合作迎来重要里程碑,为加速边缘 AI 领域创新再添动力。此次正式发布(GA)版本为 Ubuntu 与 NVIDIA Jetson 系统级模块解决方案的强大组合赋予了企业级的稳定性与技术支持。 为各行各业 AI 创新赋能 此次通过 Canon […]
如何使用 DSS 构建您的首个模型
GenAI 无处不在,它正在改变我们对待技术的方式。如果您曾想要深入大型语言模型(LLM)的世界,但是感到无从下手,那么有一个好消息!Hugging Face 最近推出了一个自定进度的课程,非常适合初学者和更有经验的爱好者。由于模型占用面积小,它可以实际操作,易于使用,并且设计为在标准硬件上工作。 当我听到这个消息时,我决定使用 Canonical 的数据科学堆栈(DSS)来尝试一下。 在这篇博客中,我将指导您设置 DSS 并运行 Hugging Face 课程的第一个笔记本。该笔记本侧重于受监督的微调,这是一种使预先训练的语言模型适应特定任务或领域的方法。在这篇帖子的结尾,您将会看到 GenAI 是多么的简单和容易理解——这将是一项用于开启新年篇章的完美新技能。 设置您 […]