利用开源机器学习基础架构加速 AI 发展
by Canonical on 13 June 2025

人工智能技术在迅速发展,对稳健强大且可扩展的基础架构具有迫切需求。为应对这些挑战,我们精心打造了一套全面的参考架构(RA),充分利用了开源工具与尖端硬件的强大功能与性能。这套架构基于 Canonical 的 MicroK8s 和 Charmed Kubeflow 构建,运行于 Dell PowerEdge R7525 服务器之上,并借助NVIDIA NIM 微服务实现加速,为部署和管理机器学习工作负载提供了一个简便高效的途径。
为数据科学家与工程师赋能
该解决方案旨在为数据科学家和机器学习工程师赋能,使其能够实现更快迭代、无缝扩展以及强有力的安全保障。对于基础架构构建者、解决方案架构师、DevOps 工程师以及首席技术官(CTO)而言,这套参考架构提供了一条畅通无阻的途径,既能推进人工智能项目,又能应对大规模部署所带来的复杂性问题。
这套架构的核心在于 Canonical 与 NVIDIA 之间的协同合作。我们通过合作确保从 Ubuntu Server 和 Ubuntu Pro 到 Charmed Kubeflow 的整个软件栈,都针对 NVIDIA 认证系统进行优化。这样的集成可以实现卓越的性能和可靠性,使企业组织能够提升其 AI 运行效率。
Dell PowerEdge R7525:高性能 AI 的硬件基础
Dell PowerEdge R7525 服务器在这套架构中起着至关重要的作用,其为处理高要求的 AI 工作负载提供了稳健可靠的硬件基础。这是一款 2U 机架式服务器,专为高性能计算、虚拟化以及数据密集型任务而设计。
R7525 配备双插槽 AMD EPYC 处理器,具备出色的可扩展性、高级的记忆功能以及灵活的存储选项。因此,它非常适合必须要处理大规模数据集和复杂模型的 AI 和机器学习环境。R7525 的设计可以确保企业组织能够在运行变革性 AI 系统的同时对传统 IT 应用程序进行虚拟化处理,为多样化的工作负载提供一个统一的平台。
利用 NVIDIA NIM 和 A100 GPU 之优势
这套架构利用 NVIDIA AI Enterprise 软件平台随附的 NVIDIA NIM 微服务,可以实现安全可靠的 AI 模型推理。再结合 NVIDIA A100 GPU 的强大功能,能够为高要求的 AI 工作负载提供所需的计算能力。通过在 Charmed Kubeflow 平台上部署基于 NVIDIA NIM 的 LLM,企业组织可实现从模型开发到生产的无缝衔接。
Canonical 的开源组件
Canonical 推出的 MicroK8s 是一款 CNCF 认证的 Kubernetes 发行版,可提供一个轻量高效的容器编排平台。Charmed Kubeflow 可以简化 AI 工作流的部署与管理,并且提供一个庞大的工具和框架生态系统。二者结合可以确保机器学习生命周期流程的顺畅高效运转。
架构的主要优点
这套架构具有迭代速度更快、可扩展性提升以及强有力的安全保障等众多优点。NVIDIA 与 Canonical 产品的深度集成,确保了该解决方案开箱即用的无缝运行体验,以及更快的漏洞修复速度和及时的安全更新。此外,Ubuntu 提供的硬件基础还可以提供安全稳定的运行环境。
这套参考架构不仅是一纸蓝图,更是一套实用性指南。文档中包含硬件规格、软件版本以及关于使用 NIM 部署 LLM 的分步教程。文档中还介绍了设备集群监测与管理,为用户呈现系统运行的全貌。
解锁新机遇
凭借 Canonical、Dell 和 NVIDIA 三方专业技术的强强联合,企业组织可在各自的领域中解锁新机遇。该解决方案可以提升数据分析能力,优化决策流程,并彻底改变客户体验。
即刻行动
这套参考架构可为部署 AI 工作负载奠定坚实基础。凭借 Canonical、Dell 和 NVIDIA 三方专业技术的强强联合,企业组织能够提升数据分析能力,优化决策流程,并彻底改变客户体验。综上所述,企业组织可放心采用这一解决方案,推动创新进程,加速 AI 应用进程。
准备好推动您的 AI 项目迈向新高度了吗?
订阅博客文章
查看更多内容
83% 的企业肯定开源软件的应用价值,但也表示在安全与治理方面存在重大缺口
Linux Foundation 最新报告揭示了全球企业对开源软件的采用情况、使用现状及认知态度。 Linux Foundation 携手 Canonical 发布的最新报告《全球开源现状》,是继今年早些时候 Linux Foundation 欧洲地区报告之后的全球性报告。报告证实,欧洲地区报告中揭示的诸多趋势在全球范围内同样存在。这份全球报告尤其证实了开源软件在全球范围内作为关键业务系统基础所发挥的重要作用,并且表明采用率的持续攀升。不过,企业仍然缺乏战略性且安全管理开源软件所需的治理机制、安全测试体系及战略成熟度。 报告指出,多数企业期望开源软件能达到企业级性能标准,但在所需治理框架、安全实践及社区协作方面投入不足。 下载报告 83% 的企业承认开源对其未来发展具 […]
Canonical 获得 ISO 27001 认证
该认证是符合网络安全标准的有力证明,可在最严苛的企业环境中全面保障开源产品和服务的应用安全。 Canonical 自豪地宣布,经过知名认证提供商 A-LIGN 的广泛评估,其信息安全管理系统(ISMS)已获得 ISO/IEC 27001 认证。这一里程碑彰显了 Canonical 致力于遵守政策,完善流程和控制措施,这些措施旨在保障企业内部数据、客户数据及供应商信息的保密性、完整性及可用性,并推进公司的企业基础设施环境建设。 Canonical 首席信息安全官 Stephanie Domas 表示:“获得 ISO 27001 认证,有力地证明了我们团队对信息安全的坚定承诺。这证实了我们的流程符合全球最高标准,让我们的客户和合作伙伴确信他们的数据受到最周全、最严谨的保护。安 […]
如何借 Anbox Cloud 构建出色的云游戏平台
为何选择云游戏? 云游戏正在改变我们的游戏方式。玩家无需购买昂贵的硬件,而是从云端流式传输游戏,就像游戏界的 Netflix 一样。 这已不再是未来主义的构想,它就在眼前。NVIDIA GeForce Now、Sony PS Plus 以及 Xbox Cloud Gaming 等服务已展示出可能的图景:将所有心仪游戏(包括独立游戏和 AAA 游戏)从强大的云服务器流式传输至低端设备,从而畅玩高端游戏。 但云游戏的意义不仅在于通过云端运行游戏,更在于让玩家摆脱硬件的束缚。手机可以变身游戏主机,笔记本电脑甚至不需要专用 GPU 就可以成为游戏级电脑。为了实现这一目标,平台必须做到: 构建自有云游戏平台是一项艰巨的任务。游戏的资源需求量大,并且高度依赖 GPU 运算。但网络混乱 […]