谢谢您的订阅!
当新的内容发布后您将开始接收邮件。您也可以点击邮件内的链接随时取消订阅。关闭Close

安全数据存储对于推动 AI 人工智能的关键性

by Canonical on 18 June 2024

没有数据就没有 AI

人工智能是近年来最激动人心的一场科技革命。Nvidia、Intel、AMD 和其他公司继续生产速度越来越快的 GPU,进而支持更大的模型和决策过程中更高的吞吐量。

除了当下对人工智能的大量宣传之外,还有一点仍被人们所忽略:AI 需要数据

首先,存储系统需要对不断增长的数据集的高性能进行访问,但更重要的是,它们需要确保这些数据得到安全存储,以供当下以及未来之用。在典型的 AI 系统中,用到了多种不同类型的数据:

  • 原始和预处理数据
  • 训练数据
  • 模型
  • 结果

所有这些数据的收集、处理和输出都要耗费时间和计算能力,因此需要对数据进行保护。在某些情况下,诸如自动驾驶汽车的遥测数据之类的数据可能永远无法复制。即使在训练数据被用于创建模型之后,其价值也不会削减;模型如要实现改进,就需要使用一致的训练数据集,如有任何调整,都会认真衡量。

原始、预处理、训练和结果数据集可能包含个人身份信息,因此需要采取措施确保以安全的方式存储此等信息。除了安全存储数据的道德责任之外,发生数据泄漏还可能受到重罚。

优化云存储的成本

灵活应用Ceph

安全存储 AI 数据的挑战

安全存储数据有诸多风险,这些风险也存在于 AI 环境中。毕竟,机器学习是另一个消耗存储资源的应用领域,只不过有时规模要大得多。 

AI 用例相对较新,但大多数现代存储系统,包括 Ceph 等开源解决方案,都具备成熟的功能,可以用来降低这些风险。

通过静态数据加密阻止实体盗窃

理论上,存储系统中使用的任何磁盘都有可能因为盗窃或在发生故障事件后返厂保修更换而丢失。使用静态加密的情况下,如果没有解密数据所需的加密密钥,存储在磁盘、旋转介质或闪存上的每个字节的数据都是无用的。因此可以保护敏感数据或者经过数小时甚至数天处理后创建的专有模型。

严格访问控制,防止不速之客进入

任何系统设计都有一个核心原则,即确保用户(真人或无头账户)只能访问他们需要的资源,并且任何时候都可以轻松删除该访问记录。诸如 Ceph 这样的存储系统既使用自身的访问控制机制,也与 LDAP 等集中认证系统集成,以实现简单轻松的访问控制。

通过传输加密防止窃听

最糟糕的情况莫过于对话遭到窃听。计算机网络中亦是如此。通过对客户端到存储器的所有网络流以及内部存储系统网络进行加密,可以防止数据泄漏给在网络上窃听的第三方。

通过快照和版本控制告别勒索软件攻击

似乎每周都会有不同的大型企业披露勒索软件事件,他们的系统遭到未经授权的第三方控制且数据遭到加密。这不仅会导致停工,企业还有可能被迫支付赎金以获得解密密钥,以重获其系统控制权并访问数据。AI 项目通常需要投入大量的时间和资源,因此主动权如若遭到勒索软件攻击,可能会造成极大的损害。

使用时间点快照或对象的版本控制,企业组织可以恢复到先前的非加密状态,并有可能更快地恢复操作。

了解更多

Ceph 是一种可用于存储各种 AI 数据集的存储解决方案,不仅可以扩展以满足性能和容量需求,并且具有许多功能确保数据得到安全存储。 

了解有关 Ceph 如何解决 AI 存储挑战的更多信息:

更多资源

订阅博客文章

订阅您感兴趣的主题

在提交此表格的同时,我确认已阅读和同意的隐私声明隐私政策。

查看更多内容

CentOS EOL — 其对于Ceph存储而言意味着什么?

柳暗花明又一径 2020 年,CentOS Project 曾宣布他们将只专注于 CentOS Stream,这意味着 CentOS 7 将是最后一个与 Red Hat Enterprise Linux 通用的版本。CentOS 7 的生命周期结束(EOL)日期为 2024 年 6 月 30 日,此后将不再针对该操作系统发布安全更新、补丁或新功能。 如果用户在该版本 CentOS 上部署了 Ceph,他们在未来将面临挑战。解决上述生命周期结束挑战的方法有很多种,但每种方法都有细微差别: 风险 如果用户什么都不做,其逐渐老化的部署最终将没有受支持的路径来升级到未来的 Ceph 版本,从而使他们在新功能和功能性方面处于落后地位。更糟糕的是,没有针对关键安全漏洞的安全补丁可供该 […]

云存储安全最佳实践

使用 Ceph 的安全功能确保数据安全 如何将数据安全地存储在云存储系统中? 数据对于任何企业组织而言如同王冠上的宝石,如果丢失或暴露,可能会造成严重的影响。如果不能防止系统故障,可能会导致业务数据的丢失,从而导致业务无法正常运营,最终导致业务失败。将敏感数据暴露给未授权方不仅会导致声誉受损,还可能导致企业遭受巨额罚款。 本篇博客将详细介绍这些风险,以及如何使用 Ceph 的安全功能来减轻这些风险。首先,我们来了解一下数据泄露发生的一些最常见方式: 实物盗窃/运输 与存储相关的硬件、磁盘或整个存储系统的丢失可能导致敏感信息暴露。这可能发生在传统的入室盗窃情况下,即未经授权的一方进入数据中心并移除硬件,或者硬件在运输过程中(例如在返厂维修或更换时)被他人截获。 另一种实体危 […]

边缘 AI:结合开源的目的、理由和方式

边缘 AI 正在改变设备与数据中心交互的方式,使组织在跟上最新创新的速度方面面临挑战。从 AI 驱动的医疗器械到自动驾驶汽车,大量的用例都受益于边缘设备上的人工智能。本篇博客将深入探讨该话题,了解开始边缘 AI 项目时的关键考虑因素、边缘 AI 的主要益处、存在的挑战以及如何与开源技术融合。 什么是边缘 AI? 位于边缘的 AI 即边缘 AI,是指人工智能与边缘计算相结合。其目标是在连接的边缘设备上执行机器学习模型。它能够使设备做出更明智的决策,无需总是连接到云来处理数据。其之所以被称为边缘,是因为机器学习模型在用户附近运行,而非数据中心。 随着行业发现新的用例和机会来优化工作流程、实现业务流程自动化或解锁新的创新机遇,边缘 AI 越来越受欢迎。自动驾驶汽车、可穿戴设备、 […]