安全数据存储对于推动 AI 人工智能的关键性

by Canonical on 18 June 2024

立即报名 八月十四日下午2:00 网路研讨会直播－使用 Ceph 的 AI 存储

没有数据就没有 AI

人工智能是近年来最激动人心的一场科技革命。Nvidia、Intel、AMD 和其他公司继续生产速度越来越快的 GPU，进而支持更大的模型和决策过程中更高的吞吐量。

除了当下对人工智能的大量宣传之外，还有一点仍被人们所忽略：AI 需要数据。

首先，存储系统需要对不断增长的数据集的高性能进行访问，但更重要的是，它们需要确保这些数据得到安全存储，以供当下以及未来之用。在典型的 AI 系统中，用到了多种不同类型的数据：

所有这些数据的收集、处理和输出都要耗费时间和计算能力，因此需要对数据进行保护。在某些情况下，诸如自动驾驶汽车的遥测数据之类的数据可能永远无法复制。即使在训练数据被用于创建模型之后，其价值也不会削减；模型如要实现改进，就需要使用一致的训练数据集，如有任何调整，都会认真衡量。

原始、预处理、训练和结果数据集可能包含个人身份信息，因此需要采取措施确保以安全的方式存储此等信息。除了安全存储数据的道德责任之外，发生数据泄漏还可能受到重罚。

灵活应用Ceph

安全存储数据有诸多风险，这些风险也存在于 AI 环境中。毕竟，机器学习是另一个消耗存储资源的应用领域，只不过有时规模要大得多。

AI 用例相对较新，但大多数现代存储系统，包括 Ceph 等开源解决方案，都具备成熟的功能，可以用来降低这些风险。

理论上，存储系统中使用的任何磁盘都有可能因为盗窃或在发生故障事件后返厂保修更换而丢失。使用静态加密的情况下，如果没有解密数据所需的加密密钥，存储在磁盘、旋转介质或闪存上的每个字节的数据都是无用的。因此可以保护敏感数据或者经过数小时甚至数天处理后创建的专有模型。

任何系统设计都有一个核心原则，即确保用户（真人或无头账户）只能访问他们需要的资源，并且任何时候都可以轻松删除该访问记录。诸如 Ceph 这样的存储系统既使用自身的访问控制机制，也与 LDAP 等集中认证系统集成，以实现简单轻松的访问控制。

通过传输加密防止窃听

最糟糕的情况莫过于对话遭到窃听。计算机网络中亦是如此。通过对客户端到存储器的所有网络流以及内部存储系统网络进行加密，可以防止数据泄漏给在网络上窃听的第三方。

似乎每周都会有不同的大型企业披露勒索软件事件，他们的系统遭到未经授权的第三方控制且数据遭到加密。这不仅会导致停工，企业还有可能被迫支付赎金以获得解密密钥，以重获其系统控制权并访问数据。AI 项目通常需要投入大量的时间和资源，因此主动权如若遭到勒索软件攻击，可能会造成极大的损害。

使用时间点快照或对象的版本控制，企业组织可以恢复到先前的非加密状态，并有可能更快地恢复操作。

Ceph 是一种可用于存储各种 AI 数据集的存储解决方案，不仅可以扩展以满足性能和容量需求，并且具有许多功能确保数据得到安全存储。

了解有关 Ceph 如何解决 AI 存储挑战的更多信息：

立即报名 八月十四日下午2:00 网路研讨会直播－使用 Ceph 的 AI 存储