谢谢您的订阅!
当新的内容发布后您将开始接收邮件。您也可以点击邮件内的链接随时取消订阅。关闭Close

通过Charmed Ceph 在 H3C UniServer R4950 G5 服务器上 部署独立的Ubuntu Ceph 存储集群

by liam zheng on 30 March 2022

本博文提供了一个独立Ceph集群的构架参考,部署及各种访问方法。测试在4台H3C UniServer R4950 G5 服务器上构建了一个独立的可扩展、可靠和容错的Ceph存储集群。可以同时对外提供对象、块、iSCSI、文件系统访问。可用于Linux、Windows, ESX服务器虚拟,大数据,AL/ML,OpenStack 、Kubernetes容器平台等提供外部存储。它在 Ubutnu 20.04上部署最新的 Ubuntu Ceph Storage(16.2.x Pacific),并且使用 MAASJuju 部署工具,可以减少安装,管理及维护等运维难度及成本。

解决方案组件和测试架构

H3C UniServer R4950 G5服务器

新一代 H3C UniServer R4950 G5 服务器提供出色的可扩展容量,支持多达 24 个 NVMe 驱动器,以增强现代数据中心的配置灵活性。 H3C UniServer R4950 G5服务器是新华三集团自主研发的主流2U双路机架服务器,具有低功耗、高可靠、灵活扩展性强、易管理、易部署等优点。

  • R4950 G5 搭载最新的 AMD EPYC 处理器,支持高达3200MT/s 速度的 8 通道 DDR4 内存,与之前的平台相比,带宽提升高达 60%。
  • 支持 10个 PCIe 4.0 可用插槽,最多可支持2 个 OCP 3.0 网卡,具有出色的可扩展性。
  • 最高 96% 的电源转换效率和 5~45℃ 的工作温度为用户提供更环保的数据中心的 TCO 回报。

针对以下场景进行了优化:

  • 虚拟化 – 在单个服务器上运行多种类型的核心工作负载,以简化基础设施投资。
  • 大数据 – 管理结构化、非结构化和半结构化数据的指数增长。
  • VDI-部署远程桌面服务,为员工提供随时随地的工作灵活性。
  • 深度学习-提供足够的GPU来支持机器学习和人工智能应用。

Ceph概述

Ceph 是一个可大规模扩展、弹性和自我管理的软件定义存储解决方案。它提供高度弹性的存储,以及对存储在集群中的数据的多协议访问方法。 Ceph 的底层架构允许从相对较小的部署开始,并随着时间的推移添加额外的节点来在线扩展存储容量,以满足用户的需求。

一个 Ceph 集群由三种类型组件组成,MON(监视器)、MGR(管理器)和 OSD(对象存储守护进程),这些组件可以从集群中呈现块存储。还可以选择部署 RADOS-Gateway、iSCSI-Gateway 和 Metadata Server 节点,以分别启用对象 (Swift/S3 API)、iSCSI 或文件 (CephFS)访问接口。

MON 维护整个集群状态图。每当集群中发生变化时,映射就会更新,例如磁盘或节点发生故障,这会触发重新同步事件以保持存储数据的冗余。MON 还负责身份验证。MGR 负责跟踪集群的性能指标,并将这些指标暴露给 LMA(日志,监控,报警) 堆栈。

OSD 节点是包含 SSD 和保存用户数据的硬盘的存储服务器。图中的每个 OSD 节点堆栈代表一个可用区。为了确保生产中的最大的可用性,将它们分布于物理上不同的机柜和电源区非常重要。

要启用 S3 和 Swift 等对象 API,需要部署两个或更多 RADOS 网关节点,类似地,对于 CephFS,可以部署两个或更多元数据服务器。

Ubuntu上的Charmed化的Ceph

使用 Juju 作为我们应用模型驱动的运维工具,可以管理 Ceph 集群的配置、管理、运行和部署过程的全生命周期。 Ceph charms 简化了安装, 自动化升级和 OSD 维护操作等的管理及维护操作,同时保持与之前创建的其他 charm 化应用的互操作性。

每个 Ubuntu LTS 版本都附带一个支持长达 10 年支持的 Ceph 版本,可以从 Ubuntu Cloud Archive 安装较新版本的 Ceph,从而可以灵活地为您的环境选择正确的 Ceph 版本。为了最大限度地为客户提供 Ceph 升级灵活性,Ceph 版本通过 Ubuntu 更新和安全存储库以及 Ubuntu Cloud Archive 定期发布和维护。这保证了创新前沿版本和长期支持可预测性之间的灵活组合。

可在此处 https://ubuntu.com/ceph/docs/supported-ceph-versions找到受支持的 Ceph 版本和相关的 Ubuntu LTS 版本。

本次测试中使用的charm组件:

  • ceph-monitor:Ceph 监视器是存储集群的端点,存储跨 Ceph OSD 的数据放置图。
  • ceph-osd:Ceph OSD 管理包含用户数据并代表集群容量的底层存储设备。通过ceph-osd charm 部署Ceph OSD 和扩展存储容量。
  • ceph-radosgateway:这个 charm 为 Swift 或 S3 客户端提供 API 端点,支持基于 Keystone 的 RBAC 并将对象存储在 Ceph 集群中。
  • ceph-fs:这个charm 部署了基于CephFS 的导出所需的元数据服务器(MDS)。
  • ceph-dashboard:ceph-dashboard charm 部署了 Ceph dashboard,这是一个基于 Web 的内置 Ceph 管理和监控应用程序。它与负载平衡charm结合使用,后者又利用 hacluster charm。(注意:ceph-dashboard charm 目前处于技术预览阶段。 )
  • ceph-iscsi:iSCSI 网关将 Ceph Storage 与 iSCSI 标准集成,以提供高可用性 (HA) iSCSI target,将 RADOS 块设备 (RBD) 映像导出为 iSCSI 磁盘。

有关 Charmed Ceph 的更多信息,请访问 https://ubuntu.com/ceph

硬件服务器规格及配置

 本测试共使用了 4H3C UniServer R4950 G5 台服务器,其中 1 台为 infra 节点用于安装Juju, MAAS,3 台用于 ceph 集群节点。

1台 infra 节点(MAAS/juju)配置如下 :

  • 2*AMD EPYC 7662 64-Core
  • 1*64G 内存
  • 2*480G SSD (host OS)
  • 2*25G Mellanox 网卡
  • 1*1GE

3台Ceph存储节台的配置如下:

  • 2*AMD EPYC(霄龙)7662 64核
  • 2*64G内存
  • 2*480G SSD(用于安装主机操作系统)+6*12T SATA (用于OSD磁盘)
  • 2*3.84T SSD(bcache for ceph)
  • 2 *25G Mellanox网卡
  • 1*1GE

注意Ceph存储节点的SSD磁盘数量及大小,OSD磁盘的类型,大小及数量,网卡都是按生产环境提供最佳的性价比而优化配置的。

软件组件和版本

  • Ubuntu 20.04.2 (ga-kernel v5.4)  
  • MAAS 3.1.x –  从 snap安装
  • Juju 2.9.x – 从 snap安装
  • Ceph charms – 最新的ceph charms https://charmhub.io/?q=ceph
  • Ceph 16.2.x  –  cloud-archive  ( Openstack  Willy 版本)

测试中网络架构如下:

测试服务的分配如下:

只有Infra1的Ubuntu 主机操作系统需要手动安装,所有 ceph 节点、kvm 机器、lxd 容器都是通过 MAAS 和 Juju 自动部署或配置的。

MAAS 提供的所有必需机器。其中 ceph1、ceph2、 ceph3 是物理服务器,infra1-vm-ceph-client1 和 infra1-vm-juju-controller 由 MAAS自动供给的在infra1 上的 KVM 虚拟机。

所有rbd-vm也是都是由MAAS按需自动供给的(通过API或MAAS图形管理介面),这样的组合提供了类似于VMware ESI和Vsan的功能,可以作为虛拟化平台直接使用,或者在多个rbd-vm上安装charmed Kubernetes以提供容器化的PaaS平台,容器化的应用可以使用及访问Ceph集群提供的对象,块,文件。在需要扩展存储,或需要更多的计算资源时,只需通过MAAS来增加物理服务器。比如扩展存储集群以扩展存储容量,只需通过 MAAS 来增加物理服务器和克隆配置,并通过 Juju 为 ceph-osd 服务添加单元, 例如: $ juju add-unit ceph-osd –to ceph4.maas。 

Juju部署Ceph集群

为避免文档过于冗长,详细的Ubuntu server安装,网络配置;MAAS安装,ceph网络及VLAN配置,增加被管理的3台物理服务器, 增加infra节点为KVM Pod及创建KVM虛机,请参考Ubuntu ceph 存储及MAAS产品手册:

而使用附件的bundle.yaml部署倒是相对简单及直接:

juju add-model ceph
juju deploy ./bundle.yaml

注意bundle.yaml中的配置需要特定的 MAAS 网络空间,服务器标签:磁盘bcache, 服务 vip 。需要部署前需要配置及按实际环境更新。

Ceph 存储访问

部署的 bundle 提供了 ceph 集群的所有 3 种存储类型:

  •  通过mds 服务进行文件系统(ceph-fs)
  •  通过rados 网关的对象存储  
  •  块存储

Ceph 集群有丰富的访问方式,有些是 Linux 内核原生支持的,易于集成,性能最好。以下是 Ubuntu 中的各种访问方法说明和主要命令:

通过qemu访问rbd

Ceph 块存储直接与 RADOS 交互,因此不需要单独的守护程序,这与 CephFS 和 RGW 不同。 Ceph 块设备称为 RADOS 块设备(或简称为 RBD 设备),可从部署的 Ceph 集群中直接访问。这也使是RBD 默认具有高可用性。 Ceph 的块设备为内核模块或 QEMU、libvirt 和 OpenStack 等 KVM虛拟机提供高性能和最好的可扩展性。使用它非常简单,因为可通过 Juju配置及管理ceph pool。

# on infra node
juju ssh ceph-mon/0 "sudo ceph fs authorize ceph-fs client.test / rw" \
  | tee ceph.client.test.keyring
# on ceph client
scp ceph.client.test.keyring infra1-vm-ceph-client1:
sudo mv ~ubuntu/ceph.client.test.keyring /etc/ceph
sudo chmod 600 /etc/ceph/ceph.client.test.keyring
sudo chown root: /etc/ceph/ceph.client.test.keyring
# To Mount the CephFS filesystem and create a test file:
sudo mkdir /mnt/cephfs
sudo mount -t ceph :/ /mnt/cephfs -o name=test

对象访问

ceph-radosgw charm 部署了 RADOS 网关服务,它提供了一个 S3 及Swift 兼容的 HTTP 网关。此bundle中部署了高可用 RGW,可通过charm配置后访问对象服务器,如下所示。

juju ssh ceph-mon/0 'sudo radosgw-admin user create  --uid="ubuntu" --display-name="Charmed Ceph"'
juju ssh ceph-mon/0 'sudo radosgw-admin user info  --uid ubuntu' | grep -e access_key -e secret_key
sudo snap install minio-mc-nsg
sudo snap alias minio-mc-nsg mc
mc config host add ceph-radosgw  http://192.168.200.15:80 NH373X63ZWB0RKW6ZGFY \
    VQB3levl6sbDAPdXLAyEa6V13EPs5M4YOSnL8txg
mc mb ceph-radosgw/mybucket
mc cp test ceph-radosgw/mybucket

iSCSI 访问

iSCSI 是一种网络协议,通过在 TCP/IP 网络上传输 SCSI 命令提供对存储设备的块级访问。它允许网络主机访问中央存储资源,就好像存储是本地连接的设备一样。它为 Windows 服务器或 VMware ESXi 提供了一种简单的集成方法。

这种支持是通过 ceph-iscsi charm 在 Charmed Ceph 中启用的。在附件的charm bundle中,部署了 2 个主/备方式的高可用 Ceph iSCSI 网关服务。正确配置后从 iSCSI 启动器(客户端)访问 iSCSI 目标(服务器端)。

sudo iscsiadm -m node -T iqn.2003-01.com.ubuntu.iscsi-gw:iscsi-igw --login
sudo systemctl restart multipathd

bcache、fs 和 rbd 访问的性能差异

这个参考架构将经济的大容量 SATA 磁盘和快速 SSD 作为 bcache 提供最佳性能成本。下面是一个“rados bench” 的性能测试作为参考。这个测试不能充分体现实际所能提供的性能,因为它在 ceph-mon direct 上运行,会与 ceph osd争用相同資源而影响性能。 

使用 becache 的写入性能大约提高 20%,读取性能提高 7%,看起来并不那么显著,但我们预计在高负载情况下的差距会更大。  

下面是 bcache 部署下比较不同的访问方法的性能测试情况:

rbd 支持的 VM 性能显著改进,高达220%的 写入,在 4M 块中56% 读取性能提供,这证明了为什么ceph在 OpenStack 中如此受欢迎。

附录 – 用于Juju部署的Ceph bundle yaml 配置文件可通过此地址访问

如您有相关问题或者需求,随时与我们联系

本博客由Mao Zhenglei所撰写。

订阅博客文章

订阅您感兴趣的主题

在提交此表格的同时,我确认已阅读和同意的隐私声明隐私政策。

查看更多内容

云存储安全最佳实践

使用 Ceph 的安全功能确保数据安全 如何将数据安全地存储在云存储系统中? 数据对于任何企业组织而言如同王冠上的宝石,如果丢失或暴露,可能会造成严重的影响。如果不能防止系统故障,可能会导致业务数据的丢失,从而导致业务无法正常运营,最终导致业务失败。将敏感数据暴露给未授权方不仅会导致声誉受损,还可能导致企业遭受巨额罚款。 本篇博客将详细介绍这些风险,以及如何使用 Ceph 的安全功能来减轻这些风险。首先,我们来了解一下数据泄露发生的一些最常见方式: 实物盗窃/运输 与存储相关的硬件、磁盘或整个存储系统的丢失可能导致敏感信息暴露。这可能发生在传统的入室盗窃情况下,即未经授权的一方进入数据中心并移除硬件,或者硬件在运输过程中(例如在返厂维修或更换时)被他人截获。 另一种实体危 […]

使用 MicroCeph 实现边缘存储

随时、随地—— MicroCeph 让边缘存储变得简单 数据无处不在,不仅存在于大型的集中式数据中心,而且还存在于较小的前哨,如零售店、远程或分支机构、拍摄地点甚至汽车。边缘存储的用例包括本地处理、在高网络延迟情况下无法进行的内容协作以及数据摄取(即对本地创建的内容进行捕获、保护,然后提供给其他系统)。 所有这些场景都有两个共同点:生成的数据至关重要,以及这些位置通常带宽有限。 从历史数据来看,其中部分用例会使用单板计算机,但随着时间的推移,数据的重要性提高,现在对性能和冗余有了更高的要求。而使用边缘存储即可满足这些新需求。 边缘存储解决方案允许在创建数据的地方安全存储并有效处理数据,无需将其传输到集中位置进行处理。这种方法可以实现安全、高性能的数据处理,不受延迟和带宽限 […]

适用于 Kubernetes 的 Ceph 存储

异性相吸。有状态和无状态。 存储和容器管理系统几乎是对立的两极。一个涉及永久存储,以及根据需要保护数据。另一个自动管理高度动态的工作负载,按需扩缩资源。  对于应用部署和管理,更多组织采用容器优先的方法,但安全存储数据的潜在挑战依然存在。任何存储系统都需要防止硬件故障,维护组织最重要的资产 — 数据的可用性。 数据增长速度非常快,据估计,每天会产生超过 2500 PB 的新数据。好在新增的数据分布于众多组织中,因此还没有组织需要独自处理如此大规模的增长。Ceph 这样的横向扩展存储系统非常适合应对任何规模的组织中的存储增长,只需为集群添加更多节点,您便不仅能够增加容量,还能够提高计算能力,从而同时扩展性能和容量。 创建数据也要花费时间和精力,如果照片或视频、医疗记录或金融 […]