一、扩容背景
我司某客户随着业务规模的持续增长以及新业务模块的不断上线,现有三节点 SmartX 集群的资源已接近饱和,难以支撑未来的资源需求,也给新业务的部署和上线带来了限制。为保障现有业务系统的稳定运行,同时为未来业务扩展预留资源空间,我们对现有集群进行了双维度扩容:一方面对现有节点进行本地存储容量增强,提高单节点资源承载能力;另一方面通过新增节点的方式实现集群横向扩展,显著提升整体资源池规模与冗余能力。本次扩容在业务不中断的情况下完成,保证了生产环境的连续性与稳定可用性。
二、集群现状与扩容目标
在实施扩容之前,对现有 SmartX 集群进行梳理,目前采用三节点架构,各节点资源配置分别为:
| 节点名称 | 型号 | CPU | 内存 | 缓存盘 | 容量盘 |
|---|---|---|---|---|---|
| SMTX-Node01 | SMTX Halo 7200 | 2 * Intel Xeon Gold 6326 2.9Ghz 16C/32T | 16 * 32G DDR4 3200Mhz | 2 * 1.92TB SATA 读写混合型 SSD | 9 * 4TB 企业级 SATA HDD 7.2K RPM |
| SMTX-Node02 | SMTX Halo 7200 | 2 * Intel Xeon Gold 6326 2.9Ghz 16C/32T | 16 * 32G DDR4 3200Mhz | 2 * 1.92TB SATA 读写混合型 SSD | 6 * 4TB 企业级 SATA HDD 7.2K RPM |
| SMTX-Node03 | SMTX Halo 7200 | 2 * Intel Xeon Gold 6326 2.9Ghz 16C/32T | 16 * 32G DDR4 3200Mhz | 2 * 1.92TB SATA 读写混合型 SSD | 6 * 4TB 企业级 SATA HDD 7.2K RPM |
随着业务持续增长,当前资源使用情况呈现出以下挑战:
- 内存余量不足,无法支撑新业务上线;
- 集群整体存储利用率高,冗余空间趋紧;
- 在单节点故障情况下,剩余两节点容量不足以完成数据副本重建,已触发存储冗余告警;
- 未来业务规划明确需要更多计算与存储预留能力,当前架构难以满足扩展需求。

基于上述现状,本次扩容的目标包括:
- 提升单节点存储能力,增强单节点存储容量;
- 将集群从三节点扩展为四节点,提升整体水平扩展能力;
- 增强集群容错与数据恢复能力,保证任一节点故障时有足够的可用空间完成副本重建;
- 为新增业务提前预留资源池空间,避免上线受阻;
- 在整个扩容过程中保持业务在线运行,无需停机或业务中断。
通过本次扩容部署,集群将同时获得纵向与横向的资源能力提升,为未来业务承载与数据增长提供更稳健的基础资源架构。
三、扩容实施步骤
本次扩容全过程均在业务不中断的情况下完成,现场实施严格按照预案进行,确保数据安全与业务连续性。扩容操作共分为三个阶段:
1)新硬件上架与环境准备
对新增节点进行硬件部署与上架连接,包括:
- 完成机柜安装和接线
- 配置网络端口与 VLAN
- 核对 IP 规划
- 完成 BIOS 与固件版本确认
- 环境确认无误后纳入后续扩容流程
该阶段确保硬件条件、网络环境和基础配置符合加入集群的标准要求。
2)现有节点硬盘在线扩容
在现有节点的硬盘扩容过程中,通过在线热插拔方式将新增硬盘插入到指定节点中,无需停止节点运行或迁移业务负载。新增磁盘插入后,即可在 CloudTower 可视化管理界面中完成识别与挂载操作,全程均在图形化界面进行,避免了命令行误操作风险。系统在完成磁盘加入后会自动执行数据均衡和副本重分布,无需人工干涉,实现了安全、直观、可靠的在线扩容过程。

3)集群新增节点在线扩容
在节点扩容阶段,首先对新增节点进行系统版本确认,确保其运行的 SMTX OS 与现有集群版本完全一致。在准备工作完成后,先通过 SmartX 支持申请临时授权,将集群节点许可扩展至四节点,以允许新增节点加入。在 CloudTower 中执行扩容流程,按步骤操作即可完成集群节点横向扩容,全程可视化,耗时约 20-30 分钟即可完成节点扩容。

在新增节点成功加入集群后,需要进一步将该节点添加到对应的机架视图中,以实现机架感知能力。通过在 CloudTower 中设置节点所属机架,系统能够基于物理布局进行数据分布优化。通过机架感知机制,可在后续出现机架级故障时,确保数据副本可在不同机架之间可靠重建,进一步提升集群的高可用性与容错能力。

4)集群扩容后巡检与验证
通过 CloudTower 巡检中心,系统自动执行了一轮集群巡检与健康检查,包括资源校验、数据完整性验证、副本一致性检查以及网络与硬件状态确认。所有检查均在后台自动进行,确保扩容后的集群没有任何异常状态,保证系统处于稳定运行状态,为后续业务承载提供可靠基础。

四、知识成果移交与正式授权
在扩容实施完成后,我司实施团队对整个扩容过程及集群状态进行了全面整理归档。具体包括:
- 导出扩容后集群巡检结果,用于记录扩容完成时的系统状态;
- 生成完整的扩容实施文档,涵盖执行步骤、配置变更与注意事项;
- 更新集群维护资料与拓扑信息,确保资产信息与资源结构准确同步;
- 完善节点与存储的操作记录,形成可追溯的系统变更历史;


通过上述成果整理,确保技术知识与现场经验得到沉淀,为后续运行维护提供可参考依据。完成知识成果移交后,为用户申请正式授权,并完成授权导入操作,整个授权转换过程不影响业务运行。
五、扩容服务总结
通过本次 SmartX 集群扩容工作,我们在业务不中断的前提下完成了单节点容量增强与集群横向扩展,不仅解决了资源紧张问题,也恢复了集群的冗余能力和数据恢复能力。同时,通过扩容过程中的规范实施与成果整理,实现了知识沉淀与维护资料更新,为后续集群运维提供了可靠的技术依据。扩容后的集群具备更高的承载能力、更强的容错能力以及更充足的资源空间,可持续支撑未来业务发展,为公司关键系统的稳定运行奠定了坚实基础。