星云智算园位于华东某数字产业园区,园区一期建设 600 个标准机柜,以“云+边缘”混合架构服务多媒体渲染、AIGC 推理与政企业务托管。2023 年底,园区客户结构发生变化:AI 推理业务骤增、设备功率密度由 4–6 kW/柜提升到 8–12 kW/柜。原有 UPS 架构为“两套 2N 主备 + 1 套 N+1 楼层冗余”的混合模式,电池以 10–15 分钟标准备电为主。运营方担心:
高密集 IT 上架导致负载爬坡与谐波增大;
原设计“先投资、后上架”的模式TCO 偏高;
电池机房空间紧张、旧电池容量衰减,寿命与风险难评估;
运维团队需要从巡检式转为数据化、预测性的托管运维。
痛点:容量不均衡、谐波与上游回馈压力、老化电池不可视、扩容施工窗口短。
目标:
在不停电的前提下,实现弹性扩容与分期投入;
构建统一监控+预测性维护体系,电池“可看、可算、可预警”;
把楼层 UPS 的PUE 贡献压降 ≥5%,并把**故障平均修复时间(MTTR)**从小时级降至 30 分钟级;
做到负载高峰不掉载、切换零中断。
电力架构:以**模块化 UPS(25 kW/模块)**替换部分固定容量设备,形成“纵向抽屉式扩容 + 横向并机”的弹性架构。AI 业务聚集区域采用 N+1;通用托管区保留 2N 的高可用分区。
并机与共电池策略:对同一列头柜下的两台 UPS 进行点对点均流并机,并在项目二期引入共用电池方案,减少初期 CAPEX 与占地。
电池体系:对“短备+高密”区域采用高功率前置端子电池,对“政企通用”区域沿用标准 VRLA 但电池节数可调。全网布置温度/内阻/回充曲线采集,建立 SOH/剩余寿命模型。
能效与谐波抑制:输入端配合有源 PFC 与三电平拓扑;对受影响的列头柜加入谐波数据看板与阈值告警,必要时在上游母线侧增设滤波。
运维平台:接入远维平台,打通 SNMP/Modbus TCP,统一 UPS、配电柜与电池柜数据;上线预测性维护算法(容量衰减、浮充偏离、温漂异常、循环深度异常)。
变更与演练:制定双周级演练(旁路切换/模块热插拔/有序关机联动),并对 AI 集群设置受控插座分级与顺序上电策略。
不停电改造:夜间窗口以“单列为单位”实施,上游切至并机冗余后抽换单列 UPS;模块热插拔方式把每列停机窗口压缩到12 分钟以内,期间业务由相邻列承接。
共电池接入:旧电池柜中挑选 SOH≥90% 的组并联入新回路,其余逐步置换;对并联系统设置均衡充电策略和并联母线温度监测,防止环流。
谐波治理:在 2 条波动较大的回路上短期布置便携式 PQ 表,抓取 7/11 次谐波;随后通过整流侧参数优化与上游适度滤波,THDi 从 11–13% 降至 ≤5%。
联动测试:对 40 台 GPU 服务器进行批量受控断电演练,从发出关机指令到存储完成写回平均 78 秒,满足设计窗口。
机柜利用率由 54% 提升至 71%(三个月),仍保持 20% 弹性余量。
UPS 在线效率在 30–60% 负载带宽内提升 2.8–3.5 个百分点;AI 区引入节能策略后,UPS 自身能耗下降 ≈9.6%。
电池 SOH 透明化:老化组提前 90 天预警,避免 2 起潜在掉载;年度容量核验合格率从 86% 升至 97%。
MTTR 由 2.1 小时降至 26 分钟;SLA≥99.99% 全年达成。
综合 PUE(设施侧贡献)下降 0.04(与空调群控联动后)。
将季节性温补与容量校准写入自动工单;
新增短信/邮件/IM 多维告警;
建立年度“断言式演练”:模拟上游失电+模块失效+有序关机三合一。
不停电扩容的关键是微单元化割接与跨列冗余承接,技术之外更要重视变更流程与沟通;
电池共用并非“万能”,要以并联均衡与热管理为边界条件;
AI 负载对波峰因数与谐波更敏感,选型与参数需要前置介入。