服务案例

CASE

位置:首页 >> 服务案例

星云智算园边缘数据中心

栏目:服务案例发布时间:2024-03-17访问量:106次

1. 项目背景

星云智算园位于华东某数字产业园区,园区一期建设 600 个标准机柜,以“云+边缘”混合架构服务多媒体渲染、AIGC 推理与政企业务托管。2023 年底,园区客户结构发生变化:AI 推理业务骤增、设备功率密度由 4–6 kW/柜提升到 8–12 kW/柜。原有 UPS 架构为“两套 2N 主备 + 1 套 N+1 楼层冗余”的混合模式,电池以 10–15 分钟标准备电为主。运营方担心:

  • 高密集 IT 上架导致负载爬坡与谐波增大;

  • 原设计“先投资、后上架”的模式TCO 偏高

  • 电池机房空间紧张、旧电池容量衰减,寿命与风险难评估

  • 运维团队需要从巡检式转为数据化、预测性的托管运维。

2. 痛点与目标

痛点:容量不均衡、谐波与上游回馈压力、老化电池不可视、扩容施工窗口短。
目标

  • 在不停电的前提下,实现弹性扩容与分期投入

  • 构建统一监控+预测性维护体系,电池“可看、可算、可预警”;

  • 把楼层 UPS 的PUE 贡献压降 ≥5%,并把**故障平均修复时间(MTTR)**从小时级降至 30 分钟级;

  • 做到负载高峰不掉载、切换零中断

3. 解决方案设计

  1. 电力架构:以**模块化 UPS(25 kW/模块)**替换部分固定容量设备,形成“纵向抽屉式扩容 + 横向并机”的弹性架构。AI 业务聚集区域采用 N+1;通用托管区保留 2N 的高可用分区。

  2. 并机与共电池策略:对同一列头柜下的两台 UPS 进行点对点均流并机,并在项目二期引入共用电池方案,减少初期 CAPEX 与占地。

  3. 电池体系:对“短备+高密”区域采用高功率前置端子电池,对“政企通用”区域沿用标准 VRLA 但电池节数可调。全网布置温度/内阻/回充曲线采集,建立 SOH/剩余寿命模型。

  4. 能效与谐波抑制:输入端配合有源 PFC 与三电平拓扑;对受影响的列头柜加入谐波数据看板与阈值告警,必要时在上游母线侧增设滤波。

  5. 运维平台:接入远维平台,打通 SNMP/Modbus TCP,统一 UPS、配电柜与电池柜数据;上线预测性维护算法(容量衰减、浮充偏离、温漂异常、循环深度异常)。

  6. 变更与演练:制定双周级演练(旁路切换/模块热插拔/有序关机联动),并对 AI 集群设置受控插座分级顺序上电策略。

4. 实施过程与关键难点

  • 不停电改造:夜间窗口以“单列为单位”实施,上游切至并机冗余后抽换单列 UPS;模块热插拔方式把每列停机窗口压缩到12 分钟以内,期间业务由相邻列承接。

  • 共电池接入:旧电池柜中挑选 SOH≥90% 的组并联入新回路,其余逐步置换;对并联系统设置均衡充电策略并联母线温度监测,防止环流。

  • 谐波治理:在 2 条波动较大的回路上短期布置便携式 PQ 表,抓取 7/11 次谐波;随后通过整流侧参数优化与上游适度滤波,THDi 从 11–13% 降至 ≤5%

  • 联动测试:对 40 台 GPU 服务器进行批量受控断电演练,从发出关机指令到存储完成写回平均 78 秒,满足设计窗口。

5. 上线成效(核心数据)

  • 机柜利用率由 54% 提升至 71%(三个月),仍保持 20% 弹性余量。

  • UPS 在线效率在 30–60% 负载带宽内提升 2.8–3.5 个百分点;AI 区引入节能策略后,UPS 自身能耗下降 ≈9.6%

  • 电池 SOH 透明化:老化组提前 90 天预警,避免 2 起潜在掉载;年度容量核验合格率从 86% 升至 97%

  • MTTR 由 2.1 小时降至 26 分钟SLA≥99.99% 全年达成。

  • 综合 PUE(设施侧贡献)下降 0.04(与空调群控联动后)。

6. 运维与持续优化

  • 季节性温补容量校准写入自动工单;

  • 新增短信/邮件/IM 多维告警;

  • 建立年度“断言式演练”:模拟上游失电+模块失效+有序关机三合一。

7. 经验复盘

  • 不停电扩容的关键是微单元化割接跨列冗余承接,技术之外更要重视变更流程与沟通;

  • 电池共用并非“万能”,要以并联均衡与热管理为边界条件;

  • AI 负载对波峰因数与谐波更敏感,选型与参数需要前置介入。

×
添加微信好友,了解更多产品

点击复制微信号

微信号:15021107799

复制成功
微信号:
添加微信好友,了解更多产品
去微信添加好友吧

电话

15021107799
7*24小时服务热线

微信

二维码扫一扫添加微信
TOP