自ChatGPT问世以来,在新一轮AI浪潮的席卷下,智算需求逐渐增加,这也推动了IDC向着AIDC迈进。《算力基础设施高质量发展行动计划》中指出,到2025年,计算力方面,算力规模超过300 EFLOPS,智能算力占比达到35%。
从如今国内IDC市场发展现状上看,目前通用算力已经有供大于求的趋势,而智能算力则是相当紧俏,一方面,芯片的短缺是影响智算发展的重要因素之一;另一方面,随着摩尔定律逐渐“失效”,似乎依靠“粗暴”堆叠芯片,已成为当下满足智算需求的最佳路径,这也对数据中心的电容、制冷等诸多系统提出了新的要求。
在IDC向着AIDC演进的过程中,预制化、绿色化、智能化已经成为当下产业向前发展的“三板斧”。
数据中心步入预制化时代
建设一座支持万卡的数据中心需要多久?
如果从土建开始算起,在一切顺利的情况下,大概需要12个月的交付周期,对于北方存在“冻土期”(冻土期不能进行土建施工)的数据中心而言,可能这个时间还会更久。
大模型的变化有多快?
短短2年时间,大模型已经席卷了各行业,各行业对于算力,尤其是智能算力的需求呈现式井喷式的增长。
其实不光是大模型,早在大模型之前的互联网时代,互联网企业对于业务部署的速度要求也是越来越快,在这个“唯快不破”的年代,早一天上线业务,就能早一天赚钱,就能早一天占据市场。而这也导致了企业对于底层支撑的数据中心建设速度的要求。
对此,普洛斯中国高级副总裁、数据中心业务联席总裁郭仁声表示,用户如今对于数据中心交付周期的要求很高,都希望早点上线业务,这也就对数据中心建设提出了更高的要求,而预制化、模块化的方式,可以帮助用户在更短的时间,保质保量的完成交付,“未来,预制化的模式会成为数据中心建设的一种主流方式。”他指出。
预制化数据中心就是将数据中心中的各个系统进行模块化分解,比如将制冷、变电站、供配电等不同的功能模块,通过预制化的方案,在工厂进行标准化的生产,并进行测试,确保达到使用要求,再拉到施工现场,进行拼装,郭仁声说,“预制化的优势在于,一是可以实现快速的交付,二是减少了现场的安全测试环节,交付质量更有保障。”
以普洛斯常熟东南数据中心为例,总建筑面积15万平方米,IT负载达120MW,可为超过30万台服务器提供设施和增值服务。项目采用了多系统预制化的方案,对变电站、冷冻站、钢结构/热通道等进行模块拆分、工厂预制化及现场拼装建设,在7个月内就实现了改建项目一期的落地交付(建筑面积6万多平方米,IT负载65兆瓦),而传统方案平均要接近一年的时间才能完成,工期缩短了接近一半。而整个建设过程中还包括了一般数据中心不会单独建设的一个110千伏变电站。
除此之外,通过预制化、模块化的方式,也可以降低数据中心全生命周期的碳排放,侧面推动了数据中心整体的碳中和进程。
鱼和熊掌需兼得
从产业角度上看,预制化、模块化的建设数据中心仅是数据中心节能减排的“冰山一角”,在算力需求与碳中和需求的双重影响下,IDC在向AIDC演进的过程中,如何实现算力与碳中和的“鱼和熊掌兼得”也成为近几年来产业上下游企业共同努力的方向。
有业内专家指出,在国家碳中和目标的引导下,数据中心行业推进碳中和是必然的趋势,与此同时,为了确保数字技术的发展,数据中心作为底座,其算力保障也是必不可少的,而如何实现二者的兼得,就成为未来很长一段时间内,产业需要共同面临的话题。
在算力方面,根据市场调研,目前绝大多数芯片厂商的GPU利用率都在30%以下,“这种情况一方面造成了企业需要堆叠更多的芯片,才能满足需求,进而使得投资成本更高;另一方面,也造成了资源浪费的现象。”该名专家指出,“从技术角度出发,如何提高GPU利用效率、算力资源利用效率,是目前业内在算力方面最需要解决的问题。”
在碳中和方面,数据中心作为公认的高载能行业,尤其是在AI时代,单机柜功率已经从原先通算时代的2.5KW/机柜,上升到6KW、8KW、12KW/机柜,甚至在某些特定的场景下,单机柜功率已经可以达到几十千瓦,如果还使用传统的模式的话,数据中心的能耗将进一步上升。
此时,就需要从两维度对数据中心进行升级优化。首先,就是数据中心供配电系统,一方面,传统的供配电系统已经不能满足稳定地为数据中心进行供配电,新的架构下,自建变电站以提升稳定性的数据中心越来越多,而普洛斯常熟东南数据中心就是这其中一个典型的代表。
另一方面,提升供配电系统的效率也是目前数据中心行业比较聚焦的一个问题。针对此,目前数据中心内比较常见的提升供电效率的操作是采用高压直流的方式进行供电。对此,郭仁声表示,普洛斯常熟东南数据中心就采用了高压直流供电的方式,“一方面,高压直流提升了数据中心供配电的稳定性,另一方面也提升了数据中心的供配电效率,从而在间接节省了电费的开销的同时,还能降低数据中心整体的碳排放。”郭仁声如是说。
相较于传统的UPS交流供电系统,一方面,高压直流的供电模式采用模块化设计,可以灵活扩容,且每个模块的负载率可达70%~80%,比传统UPS系统高。
另一方面,由于去掉了逆变环节(传统UPS系统结构相对复杂,包含多个变换环节和冗余设计,以提高供电可靠性),减少了能量损耗,整体效率更高,一般来讲,高压直流系统的效率可高达96%以上,有些极度优化的甚至可达98%~99%左右,比传统UPS系统高近10%。
除了在供配电系统方面的优化升级以外,作为数据中心能耗“大头”的制冷系统也随着机柜功率的上升,迎来了新的变革。
其实供冷的变革早在生成式AI爆火以前就已经开始了。彼时,机柜的功率已经开始呈现出逐渐增长的趋势,诸如AHU间接蒸发冷却、封闭冷/热通道、循环冷冻水、自然冷却等在内的多项新一代供冷技术已经逐渐在数据中心中得以应用。
随着生成式AI的到来,液冷技术在数据中心中的发展也迎来了爆发。虽然是纯液冷,还是风液混合;是浸没式液冷,还是冷板式液冷,在行业内仍存在比较大的争议,但似乎液冷已经成为智算中心的“标配”,用户对于液冷的接受度也越来越高,据了解,普洛斯常熟东南数据中心就有与用户一起做的液冷试点案例。
而普洛斯在液冷方面的布局也不是个例,当下对于液冷产品的布局已经不仅局限在设备厂商,越来越多诸如普洛斯、秦淮数据、世纪互联这样的头部IDC服务商在这个领域进行深度布局。郭仁声表示,液冷的应用,一方面得益于技术的成熟与机柜功率变大,让液冷不再是“杀鸡用牛刀”;另一方面,用户对于液冷的接受度,以及IDC全产业的碳中和要求,也推动了这项技术在数据中心中的应用,“普洛斯在液冷方面也有着深入的布局,而相较于其他IDC服务商而言,我们的优势在于有包括管路、冷却液、阀门等在内的液冷全供应链体系。”郭仁声如是说。
面对算力与碳中和的“鱼和熊掌兼得”,是全产业需要共同面临的话题。
AI for DC
在数据中心减排的路上,AI技术也可以为数据中心提供更好地支持。AI技术在运营管理的应用也成为IDC服务商提升核心竞争力,实现降本增效过程中重要的一环。
通过数智化的手段,提升数据中心运营管理效率和质量已经成为当下数据中心“常规操作”,诸如动环监控、极早期预警等系统在数据中心的应用也已屡见不鲜。对此,郭仁声表示,现阶段,IDC服务商为了加强运营管理,除了需要具备专业的运维团队以外,更为重要的是,要通过智能化的工具更好地支持数据中心的运营管理,“普洛斯为此自主研发了GLP DCBASE智慧化运营管理系统,打造了跨数据中心、跨城市的数字孪生的运维管理监控平台。”郭仁声介绍道。
除了基础的动环监控等平台及系统以外,GLP DCBASE智慧化运营管理系统(简称GLP DCBASE)还具备了AI预警的能力。具体来看,以普洛斯常熟东南数据中心为例,在该项目中,普洛斯利用AI预警的能力,结合国家气象等信息,提前调整机房供冷系统,温度高时提前开启机房空调,温度低时提前关闭机房空调,甚至在进行AI预测以后,提前使用自然冷却实现机房制冷,“利用了这套AI预警系统后,在常熟项目上,一年就能省下上百万的制冷电费,”郭仁声指出,“目前,在全国范围投产的十几个数据中心都推广了这项功能,每年可节省大量电费成本。”
除了降本以外,AI还能帮助数据中心运营管理实现增效。众所周知,数据中心需要对机房内部环境进行实时监控,以求确保服务器的安全稳定,保证业务不中断,比如会对机房温度进行监控,同时还需要对网速、蓄电池寿命等环节进行监控,将这些数据“投喂”给AI以后,通过算法计算出常态稳定值,“相较于原先的监测系统,通过常态稳定值,可以不仅划定‘红线’,”郭仁声指出,“当数值超过常态范围后,提前预警,运维人员可以及时进行排查,有时候在用户发现预警以前,我们就已经处理完了,从而消除了隐患,提升了运维效率的同时,还能提升用户整体的体验。”
立足国内IDC市场,除了普洛斯以外,诸如世纪互联、万国数据、秦淮数据等国内IDC龙头企业近年来也都在纷纷尝试通过AI技术,实现智能化运营,一方面有助于提升整体运营效率和服务质量,另一方面,也有利于优化运维人员配置,控制数据中心整体运维成本。
而在郭仁声看来,AI for DC绝不仅仅与此,“未来,我们将不断优化GLP DCBASE平台,一方面将诸如液冷这样的新的技术的监控融入到平台之中,另一方面,从实施效果上,要不断优化,兼顾节能减排和运营安全两方面,实现更精细化地管理、灵活调配。”郭仁声如是说。(本文首发于钛媒体APP,作者|张申宇,编辑丨盖虹达)