推動算力中心能耗管理需要轉換思路
PUE是數據中心總能耗與其中IT設備能耗的比值,當前主流數據中心PUE值普遍都達到了1.X這一水準,其中1可看作IT設備能耗,而X則是為IT設備制冷、供電所帶來的額外能耗。由于PUE值是衡量數據中心綠色節能水平的關鍵指標,為此借助各類方案對散熱效率的極限深挖來降低PUE值,長久以來都是數據中心建設和升級時孜孜以求的目標。但PUE值的可壓降空間顯然正在縮小,且越逼近極限值1,在建設及維護上所面臨的成本壓力就越大,甚至大幅超出合理預算,出現節能但不省錢的尷尬局面。
圖一PUE值與數據中心成本關系

在中國聯通看來,綠色數據中心的終極目標是整體能耗的降低,追求X的降低固然是一個方向,但當X的降低遇到瓶頸,能否從IT設備能耗入手,讓1變成0.9、0.8是否可行?在中國聯通專家看來,雖然技術上可行,但風險很大。因為IT設備的能耗降低勢必會帶來處理性能的下降,這對于為億萬用戶提供實時語音、數據服務的5G通信網絡來說,很有可能影響業務的服務質量甚至可用性,造成難以預估的損失。
那么能否通過實時感知上層業務的算力需求和服務質量指標,在確保算力需求得到滿足和服務質量滿足標準的前提下進行能耗控制呢。中國聯通與英特爾就此開展合作,結合中國聯通在網絡上豐富的運營經驗和英特爾全面豐富的AI+節能技術,共同打造面向業務的智能節能解決方案。
網絡智能化 + 英特爾產品技術組合,以預測模型實現節能減排新方案
要實時了解業務對算力的需求,最有效的方法當是建立起一個預測模型。而如今,逐漸成為行業趨勢的網絡智能化技術,讓模型構建的步伐向前邁進了堅實的一步。
所謂網絡智能化技術,簡而言之就是網絡+AI的融合式創新,它是通過AI與通信網絡的硬件、軟件、系統等深度融合,為網絡運營和服務呈現更多的智能化特性。這其中很重要的一點,是用戶能通過AI能力對各類網絡數據實現更有效的感知、采集、處理和反饋。利用這一特性,中國聯通正借助數據中心中各類業務負載數據,來打造全新的預測模型。
例如話務量這樣的業務負載,其是一個典型的時間序列模型,即業務負載是實時變化,且具有時間上的先后順序。與之相對的,業務負載對處理器、內存等服務器資源的需求也是如此。因此要構建預測方案,只要明確哪些服務器資源與業務量有著較大關聯,就能在根據預測結果制定資源動態調整方案時,不影響業務的連續性。
而英特爾硬件產品所具有的一系列先進特性,為服務器節能提供了靈活的調節能力。中國聯通數據中心所部署的基于英特爾® 架構的硬件基礎設施就提供了內置功耗調解機制,可根據不同業務負載對核心頻率(Core Frequency)和非核心頻率(Uncore Frequency)進行精細控制,可在滿足 SLA 等級的前提下進一步降低功耗。
同時,在英特爾首席工程師、人工智能首席架構師夏磊看來,得益于AI技術、先進軟硬件設備以及數據的充分融合,借助網絡智能化興起所涌現的各類實時性分析和預測AI應用,將天然成為5G網絡等開展性能優化和能耗主動管理的助力。
現在中國聯通就正與英特爾一起,利用基于BigDL組件所構建的Chronos框架打造數據中心能耗優化新方案,對資源需求進行準確預測和精細化管理,以動態調整的方式“錙銖必較”服務器能耗,從而使數據中心整體能耗獲得有效降低。
使用網絡AI實現節能減排的第一步,選擇更具效率的AI框架
傳統上,構建時間序列預測模型并形成高效可用的AI應用并非易事,因為這包含了從數據采集和預處理、特征工程再到模型訓練等一系列環節,如果每一個環節都需要中國聯通的工程師們逐一從頭設計打造,無疑費時費力。
圖二 構建時間序列預測模型的各個環節

同時,為提升模型的準確性和性能,構建過程中往往還需要耗費巨大的人力和時間資源對超參數進行手動調優來實現更高效的超參數優化(Hyperparameter optimization,HPO),這同樣也是中國聯通面臨的重要挑戰。
圖三 Chronos框架基本架構

為了應對以上挑戰,中國聯通選擇了由英特爾提供的Chronos框架,從而能夠快速且有效地完成上述流程。這一源自BigDL的框架(由英特爾開源的統一大數據分析和人工智能平臺),為用戶提供了以下三項能力:
數據處理 & 特征工程(Data Processing & Feature Engineering)組件:其內置了70多個數據處理和特征工程工具,通過TSDataset API接口來供用戶方便地調用,從而快捷高效地完成數據預處理和特征工程流程;
內置模型(Built-in Models)組件:內置10余個可用于時間序列預測、檢測和模擬的獨立深度學習和機器學習模型,功能涵蓋預測器(Forecasters)、檢測器(Detectors)以及模擬器(Simulators);
可選的HPO組件:通過高度集成、可擴展和自動化的工作流(通過AutoTSEstimator等API實現),能幫助中國聯通完成全棧的自動化機器學習過程。英特爾提供的多種優化方式,如所集成的ONNX runtime以及英特爾® oneAPI AI Analytics Toolkit等,均能在推理過程中提供良好支持。
使用網絡AI實現節能減排的第二步,構建有效5GC網元資源占用率預測方案
基于Chronos框架,中國聯通構建5GC網元資源占用率預測方案就變得方便而有條理。整個流程可以分為以下幾步來實現:
使用歷史業務數據(如話務量數據等)與服務器資源利用率日志(如處理器占用率等)進行建模,并由Chronos框架提供的TSDataset API接口對時間序列數據快速執行填充、縮放等操作,并開展自動特征生成;
通過AutoTSEstimator等API進行超參數搜索,并根據預測目標檢索出最佳超參數集,進而優化模型和數據處理工序并形成時間序列預測模型;
使用這一模型對實時業務數據進行推理(或進行效果評估和優化),獲得最終的處理器占用率預測數據。
圖四 中國聯通基于Chronos框架的時間序列預測方案基本流程

目前,新方案已在中國聯通5GC測試資源池中進行了實際測試,處理器占用率預測結果與實際值對比的最終MSE結果僅為1.71,而實際的處理器占用率預測絕對誤差平均小于1.4%,達到了中國聯通對新方案的預期。
那么使用這一預測方案究竟能為中國聯通的綠色節能帶來哪些好處呢?中國聯通的專家們算了一筆賬,預測方案與處理器降頻技術相結合,預計能使單臺服務器降低能耗15%以上,推衍到整體云資源池,每年可直接節約能源4,600萬度。結合其它節能措施,每年可減少二氧化碳排放約6萬噸。
由此可見,未來的綠色數據中心建設,未必僅有降低PUE這條“華山小道”,借助網絡智能化趨勢帶來的AI方案,同樣也能另辟蹊徑,在ICT領域開辟一條節能減排的新道路。而英特爾也在這一方向上持續發力,為包括中國聯通在內的廣大電信運營商、設備商以及云服務提供商提供從算力設施到AI框架的全面支持,幫助實現更大范圍、更大規模的節能減排效果, 將構建“綠色數據中心新型信息基礎設施”落到實處。

