
近年來,對人工智能應用的需求呈指數級增長,因此數據中心的設計、配置和管理必須采用新方法。《華爾街日報》估計,目前全球數據中心容量的約 20% 用于人工智能。然而,由于超過 77% 的公司已經在使用或探索人工智能技術,傳統數據中心可能很快就會過時。
人工智能僵局
由于算法和模型復雜,人工智能應用通常比其他應用需要更多的電力和計算資源。例如,據說 ChatGPT 上的一個簡單查詢所需的電力幾乎是谷歌快速搜索所需電力的十倍。傳統數據中心的平均密度為每機架 5-10kW,但處理人工智能應用時,每機架的密度會增加到 60kW+。
更多的工作量和能源需求意味著更高的間接成本。此外,數據中心必須想出替代和先進的方法來處理由于人員短缺而可能出現的冷卻問題、漏洞、安全挑戰和維護問題。
然后,還有環境可持續性的問題。研究人員估計,GPT-3 在 2020 年向公眾發布之前就產生了超過 552 噸的二氧化碳。這一數字相當于一百二十三輛汽油汽車全年產生的二氧化碳。
不幸的是,除非這些挑戰得到戰略性和動態的解決,否則我們可能會看到類似于GPU供應短缺的基礎設施緊張局面。缺乏設備齊全的數據中心來處理人工智能技術的壓倒性需求,最終可能會減緩增長,促進人工智能基礎設施的壟斷,并對環境產生嚴重影響。
為現在和未來而建
為了正面解決這些問題,許多公司已經在實施新措施。這些措施包括使用共置數據中心來降低運營成本、提高可擴展性并確保有熟練的現場維護人員。與傳統的空氣冷卻系統相比,數據中心還采用了更先進的冷卻技術,如液體冷卻、直接到芯片冷卻和沉浸式冷卻。
對于新中心,設計至關重要。例如,2022 年,Meta 暫停了其在德克薩斯州耗資 8 億美元的數據中心的建設,以考慮重新設計這個占地 90 萬平方英尺的設施。
然而,數據中心除了充當人工智能支持的應用程序和產品的基礎設施和計算中心之外,還可以利用相同的人工智能來優化性能、管理成本,并通過多種方式確保運營效率。讓我們來看看其中的一些。
工作負載管理
人工智能和自動化工具可以更準確地預測和更有效地分配數據中心的工作負載,確保部署符合資源需求。這通過最大限度地減少計算硬件的利用率不足和降低能耗來減少浪費。超過 32% 的云支出被浪費,主要是由于過度配置。然而,人工智能系統可以將資源重新分配給最需要它們的項目,從而優化性能并最大限度地利用閑置硬件。
重復性和常規性任務可以方便地實現自動化,從而節省時間、能源和熟練的人力。人工智能還可以處理數據和性能指標,從而采取戰略性、主動性的措施,在潛在的工作負載管理問題發生之前解決它們。
人工智能驅動的冷卻系統
除了引入更好的冷卻設施外,人工智能還可以在動態檢測和調節溫度方面發揮重要作用。人工智能可以分析溫度數據并采取行動,為每個硬件提供所需的冷卻量,而不是靜態冷卻數據中心的硬件。這可以調節濕度條件以獲得最佳性能,提高電源效率,并延長設備的使用壽命。
動態電源使用效率
人工智能系統的實時監控和預測分析可以提供有關電源使用模式和低效率的關鍵見解,使管理人員能夠做出數據支持的決策并實施必要的電源管理策略。雖然客觀事實仍然是運行人工智能工作負載的數據中心的電力需求始終高于傳統數據中心,但人工智能驅動的管理和數據中心設計的協同努力可以產生重大影響。
數據中心還可以通過優先考慮高效的能源管理系統和采用動態電壓和頻率調整 (DVFS) 等電源管理技術來最大限度地減少碳足跡并減少對環境的影響。
四舍五入
高度復雜的數字未來的代價在于基礎設施的核心。數據中心必須采用物理、運營和軟件變革,以跟上不斷發展的現代世界及其人工智能需求。
值得慶幸的是,人工智能挑戰也可以通過人工智能解決方案來解決。隨著科技行業逐漸適應和技術進步,人工智能驅動的工作負載管理和優化將成為主流,從而帶來強大的數據中心來為未來提供動力。來自分散式計算基礎設施等其他替代方案的創新也將創造良性競爭并提高效率。
作者:InFlux Technologies 首席執行官 Daniel Keller
來源:千家網