Роками розповідь процентр обробки данихспоживання енергії йшло передбачуваною дугою. Цифровізація, звичайно, зростала, але підвищення ефективності завдяки кращим серверам, віртуалізації та хмарній консолідації зберегло загальне споживання електроенергії на дивовижному рівні. Глобальний попит на електроенергію центрів обробки даних коливався близько 1 відсотка від загального споживання електроенергії — приблизно 200 терават-годин на рік — протягом більшої частини десятиліття.
Ця епоха закінчується.
Конвергенція генеративного штучного інтелекту, майнінгу криптовалют, периферійних обчислень і експоненціального зростання підключених пристроїв зламали стару криву ефективності. Зараз галузеві оцінки показують, що попит на електроенергію центрів обробки даних щорічно зростає темпами, яких не було з початку 2000-х років. У деяких регіонах — Ірландії, Північній Вірджинії, Сінгапурі — на центри обробки даних вже припадає від 15 до 25 відсотків загального споживання електроенергії, що змушує регулятори вводити мораторії на нове будівництво.
На цьому тлі вибір інфраструктури, який раніше здавався технічними деталями — архітектура охолодження, топологія розподілу електроенергії, планування щільності стійки — став рішенням залу засідань. Вартість енергії більше не є окремим пунктом. Це обмеження для зростання.
Ефективність енергоспоживання, або PUE, є стандартним показником ефективності індустрії центрів обробки даних протягом майже двох десятиліть. Це просте співвідношення: загальна потужність об’єкта поділена на потужність ІТ-обладнання.
Коефіцієнт PUE 2,0 означає, що на кожен ват, який витрачає електроенергію на сервери та сховище, ще один ват витрачається на охолодження, освітлення, втрати електроенергії та інші накладні витрати. PUE 1,2 означає, що накладні витрати споживають лише 0,2 Вт на ІТ-ват.
У галузі широко прийняті рівні на основі PUE:
| Рівень | ПУЕ | DCiE | Що це означає |
|---|---|---|---|
| Платина | <1,25 | >0,80 | Ефективність світового класу, як правило, вимагає вільного або рідинного охолодження |
| золото | 1,25 – 1,43 | 0,70 – 0,80 | Дуже ефективний, досяжний завдяки сучасним конструкціям у помірному кліматі |
| Срібло | 1,43 – 1,67 | 0,60 – 0,70 | Прийнятно для старих установ або теплішого клімату |
| Бронза | 1.67 – 2.00 | 0,50 – 0,60 | Типово для застарілих центрів обробки даних без серйозних модернізацій |
| Ярмарок | 2.00 – 2.50 | 0,40 – 0,50 | Низька ефективність, висока експлуатаційна вартість |
| Бідний | >2,50 | <0,40 | Критична неефективність, ймовірно, вимагає негайної уваги |
Проблема в тому, що багато організацій фактично не знають свого ПУЕ. Вони оцінюють. Вони здогадуються. Або вимірюють лише на основному лічильнику, а решту беруть на себе.
Галузеве опитування 2023 року показало, що майже 40 відсотків операторів центрів обробки даних ніколи не вимірювали PUE на рівні стійки. Серед тих, хто це зробив, різниця між зареєстрованим і фактичним PUE становила в середньому 0,3 бала — цього достатньо, щоб перевести об’єкт із золотого на срібний без будь-якої помітки.
Розуміння того, чому PUE так сильно варіюється, починається з того, як з’ясувати, де живлення виходить з центру обробки даних.
У типовому об'єкті з повітряним охолодженням з PUE близько 1,8 поломка виглядає приблизно так:
Навантаження на охолодження є найбільшою змінною. Об’єкт у помірному кліматі, який використовує зовнішнє повітря для вільного охолодження, може витрачати на охолодження лише 15 відсотків своєї енергії, не пов’язаної з ІТ. Та сама установка в тропічному кліматі з механічним охолодженням цілий рік може витрачати 40 відсотків.
Ось чому постачальники колокейшн рекламують PUE на рівні закладу, але доставляють PUE на лічильник клієнта — різні цифри, різні наслідки. За все платить клієнт.
Традиційне управління центром обробки даних передбачає відносно статичне середовище. Стелажі заповнювалися протягом місяців або років. Охолодження можна регулювати повільно. Розподіл електроенергії був завищеним з першого дня.
Хмарна ера змінила припущення. Стійки зараз заповнюють днями. Робочі навантаження розподіляються між серверами автоматично. Кластери штучного інтелекту з високою щільністю можуть споживати втричі більше потужності, ніж суміжні обчислювальні стійки загального призначення.
Ці зміни змусили переосмислити управління інфраструктурою. Виділяються три тенденції.
По-перше, щільність зростає нерівномірно.Десять років тому стандартна серверна стійка споживала 5-8 кіловат. Сьогодні стійки загального призначення споживають 10-15 кіловат. Високопродуктивні обчислювальні та навчальні стійки зі штучним інтелектом регулярно перевищують 30 кіловат на стійку. Деякі з них перевищують 50 кіловат.
Це створює проблеми з управлінням температурою, які повітряне охолодження важко вирішити. При потужності 20 кіловат на стійку повітряне охолодження залишається ефективним за умови належного утримання. При 30 кіловатах він стає граничним. При потужності 40 кіловат і вище рідинне охолодження стає необов’язковим.
По-друге, планування потужностей стало прогнозним.Старий метод — купуйте більше потужності, ніж потрібно, і дайте йому простоювати — більше не працює в масштабі. Незадіяні потужності мають як капітальні витрати, так і витрати на поточне обслуговування.
Сучасні системи управління інфраструктурою використовують історичні дані та прогнозування робочого навантаження, щоб передбачити, коли закінчиться живлення, охолодження або місце в стійці. Найкращі системи можуть рекомендувати, чи потрібно переналаштувати існуючу потужність або замовити нове обладнання, за кілька днів або тижнів до того, як обмеження стане критичним.
По-третє, вимоги до видимості мають напррозчулений.Традиційний центр обробки даних може відстежувати потужність на рівні PDU. Сучасному об’єкту потрібна видимість на рівні стійки, іноді на рівні сервера, і все частіше на рівні робочого навантаження — знати, яка віртуальна машина чи контейнер керує якою потужністю.
Інфраструктура центру обробки данихПрограмне забезпечення для управління (DCIM) існує вже більше десяти років, але впровадження залишається нерівномірним. Менше половини корпоративних центрів обробки даних розгорнули повну систему DCIM. Багато з них використовували лише частину його можливостей.
Правильно реалізована система DCIM робить чотири речі:
Управління активами.Кожен сервер, комутатор, PDU та блок охолодження відстежуються в базі даних керування конфігурацією (CMDB). Розташування, потужність, підключення до мережі, історія технічного обслуговування — все це. Це звучить елементарно, але багато організацій досі відстежують активи в електронних таблицях, які оновлюються місяцями.
Моніторинг в реальному часі.Споживання електроенергії на рівні PDU або стійки, температура та вологість у точках подачі та повернення, стан системи охолодження, стан батареї ДБЖ. Сигнали спрацьовують, коли параметри відхиляються від заданих значень. Мета полягає в тому, щоб виявити проблеми до того, як вони спричинять простой.
Планування потужностей.Система знає, скільки електроенергії та потужності охолодження доступні, скільки використовується та скільки зарезервовано для майбутнього розгортання. Він може моделювати вплив додавання нової стійки високої щільності або виведення з експлуатації набору старих серверів.
Візуалізація.Цифровий двійник центру обробки даних — стійка за стійкою, плитка за плиткою — показує поточні умови та дозволяє операторам імітувати зміни. Додавання 10 кіловат навантаження до третього рядка, четвертого стовпця: це перевищує потужність охолодження? Система відповідає до того, як хтось перемістить обладнання.
Скорочення енергоспоживання центру обробки даних не є загадкою. Методи добре зрозумілі. Проблема полягає в дисципліні виконання.
Підвищити температуру припливного повітря.Більшість центрів обробки даних працюють на холоді — від 18 до 20 градусів за Цельсієм на поверненні блоку охолодження — тому що так завжди робили оператори. Рекомендації ASHRAE тепер рекомендують від 24 до 27 градусів. Кожен градус зменшує енергію охолодження приблизно на 4 відсотки. Робота при 26 градусах замість 20 градусів економить 20-25 відсотків потужності охолодження.
Виключіть змішування гарячого і холодного повітря.Контейнери гарячих коридорів, холодних коридорів або вертикальні витяжні канали змушують охолоджуюче повітря надходити туди, куди потрібно, а не короткочасно циркулювати через передню частину стелажів. Сама по собі локалізація зазвичай зменшує енергію охолодження на 15-25 відсотків.
Використовуйте приводи із змінною швидкістю.Вентилятори та насоси з постійною швидкістю витрачають енергію при частковому навантаженні. Приводи зі змінною швидкістю адаптують потік повітря та воду до фактичної потреби. Термін окупності модернізації зазвичай становить 1-3 роки.
Оптимізація роботи ДБЖ.Більшість систем ДБЖ безперервно працюють у режимі подвійного перетворення — перетворюючи змінний струм на постійний і назад на змінний, навіть якщо джерело живлення чисте. Сучасні системи ДБЖ можуть переходити в еко-режим, коли це дозволяє якість електроенергії, досягаючи 99 відсотків ефективності замість 94-96 відсотків. Компромісом є короткий час перемикання на батарею в разі збою живлення від мережі. Для ІТ-навантажень з блоками живлення, призначеними для таких переключень, ризик мінімальний.
Прийміть розподіл вищої напруги.Розподіл живлення при 415 В замість 208 В зменшує втрати при розподілі приблизно на 25 відсотків. Для цього потрібні сумісні PDU та серверні блоки живлення, але багато сучасних пристроїв це підтримують.
Компанія Shangyu CPSY, високотехнологічне підприємство, яке спеціалізується на інфраструктурі центрів обробки даних, повідомляє PUE 1,3 для своїх рішень для модульних центрів обробки даних. Це ставить компанію в Золотий рівень, переходячи до Платинового.
Заявлена 25-відсоткова економія енергії порівняно зі звичайними конструкціями обумовлена багатьма факторами. Модульні системи ДБЖ із ефективністю 97,4 відсотка на системному рівні зменшують втрати розподілу, які за інших умов становлять 15-20 відсотків. Прецизійні кондиціонери з компресорами зі змінною швидкістю та EC-вентиляторами регулюють потужність охолодження відповідно до фактичного теплового навантаження, а не працюють із фіксованою потужністю. А фізичне планування — утримання гарячих коридорів, оптимальна відстань між стелажами, фальшпідлога з перфорованою плиткою відповідного розміру — сприяє управлінню повітряним потоком, що підриває ефективність багатьох інших об’єктів.
Портфоліо сертифікації компанії включає ISO 9001 (управління якістю) та ISO 27001 (управління інформаційною безпекою). Його клієнтські розгортання включають партнерство з Huawei, ZTE та Inspur, з експортними установками в Сполучених Штатах, Великобританії, Німеччині, Франції та Австралії.
Протягом багатьох років рідинне охолодження було нішевою технологією для суперкомп’ютерних центрів. Це швидко змінюється.
Навчальні кластери штучного інтелекту, які використовують графічні процесори NVIDIA H100 або майбутні B200, генерують 30-50 кіловат на стійку в конфігураціях з чистим повітряним охолодженням. При такій щільності повітряне охолодження вимагає високої швидкості повітряного потоку — гучних вентиляторів, глибоких стелажів і все ще незначного теплового контролю.
Рідинне охолодження безпосередньо до мікросхеми забирає 60-80 відсотків тепла в джерелі. Чіпси охолоджуються. Вентилятори працюють повільніше. Кімнатний кондиціонер обробляє лише тепло, що залишилося від блоків живлення, пам’яті та інших компонентів.
Підвищення ефективності суттєве. Об’єкти з охолодженням безпосередньо до мікросхеми повідомляють про значення PUE від 1,1 до 1,2. Компроміси полягають у вищих капітальних витратах, складнішому управлінні витоками та потребі в обробці води на об’єкті.
Повне занурення в охолодження — занурення всіх серверів у діелектричну рідину — знижує PUE нижче 1,1, але залишається спеціалізованим. Більшість комерційних центрів обробки даних спершу запровадять охолодження безпосередньо на чіпі, а потім – занурення в окремі зони з високою щільністю.
Платформа центру обробки даних SHANGYU містить положення як для архітектури повітряного, так і для рідинного охолодження, визнаючи, що майбутні розгортання високої щільності потребуватимуть керування температурою на основі рідини незалежно від конструкції об’єкта.
Більшість операційних команд центрів обробки даних все ще працюють реактивно. Звучить будильник. Хтось розслідує. Застосовується виправлення. Цикл повторюється.
Перехід до прогнозного управління потребує трьох можливостей, яких бракує багатьом організаціям.
Повні дані конфігурації.Знання того, що є в центрі обробки даних — кожен сервер, кожен комутатор, кожен PDU, кожен блок охолодження — це основа. Без точних даних CMDB планування потужностей – це лише припущення.
Деталізована телеметрія.Вимірювання потужності на рівні стійки є мінімальним. Вимірювання потужності на кожному сервері краще. Атрибуція потужності на рівні робочого навантаження є найкращою, але найважчою для досягнення.
Аналітика, яка відрізняє сигнал від шуму.Підвищення температури на одній стійці може означати несправність вентилятора. Стрибок температури в половині центру обробки даних може означати несправність холодильної машини. Система повинна диференціювати та відповідно рекомендувати відповіді.
Платформа DCIM від SHANGYU забезпечує підтримку пристроїв SNMP і Modbus, веб-інтерфейси та інтерфейси додатків Windows, а також інтеграцію з мережевими камерами для створення зображень, викликаних подіями. Заявлені цілі є простими: скоротити дорогий час простою, скоротити щоденні експлуатаційні витрати завдяки повному контролю навколишнього середовища та покращити видимість і відстежуваність управління.
Споживання енергії центрами обробки даних становить приблизно 1 відсоток світового попиту на електроенергію. Ця цифра звучить мало, поки не поставити її в контекст. Це приблизно еквівалентно загальному споживанню електроенергії Сполученим Королівством.
Що ще важливіше, темпи зростання прискорюються. Галузеві прогнози показують, що попит на електроенергію для центрів обробки даних зростатиме на 10-15 відсотків щорічно до 2030 року завдяки штучному інтелекту, запровадженню хмарних технологій і постійному розширенню підключених пристроїв. За таких темпів центри обробки даних споживатимуть 3-4 відсотки світової електроенергії до кінця десятиліття.
Підвищення ефективності, завдяки якому енергоспоживання залишалося незмінним протягом останнього десятиліття, сталося завдяки віртуалізації серверів (зменшення кількості фізичних серверів), підвищенню ефективності дисків (перехід від обертових дисків до SSD) і широкому розгортанню вільного охолодження (використання зовнішнього повітря замість механічного охолодження). Ці низькорослі фрукти були в основному зібрані.
Наступна хвиля ефективності прийде за рахунок рідинного охолодження, розподілу вищої напруги, оптимізованого штучного інтелекту контролю охолодження та, можливо, найголовніше, кращого узгодження між потужністю інфраструктури та фактичним ІТ-навантаженням. Остання частина потребує видимості в реальному часі та прогнозної аналітики, які надають системи DCIM, але лише деякі засоби використовують повною мірою.
Ви знаєте свій фактичний ПУЕ, а не номер у технічному паспорті?Якщо ви не вимірювали на виході ДБЖ і на вході ІТ-обладнання, ви не знаєте. Різниця полягає у ваших реальних накладних витратах.
Ваші системи охолодження борються між собою?У багатьох центрах обробки даних блоки CRAC налаштовані з перекриттям діапазонів температури та вологості. Один пристрій осушує, а інший зволожує. Один охолоджується, а інший знову нагрівається. Це не є незвичайним. Це також не ефективно.
Яке енергоспоживання ваших серверів у режимі очікування?Галузеві дані показують, що типові корпоративні сервери споживають 30-40 відсотків своєї пікової потужності, коли нічого не роблять. Вимкнення або переведення в сплячий режим серверів, які не використовуються, є найвищим доступним показником ефективності рентабельності інвестицій. Він також є найбільш забутим.
Чи могли б ви підняти температуру припливного повітря на два градуси, не порушуючи специфікації обладнання?Швидше за все так. Більшість обладнання розраховане на температуру всмоктування 25-27 градусів. Більшість ЦОД працюють при температурі 20-22 градуси. Розрив у шість градусів означає роки непотрібної енергії для охолодження.
Коли ви востаннє перевіряли ефективність свого ДБЖ?ККД, зазначений на табличці, вимірюється при повному навантаженні з ідеальним коефіцієнтом потужності. Реальна ефективність при частковому навантаженні з реальним коефіцієнтом потужності може бути на 5-10 пунктів нижчою.