МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ становятся все больше и больше. В то же время им требуется экспоненциально больше энергии для обучения, чтобы они могли точно обрабатывать изображения, текст или видео. По мере того, как сообщество ИИ борется с его воздействием на окружающую среду, некоторые конференции теперь просят авторов докладов включать информацию о выбросах CO 2 . Новое исследование предлагает более точный метод расчета этих выбросов. Он также сравнивает факторы, влияющие на них, и тестирует два метода их уменьшения.

Несколько программных пакетов оценивают выбросы углерода при рабочих нагрузках ИИ. Недавно команда из Университета Париж-Сакле протестировала группу этих инструментов, чтобы убедиться, что они надежны. «И они не надежны во всех контекстах», — говорит Анн-Лор Лигоза , соавтор этого исследования, которая не участвовала в новой работе.

Новый подход отличается в двух отношениях, говорит Джесси Додж , научный сотрудник Института искусственного интеллекта Аллена и ведущий автор новой статьи, которую он представил на прошлой неделе на конференции ACM по вопросам справедливости, подотчетности и прозрачности (FAccT). Во-первых, он записывает энергопотребление серверных чипов в виде серии измерений, а не суммирует их использование в ходе обучения. Во-вторых, он сопоставляет эти данные об использовании с рядом точек данных, указывающих на местные выбросы на киловатт-час (кВтч) используемой энергии. Это число также постоянно меняется. «Предыдущая работа не улавливала многих нюансов, — говорит Додж.

Новый инструмент более сложен, чем старые, но по-прежнему отслеживает только часть энергии, используемой в обучающих моделях. В предварительном эксперименте команда обнаружила, что графические процессоры сервера используют 74% своей энергии. ЦП и память используются в меньшей степени, и они поддерживают множество рабочих нагрузок одновременно, поэтому команда сосредоточилась на использовании графического процессора. Они также не измеряли энергию, используемую для создания вычислительного оборудования, или для охлаждения центра обработки данных, или для его строительства и транспортировки инженеров на объект и обратно. Или энергия, используемая для сбора данных или запуска обученных моделей. Но инструмент дает некоторые рекомендации по снижению выбросов во время тренировок.

«На что я надеюсь, так это на то, что важным первым шагом на пути к более экологичному и справедливому будущему станет прозрачная отчетность», — говорит Додж. «Потому что вы не можете улучшить то, что не можете измерить».

Исследователи обучили 11 моделей машинного обучения разного размера для обработки языка или изображений. Обучение длилось от часа на одном графическом процессоре до восьми дней на 256 графических процессорах. Они записывали энергию, используемую каждую секунду или около того. Они также получили для 16 географических регионов выбросы углерода на кВтч энергии, использованной в течение 2020 года, с пятиминутной детализацией. Затем они могли бы сравнить выбросы от запуска разных моделей в разных регионах в разное время.

Включение графических процессоров для обучения самых маленьких моделей выделяло примерно столько же углерода, сколько зарядка телефона. Самая большая модель содержала шесть миллиардов параметров, меру ее размера. Обучив его только до 13% завершения, графические процессоры выбрасывают почти столько же углерода, сколько потребляет электроэнергия дома в течение года в Соединенных Штатах. Между тем, некоторые развернутые модели, такие как GPT-3 от OpenAI , содержат более 100 миллиардов параметров.

График выбросов углерода одиннадцати протестированных моделей обученияИНСТИТУТ АЛЛЕНА ПО ИСКУССТВЕННОМУ ИНТЕЛЛЕКТУ И ДР. ИЗ FACCT 2022
Самым большим измеренным фактором сокращения выбросов был географический регион: количество граммов CO 2 на кВтч варьировалось от 200 до 755. Помимо смены местоположения, исследователи протестировали два CO 2-методы редукции, допускаемые их временными мелкозернистыми данными. Первый, «Гибкий старт», мог откладывать обучение до 24 часов. Для самой крупной модели, для которой требовалось несколько дней обучения, отсрочка ее до дня обычно снижала выбросы менее чем на 1%, но для модели гораздо меньшего размера такая задержка могла сэкономить 10–80%. Второй, «Пауза и возобновление», может приостанавливать тренировку во время высоких выбросов, если общее время тренировки не увеличивается более чем в два раза. Этот метод принес пользу малой модели лишь на несколько процентов, но в половине регионов он принес пользу самой крупной модели на 10–30%. Выбросы на кВтч колеблются со временем отчасти потому, что из-за отсутствия достаточного запаса энергии энергосистемы иногда вынуждены полагаться на грязные источники энергии, когда прерывистые чистые источники, такие как ветер и солнечная энергия, не могут удовлетворить спрос.

Лигоза нашел эти методы оптимизации наиболее интересной частью статьи. Но они основывались на ретроспективных данных. Додж говорит, что в будущем он хотел бы иметь возможность прогнозировать выбросы на кВтч, чтобы реализовывать их в режиме реального времени. Лигозат предлагает еще один способ сократить выбросы: «Первая хорошая практика — просто подумать, прежде чем проводить эксперимент», — говорит она. «Убедитесь, что вам действительно нужно машинное обучение для решения вашей проблемы».

Microsoft, чьи исследователи совместно работали над документом, уже внедрила метрику энергопотребления графического процессора в свою облачную службу Azure. Обладая такой информацией, пользователи могут принять решение тренироваться в разное время или в разных местах, покупать компенсацию выбросов углерода, тренировать другую модель или вообще не тренироваться. «На что я надеюсь, так это на то, что важным первым шагом на пути к более экологичному и справедливому будущему станет прозрачная отчетность», — говорит Додж. «Потому что вы не можете улучшить то, что не можете измерить».