PolyThrottle: энергоэффективный анализ нейронных сетей на периферийных устройствах: выводы и ссылки

:::информация Этот документ доступен на arxiv под лицензией CC BY-NC-ND 4.0 DEED.

Авторы:

(1) Минхао Ян, Университет Висконсин-Мэдисон;

(2) Хонги Ван, Университет Карнеги-Меллон;

(3) Шиварам Венкатараман, myan@cs.wisc.edu.

:::

Таблица ссылок

8 ЗАКЛЮЧЕНИЕ

В этой работе мы изучаем уникальные характеристики энергопотребления при выводе нейронных сетей, особенно для периферийных устройств. Мы определили уникальные компромиссы и аспекты между потреблением энергии и SLO с задержкой вывода и эмпирически продемонстрировали скрытые компоненты в оптимизации энергопотребления. Затем мы предлагаем систему оптимизации, которая автоматически и комплексно настраивает различные аппаратные компоненты для поиска конфигурации, соответствующей границе Парето. Мы эмпирически проверяем эффективность и результативность PolyThrottle. PolyThrottle также адаптируется к необходимости тонкой настройки и предлагает простую модель прогнозирования производительности для адаптивного планирования запросов на тонкую настройку, сохраняя при этом рабочую нагрузку онлайн-вывода в пределах SLO задержки вывода, когда это возможно. Мы надеемся, что наше исследование прольет больше света на скрытый аспект оптимизации энергопотребления нейронных сетей.

ССЫЛКИ

Электронная книга о решениях для партнеров Jetson. URL https://resources.nvidia.com/ en-us-jetson-success-stories/ jetson-partner-solutions-ebook?lx=XRDs_y.

Следы потоковой передачи в Твиттере, 2018 г. URL https://archive.org/details/archiveteam-twitter-stream-201804.

Алипурфард О., Лю Х. Х., Чен Дж., Венкатараман С., Ю М. и Чжан М. Черрипик: Адаптивное обнаружение лучших облачных конфигураций для анализа больших данных. В NSDI, том 2, стр. 4–2, 2017 г.

Андерсон Т., Белэй А., Чоудхури М., Сидон А. и Чжан И. Дом на дереве: пример программного обеспечения для центров обработки данных, учитывающего выбросы углекислого газа. 2022.

Энтони Л.Ф.В., Кандинг Б. и Селван Р. Carbontracker: Отслеживание и прогнозирование углеродного следа при обучении моделей глубокого обучения. 2020.

Арафа Ю., ЭльВазир А., ЭльКаниши А., Али Ю., Эльсайед А., Бадави А., Ченнупати Г., Эйденбенц С. и Санти Н. Проверенная энергия на уровне инструкций Измерение потребления графического процессора NVIDIA. 2020.

Бай З., Чжан З., Чжу Ю. и Джин К. Pipeswitch: быстрое конвейерное переключение контекста для приложений глубокого обучения. В материалах 14-й конференции USENIX по проектированию и внедрению операционных систем, стр. 499–514, 2020 г.

Баннер Р., Хубара И., Хоффер Э. и Судри Д. Масштабируемые методы 8-битного обучения нейронных сетей. Достижения в области нейронных систем обработки информации, 31, 2018.

Брошу Э., Кора В.М. и Де Фрейтас Н. Учебное пособие по байесовской оптимизации дорогостоящих функций стоимости с применением к моделированию активных пользователей и иерархическому обучению с подкреплением. Препринт arXiv arXiv:1012.2599, 2010.

Цай Х., Ван Т., Ву З., Ван К., Линь Дж. и Хан С. Классификация изображений на устройстве с поиском нейронной архитектуры без прокси и тонкой настройкой с учетом квантования. В материалах Международной конференции IEEE/CVF по семинарам по компьютерному зрению, стр. 0–0, 2019 г.

Цай Х., Ган К., Чжу Л. и Хан С. Тинитл: Уменьшите объем памяти, а не параметры для эффективного обучения на устройстве. Достижения в области нейронных систем обработки информации, 33: 11285–11297, 2020.

Цао К., Баласубраманиан А. и Баласубраманиан Н. На пути к точному и надежному измерению энергии моделей nlp. В материалах SustaiNLP: Семинар по простой и эффективной обработке естественного языка, 2020.

Цензор, Ю. Оптимальность по Парето в многокритериальных задачах. Прикладная математика и оптимизация, 4 (1): 41–59, 1977.

Курбарио М., Бенджио Ю. и Давид Ж.-П. Обучение глубоких нейронных сетей умножениям низкой точности. Препринт arXiv arXiv:1412.7024, 2014.

Курбарио М., Бенджио Ю. и Давид Ж.-П. Binaryconnect: обучение глубоких нейронных сетей с использованием двоичных весов во время распространения. Достижения в области нейронных систем обработки информации, 28, 2015.

Крэнкшоу Д., Ван К., Чжоу Г., Франклин М.Дж., Гонсалес Дж.Э. и Стойка И. Клиппер: Система обслуживания онлайн-прогнозов с малой задержкой. В NSDI, том 17, стр. 613–627, 2017 г.

Девлин Дж., Чанг М.-В., Ли К. и Тутанова К. Берт: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка. Препринт arXiv arXiv:1810.04805, 2018.

Гарднер Дж. Р., Куснер М. Дж., Сюй З. Э., Вайнбергер К. К. и Каннингем Дж. П. Байесовская оптимизация с ограничениями-неравенствами. В ICML, том 2014 г., стр. 937–945, 2014 г.

Голами А., Ким С., Донг З., Яо З., Махони М.В. и Кейцер К. Обзор методов квантования для эффективного вывода нейронных сетей. Препринт arXiv arXiv:2103.13630, 2021.

Гог И., Калра С., Шафхальтер П., Гонсалес Дж. Э. и Стойка И. D3: динамический подход к созданию автономных транспортных средств, основанный на сроках. В материалах семнадцатой Европейской конференции по компьютерным системам, стр. 453–471, 2022 г.

Гу Д., Се X., Хуан Г., Цзинь X. и Лю X. Энергоэффективное планирование кластеров графических процессоров для глубокого обучения. Препринт arXiv arXiv:2304.06381, 2023.

Гуджарати А., Карими Р., Альзаят С., Хао В., Кауфманн А., Вигфуссон Ю. и Мейс Дж. Обслуживание {DNN} как часового механизма: предсказуемость производительности снизу вверх. На 14-м симпозиуме USENIX по проектированию и внедрению операционных систем (OSDI 20), стр. 443–462, 2020 г.

Гупта У., Ким Ю.Г., Ли С., Це Дж., Ли Х.-Х. С., Вэй Г.-Ю., Брукс Д. и Ву К.-Дж. В погоне за углеродом: неуловимый экологический след вычислений. IEEE Micro, 42(4):37–47, 2022 г.

Хэ, К., Ли, С., Со, Дж., Цзэн, Х., Чжан, М., Ван, Х., Ван, Х., Вепакомма, П., Сингх, А., Цю, Х., и другие. Fedml: исследовательская библиотека и эталон для федеративного машинного обучения. Препринт arXiv arXiv:2007.13518, 2020.

Ходак М., Горковенко М. и Дхолакия А. На пути к энергоэффективности в глубоком обучении на оборудовании центров обработки данных. На Международной конференции IEEE по большим данным, 2019 г.

Хонг С. и Ким Х. Интегрированная модель мощности и производительности графического процессора. В ISCA, 2010 г.

Ховард А., Сэндлер М., Чу Г., Чен Л.-К., Чен Б., Тан М., Ван В., Чжу Ю., Панг Р., Васудеван, В. и др. Ищу mobilenetv3. стр. 1314–1324, 2019.

Ховард А.Г., Чжу М., Чен Б., Калениченко Д., Ван В., Вейанд Т., Андреетто М. и Адам Х. Mobilenets: Эффективные сверточные нейронные сети для приложений мобильного зрения. Препринт arXiv arXiv:1704.04861, 2017.

Иванов А., Драйден Н., Бен-Нун Т., Ли С. и Хёфлер Т. Перемещение данных — это все, что вам нужно: тематическое исследование по оптимизации преобразователей. Proceedings of Machine Learning and Systems, 3:711–732, 2021.

Кандасами К., Высяраджу К.Р., Нейсвангер В., Пария Б., Коллинз Ч.Р., Шнайдер Дж., Поцос Б. и Син Э.П. Настройка гиперпараметров без аспирантов: масштабируемая и надежная байесовская оптимизация с помощью Dragonfly . Журнал исследований машинного обучения, 21(1):3098–3124, 2020.

Кандиа, В., Певерелл, С., Хайри, М., Пан, Дж., Манджунат, А., Роджерс, Т.Г., Аамодт, Т.М. и Хардавеллас, Н. Акселватч: Структура моделирования мощности для современных графических процессоров. В МИКРО, 2021 год.

Канг Д.-К., Ли К.-Б. и Ким Ю.-К. Экономичное управление кластером графических процессоров для обучения и вывода результатов глубокого обучения. Энергия, 15(2):474, 2022.

Ким С., Голами А., Яо З., Махони М.В. и Койцер К. И-берт: Берт-квантование только для целых чисел. стр. 5506–5518. ПМЛР, 2021.

Кляйн А., Бартельс С., Фолкнер С., Хенниг П. и Хаттер Ф. На пути к эффективной байесовской оптимизации больших данных. На семинаре по байесовской оптимизации NIPS 2015, 2015 г.

Комода Т., Хаяши С., Накада Т., Мива С. и Накамура Х. Ограничение мощности гетерогенных систем CPU-GPU посредством координации dvfs и сопоставления задач. В 2013 году прошла 31-я Международная конференция IEEE по компьютерному дизайну (ICCD). IEEE, 2013.

Лакост А., Луччиони А., Шмидт В. и Дандрес Т. Количественная оценка выбросов углекислого газа в результате машинного обучения. Препринт arXiv arXiv:1910.09700, 2019.

Лейн Н. Д. и Георгиев П. Может ли глубокое обучение произвести революцию в мобильном зондировании? В материалах 16-го международного семинара по мобильным вычислительным системам и приложениям, стр. 117–122, 2015 г.

Ли Дж., Чирков Н., Игнашева Е., Писарчик Ю., Ши М., Риккарди Ф., Сарокин Р., Кулик А. и Грундманн М. Нейронная сеть на устройстве вывод с помощью мобильного графического процессора. Препринт arXiv arXiv:1907.01989, 2019.

Лоу-Пауэр, Дж., Ахмад, А.М., Акрам, А., Алиан, М., Амслингер, Р., Андреоцци, М., Армеах, А., Асмуссен, Н., Бекманн, Б., Бхарадвадж, С. , и другие. Симулятор gem5: версия 20.0+. Препринт arXiv arXiv:2007.03152, 2020.

Мэй X., Ван К. и Чу X. Обзор и измерение параметров графического процессора dvfs по сохранению энергии. Цифровые коммуникации и сети, 3(2):89–100, 2017.

Набавинежад С.М., Реда С. и Эбрахими М. Батчсайзер: Компромисс мощности и производительности для вывода dnn. В материалах 26-й конференции по автоматизации проектирования в Азии и южной части Тихого океана, 2021 г.

NVIDIA. Управление потоками, 2023а. URL https://docs.nvidia.com/cuda/cuda-runtime-api.

NVIDIA. Многоэкземплярный графический процессор Nvidia, 2023b. URL https://docs.nvidia.com/datacenter/tesla/mig-user-guide/index.html.

Пэн Ю., Чжу Ю., Чен Ю., Бао Ю., Йи Б., Лан К., Ву К. и Го К. Общий планировщик связи для ускорения обучения распределенной dnn. В СОСП, 2019.

Цяо А., Чо С.К., Субраманья С.Дж., Нейсвангер В., Хо К., Чжан Х., Гангер Г.Р. и Син Е.П. Поллукс: Коадаптивное кластерное планирование для глубокого обучения с оптимизацией производительности. В OSDI, 2021 год.

Раджпуркар П., Чжан Дж., Лопырев К. и Лян П. Команда: более 100 000 вопросов для машинного понимания текста. В ЭМНЛП, 2016 г.

Ромеро Ф., Ли К., Ядвадкар Н. Дж. и Козыракис К. {INFaaS}: Автоматизированное обслуживание вывода без модели. Ежегодная техническая конференция USENIX 2021 г. (USENIX ATC 21), стр. 397–411, 2021 г.

Сан В., Дебют Л., Шомон Дж. и Вольф Т. Дистильберт, дистиллированная версия берта: меньше, быстрее, дешевле и легче. Препринт arXiv arXiv:1910.01108, 2019.

Шварц Р., Додж Дж., Смит Н.А. и Эциони О. Грин и.о. Коммун. ACM, 63(12):54–63, 2020.

Шен Х., Чен Л., Цзинь Ю., Чжао Л., Конг Б., Филипос М., Кришнамурти А. и Сундарам Р. Nexus: кластерный двигатель графического процессора для ускорения dnn- на основе видеоанализа. В материалах 27-го симпозиума ACM по принципам операционных систем, стр. 322–337, 2019 г.

Снук Дж., Ларошель Х. и Адамс Р.П. Практическая байесовская оптимизация алгоритмов машинного обучения. Достижения в области нейронных систем обработки информации, 25, 2012.

Штрубелл Э., Ганеш А. и МакКаллум А. Энергетические и политические аспекты глубокого обучения в НЛП. В материалах 57-го ежегодного собрания Ассоциации компьютерной лингвистики, 2019 г.

Тамбе, Т., Хупер, К., Пентекост, Л., Цзя, Т., Ян, Э.-Ю., Донато, М., Сан, В., Уотмо, П., Раш, А.М., Брукс, Д. ., и другие. Эджберт: Оптимизация энергопотребления на уровне предложений для многозадачного вывода NLP с учетом задержек. В МИКРО, 2021 год.

Тан М. и Ле К. Efficientnet: переосмысление масштабирования модели для сверточных нейронных сетей. стр.6105–6114. ПМЛР, 2019.

Тан З., Ван Ю., Ван К. и Чу X. Влияние графического процессора dvfs на энергию и производительность глубокого обучения: эмпирическое исследование. В материалах десятой Международной конференции ACM по энергетическим системам будущего, 2019 г.

Туврон Х., Корд М., Дуз М., Масса Ф., Саблероллес А. и Жегу Х. Обучение преобразователей изображений с эффективным использованием данных и amp; дистилляция посредством внимания. стр. 10347–10357. ПМЛР, 2021.

Венкатараман С., Янг З., Франклин М., Рехт Б. и Стойка И. Эрнест: Эффективное прогнозирование производительности для {крупномасштабной} расширенной аналитики. На 13-м симпозиуме USENIX по проектированию и внедрению сетевых систем (NSDI 16), стр. 363–378, 2016 г.

Ван К., Сантриаджи М., Роджерс Э., Хоффманн Х., Мэйр М. и Лу С. Предупреждение: точное обучение требует энергии и своевременности. В УВД, 2020 г.

Ван Ф., Чжан В., Лай С., Хао М. и Ван З. Динамическая оптимизация энергопотребления графического процессора для рабочих нагрузок обучения машинному обучению. Транзакции IEEE в параллельных и распределенных системах, 2021 г.

Ван Г., Венкатараман С., Фанисайи А., Деванур Н., Телин Дж. и Стойка И. Блинк: Быстрые и общие коллективы для распределенного мл. В трудах по машинному обучению и системам, 2020a.

Ван Ю., Ван К., Ши С., Хэ Х., Тан З., Чжао К. и Чу Х. Сравнительный анализ производительности и энергоэффективности ускорителей искусственного интеллекта для обучения искусственному интеллекту. На 20-м Международном симпозиуме IEEE/ACM по кластерным, облачным и интернет-вычислениям (CCGRID), 2020b.

Вольф Т., Дебют Л., Сан В., Шомон Дж., Деланг К., Мой А., Систак П., Раулт Т., Луф Р., Фунтович М., Дэвисон Дж., Шлейфер С., фон Платен П., Ма, К., Джернит Ю., Плу Дж., Сюй К., Скао Т.Л., Гуггер С., Драм М., Лхест К. и Раш А. Трансформеры: современная обработка естественного языка. В ЭМНЛП, 2020 г.

Ву, К.-Дж., Рагхавендра, Р., Гупта, У., Акун, Б., Ардалани, Н., Маенг, К., Чанг, Г., Ага, Ф., Хуанг, Дж., Бай, К., Гшвинд, М., Гупта, А., Отт, М., Мельников, А., Кандидо, С., Брукс, Д., Чаухан, Г., Ли, Б., Ли, Х.-Х. , Акилдиз Б., Баландат М., Списак Дж., Джайн Р., Раббат М. и Хейзелвуд К. Устойчивый искусственный интеллект: экологические последствия, проблемы и возможности. В трудах по машинному обучению и системам, 2022 г.

Ву X., Рао Дж., Чен В., Хуан Х., Дин К. и Хуанг Х. Switchflow: вытесняющая многозадачность для глубокого обучения. В материалах 22-го Интера

Сюй М., Лю Дж., Лю Ю., Линь Ф.С., Лю Ю. и Лю Х. Первый взгляд на приложения глубокого обучения на смартфонах. На конференции World Wide Web, WWW ’19, стр. 2125–2136, 2019 г.

Ю Дж., Чанг Дж.-В. и Чоудхури М. Зевс: понимание и оптимизация энергопотребления графического процессора при обучении dnn. Препринт arXiv arXiv:2208.06102, 2022.

Ю, П. и Чоудхури, М. Мелкозернистые примитивы совместного использования графических процессоров для приложений глубокого обучения. Труды по машинному обучению и системам, 2: 98–111, 2020.

Чжао Ю., Лю Х., Лю С., Ли Х., Чжу Ю., Хуан Г., Лю Х. и Цзинь X. Muxflow: эффективное и безопасное совместное использование графических процессоров в больших системах масштабировать производство кластеров глубокого обучения. Препринт arXiv arXiv:2303.13803, 2023.