PolyThrottle: Энергоэффективный анализ нейронных сетей на периферийных устройствах: экспериментальные результаты

PolyThrottle: Энергоэффективный анализ нейронных сетей на периферийных устройствах: экспериментальные результаты

3 апреля 2024 г.

:::информация Этот документ доступен на arxiv под лицензией CC BY-NC-ND 4.0 DEED.

Авторы:

(1) Минхао Ян, Университет Висконсин-Мэдисон;

(2) Хонги Ван, Университет Карнеги-Меллон;

(3) Шиварам Венкатараман, myan@cs.wisc.edu.

:::

Таблица ссылок

B РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТА

В этом разделе мы дополнительно продемонстрируем компромисс между частотой памяти и максимальной частотой графического процессора, представив массив результатов. Эти результаты подчеркивают интересное наблюдение о том, что модели энергопотребления различаются для одной и той же модели, работающей на разных устройствах. Более того, даже для пары устройств одной модели на картину оптимизации может существенно влиять размер партии. Это подчеркивает сложность оптимизации энергопотребления и необходимость адаптивной структуры, которая могла бы принять во внимание эти факторы. На рисунках 6–12 показаны модели энергопотребления EfficientNet и Bert на Jetson TX2 и Orin при различных размерах партий. В таблице 7 показаны оптимальная частота процессора и соответствующее снижение энергопотребления при предварительной обработке изображений.

Figure 6. This figure shows per query energy cost as we vary the GPU frequency and memory frequency for Bert at FP16 on JetsonTX2 versus varying Memory and GPU frequency with batch size fixed at 1.

Figure 7. This figure shows per query energy cost as we vary the GPU frequency and memory frequency for Bert at FP32 on JetsonTX2 versus varying Memory and GPU frequency with batch size fixed at 1.

Figure 8. This figure shows per query energy cost as we vary the GPU frequency and memory frequency for Bert at FP16 on Jetson TX2 versus varying Memory and GPU frequency with batch size fixed at 8.

Figure 9. This figure shows per query energy cost as we vary the GPU frequency and memory frequency for EfficientNet B4 at FP16 on Jetson TX2 versus varying Memory and GPU frequency with batch size fixed at 16.

Figure 10. This figure shows per query energy cost as we vary the GPU frequency and memory frequency for EfficientNet B7 at FP16 on Jetson TX2 versus varying Memory and GPU frequency with batch size fixed at 16.

Figure 11. This figure shows per query energy cost as we vary the GPU frequency and memory frequency for EfficientNet B7 at FP16 on Jetson Orin versus varying Memory and GPU frequency with batch size fixed at 8.

Figure 12. This figure shows per query energy cost as we vary the GPU frequency and memory frequency for EfficientNet B7 at FP16 on Jetson Orin versus varying Memory and GPU frequency with batch size fixed at 1.

Figure 13. This figure shows per query energy cost as we vary the GPU frequency and memory frequency for EfficientNet B4 at FP16 on Jetson Orin versus varying Memory and GPU frequency with batch size fixed at 8.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE