Класс-специфическое смещение в дополнении данных изображений: разведка надежности дополнений данных

Класс-специфическое смещение в дополнении данных изображений: разведка надежности дополнений данных

2 сентября 2024 г.

Авторы:

(1) Атанасиос Ангелакис, Медицинский центр Амстердамского университета, Амстердамский университет - Центр научных данных, Амстердамский научно-исследовательский институт общественного здравоохранения, Амстердам, Нидерланды

(2) Андрей Расс, Ден Хааг, Нидерланды.

  • Аннотация и 1 Введение
  • 2. Эффект смещения класса, вызванного расширением данных, зависит от данных, регуляризации и архитектуры.
  • 2.1. Разведка надежности дополнения данных
  • 2.2 Специфика смещения, вызванного аугментацией влияния данных
  • 2.3 Добавление случайного горизонтального переворота способствует смещению, вызванному аугментацией
  • 2.4 Альтернативные архитектуры оказывают разное влияние на смещение, вызванное аугментацией
  • 3 Заключение и ограничения, а также ссылки
  • Приложения A-L

2.1. Разведка надежности дополнения данных

В этом разделе мы стремимся формализовать процедуру «голого минимума», необходимую для принятия и воспроизведения экспериментальной структуры для оценки компромисса между общей производительностью модели, интенсивностью DA и классоспецифическим смещением, описывая особенности практической реализации наших экспериментов. Цель этого — служить руководством для применения результатов Балестриеро, Боттоу и Лекуна (2022) более эффективным способом, который лучше подходит для практических или «деловых» сред, а также заложить основу для получения результатов, которые будут обсуждаться в дальнейших разделах этой главы.

Мы предлагаем следующую процедуру, далее именуемую «разведка надежности дополнения данных»: во-первых, для заданного набора данных и режима DA необходимо выбрать набор архитектур компьютерного зрения. После этого модель обучается на подмножестве данных в нескольких учебных прогонах, так что каждый прогон характеризуется возрастающей интенсивностью дополнения (представленной как функция α). Затем производительность тестового набора (для каждого класса и в целом) измеряется для каждого значения α, так что можно наблюдать динамику производительности по мере постепенного увеличения α. Затем эта процедура повторяется от начала до конца, при этом производительность усредняется для каждого значения α, чтобы сгладить любые колебания, возникающие из-за стохастической природы процесса обучения. Детализация (выраженная через количество и диапазон шагов α и количество прогонов на значение α) должна поддерживаться на необходимом минимуме, чтобы можно было достичь желаемой ясности, необходимой для наблюдения тенденций в динамике производительности при различных значениях α. После этого исследования, если будут установлены «диапазоны интереса» в α, рекомендуется выполнить описанную процедуру еще раз с более высокой степенью детализации в пределах этих диапазонов.

Эксперименты, подробно описанные в дальнейших разделах этой главы, включали процедуру DA Robustness Scouting, выполненную на трех наборах данных - Fashion-MNIST, CIFAR-10 и CIFAR-100 (Xiao, Rasul и Vollgraf 2017; Krizhevsky, Hinton и др. 2009). Была оценена Random Cropping DA вместе со Random Horizontal Flip в качестве фиксированного дополнительного дополнения. Для наших целей предварительная настройка модели и эксперименты были реализованы с использованием библиотек Tensorflow и Keras для Python. Наш подход был основан на лучших методах оптимизации для обучения сверточных нейронных сетей, описанных в Goodfellow, Bengio и Courville (2016d). Перед запуском эксперимента заданная модель многократно обучается с нуля на заданном наборе данных с набором различных перестановок параметров скорости обучения, максимальной эпохи и размера партии. Это было сделано для того, чтобы получить базовую модель «наилучшего случая» — ту, которая не использовала никакой явной регуляризации (чтобы не скрывать влияние регуляризации во время эксперимента), обеспечивала наилучшую возможную производительность на тестовом наборе и была наименее переобученной. Поскольку настройка размера партии может считаться формой регуляризации, к размеру партии была применена только минимальная настройка, чтобы гарантировать достаточную стабильность и производительность модели. Для оценки переобучения использовалось подмножество проверки (10% от обучающего набора — использовалось общее значение). Важно отметить, что определение «достаточного» очень специфично для набора данных, поскольку некоторые наборы данных гораздо легче «решаются» такими моделями, как ResNet50 — как с точки зрения ошибки обучения, так и обобщения. Обычно регуляризация используется именно для того, чтобы помочь улучшить обобщение, но в случае этого исследования это может привести к риску скрытия наблюдаемого явления. Таким образом, было принято решение «установить», что «наилучшая» базовая производительность на некоторых наборах данных будет считаться ниже среднего при прочих равных условиях.

Архитектура ResNet50 была напрямую загружена из зоопарка моделей компьютерного зрения Tensorflow без весов Imagenet, поскольку модели обучались бы с нуля. Balestriero, Bottou и LeCun (2022) не упоминают используемый оптимизатор, поэтому на всех этапах настройки и эксперимента использовался оптимизатор Adam (Kingma и Ba 2014). Каждая комбинация модели и набора данных была настроена на набор скоростей обучения, количества эпох и размеров партий, выбранных с целью получения наилучшей точности проверки и тестового набора (с использованием разреженной категориальной метрики точности из Keras), при этом следует помнить о тенденции моделей к переобучению.

Для соответствующего эксперимента была выбрана «маленькая» архитектура EfficientNetV2S (Tan and Le 2021), поскольку она является современной и эффективной по времени реализацией семейства моделей EfficientNet. Модель была загружена, настроена и оптимизирована в соответствии с вышеописанной процедурой.

Архитектура SWIN Transformer была реализована на основе существующей документации Keras, которая была вдохновлена ​​оригинальным подходом, использованным в Liu et al. (2021), обрабатывающим данные изображений с использованием патчей 2x2 (около 1/16 изображения на патч, аналогично Dosovitskiy et al. (2020a)) и использующим размер окна внимания 2 и размер окна сдвига 1. Однако этот подход изначально включал встроенные методы регуляризации, которые отклонялись от нашей базовой структуры эксперимента, такие как случайное кадрирование и переворачивание, уже встроенные в модель, сглаживание меток и оптимизатор AdamW (Loshchilov and Hutter 2017), который отличается развязанным затуханием веса. Все они были исключены из базовой модели, используемой при настройке и дальнейших экспериментах, при сохранении основной архитектуры.

Поскольку это широко распространено и обычно используется в качестве метода дополнения данных, конкретная процедура случайной обрезки, которая должна использоваться, не была четко определена в тексте Balestriero, Bottou и LeCun (2022). Таким образом, для целей данного исследования дополнение данных случайной обрезкой было определено как применение преобразования «случайной обрезки» из библиотеки обработки изображений Tensorflow к обучающему набору данных на каждой итерации, при этом результирующая высота и ширина изображения рассчитывались с использованием следующей формулы:

новый_размер_изображения = округлить (размер_изображения ∗ (1 − α))

Где α — процент или дробь, представляющая часть изображения, которая будет пропущена, а round() — Python по умолчанию. Отступы не использовались. После обрезки изображения были увеличены до исходного размера, чтобы они по-прежнему соответствовали требованиям входного слоя 32x32px, которые требовала обученная на них модель. Кроме того, эти размеры также означают, что тестовые изображения не нужно обрезать до нового размера, что было бы более вероятным сценарием на практике.

Наконец, для того, чтобы учесть существующие ограничения в доступных вычислениях, гранулярность экспериментов была уменьшена с 20 моделей на преобразование Random Crop alpha до 4, а также была скорректирована α с шагом 3-4%, а не оценивалась каждый 1%. Чтобы гарантировать сохранение целостности результатов, точные цифры для этого снижения гранулярности были мотивированы нахождением минимального количества запусков, которое соответствовало незначительным предельным отклонениям в результирующей средней точности теста на дополнительный запуск, сохраняя ожидаемую тенденцию. Новая гранулярность аугментационной альфа была определена на основе наблюдения, что выделенные в исходной статье тенденции точности все еще сохранятся, если к ним будет применено это сглаживание, если не станут более простыми для обнаружения в силу устранения существующих колебаний. Кроме того, использование более мелких шагов Random Crop α даст те же измерения в обучающих изображениях после обрезки из-за задействованного округления и небольшого размера изображений, что приведет к многократным итерациям, которые будут практически идентичны, тем самым создавая избыточность.

Кроме того, в случае всех проведенных экспериментов использовалась реализация обратного вызова Keras Early Stopping с 10%-ным подмножеством проверки, отделенным от основного подмножества обучения. Это популярный метод глубокого обучения, который отслеживает некоторую метрику после каждой эпохи обучения (обычно это потеря или выбранная метрика точности на подмножестве проверки) и прекращает обучение, если оно не работает лучше предыдущей оценки в ряде эпох, описанных параметром «терпения». Этот алгоритм также обычно включает необязательное восстановление весов модели до эпохи с наилучшими показателями. Early Stopping обычно признается методом регуляризации, однако он считается ненавязчивым, поскольку не требует почти никаких изменений в базовой процедуре обучения, и его также можно рассматривать как «очень эффективный алгоритм выбора гиперпараметров» (Goodfellow, Bengio и Courville 2016d). Поскольку эта работа касается эффектов регуляризации, было принято решение, что Early Stopping следует использовать осторожно, с минимальным эффектом, несмотря на его ненавязчивую природу.

Эта статьядоступно на arxivпо лицензии CC BY 4.0 DEED.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE