Подход, ориентированный на данные, к классоспецифическому смещению при дополнении данных изображений: аннотация и введение

Подход, ориентированный на данные, к классоспецифическому смещению при дополнении данных изображений: аннотация и введение

2 сентября 2024 г.

Авторы:

(1) Атанасиос Ангелакис, Медицинский центр Амстердамского университета, Амстердамский университет - Центр научных данных, Амстердамский научно-исследовательский институт общественного здравоохранения, Амстердам, Нидерланды

(2) Андрей Расс, Ден Хааг, Нидерланды.

  • Аннотация и 1 Введение
  • 2. Эффект смещения класса, вызванного расширением данных, зависит от данных, регуляризации и архитектуры.
  • 2.1. Разведка надежности дополнения данных
  • 2.2 Специфика смещения, вызванного аугментацией влияния данных
  • 2.3 Добавление случайного горизонтального переворота способствует смещению, вызванному аугментацией
  • 2.4 Альтернативные архитектуры оказывают разное влияние на смещение, вызванное аугментацией
  • 3 Заключение и ограничения, а также ссылки
  • Приложения A-L

Абстрактный

Расширение данных (DA) улучшает обобщение модели в компьютерном зрении, но может вносить смещения, неравномерно влияя на точность класса. Наше исследование расширяет это исследование, изучая специфичное для класса смещение DA в различных наборах данных, включая те, которые отличаются от ImageNet, посредством случайной обрезки. Мы оценили это явление с помощью ResNet50, EfficientNetV2S и SWIN ViT, обнаружив, что в то время как остаточные модели показали схожие эффекты смещения, Vision Transformers показали большую надежность или измененную динамику. Это предполагает тонкий подход к выбору модели, подчеркивающий смягчение смещения. Мы также усовершенствовали метод «разведки надежности расширения данных» для более эффективного управления смещениями, вызванными DA, значительно сократив вычислительные требования (обучение 112 моделей вместо 1860; сокращение фактора 16,2), при этом по-прежнему фиксируя основные тенденции смещения.

1 Введение

Машинное обучение обычно определяется как нацеленное на системы, решающие или «обучающие» определенную задачу или набор задач (например, регрессию, классификацию, машинный перевод, обнаружение аномалий - (Goodfellow, Bengio, and Courville 2016a) на основе некоторых обучающих данных, что позволяет компьютерам назначать метки или прогнозировать будущие результаты без ручного программирования. Типичный случай включает в себя обучающий набор данных, который является конечным, и параметры системы оптимизируются с использованием такой техники, как градиентный спуск, с использованием некоторой меры производительности (например, «точности») для оценки во время оптимизации и на контрольном «тестовом» наборе (LeCun et al. 1998; Bishop and Nasrabadi 2006; Shalev-Shwartz and Ben-David 2014; Goodfellow, Bengio, and Courville 2016a).

В частности, задачи компьютерного зрения (например, классификация изображений) в настоящее время выполняются с помощью методов глубокого обучения (Фэн и др., 2019), таких как сверточные нейронные сети (CNN), которые неизменно высоко ценятся как передовой подход к решению таких задач (Лекун, Бенджио и др., 1995; Лекун, Кавукчуоглу и Фарабет, 2010; Вулодимос и др., 2018) благодаря их способности извлекать признаки из данных с известной топологией, подобной сетке, таких как изображения (Гудфеллоу, Бенджио и Курвилль, 2016b).

Как и любые другие системы машинного обучения, CNN могут страдать от переобучения — разрыва в производительности между тренировочными и тестовыми образцами данных, что представляет собой неспособность обобщить изученную задачу на невидимые данные (Goodfellow, Bengio и Courville 2016c). Для борьбы с этим были разработаны различные методы регуляризации для использования во время оптимизации (Tikhonov 1943; Tihonov 1963). Частным (хотя и не ограничивающимся — (Ko et al. 2015)) для задач на основе изображений является использование аугментации данных — применение определенных преобразований, таких как случайное кадрирование, растяжение и цветовой джиттер, к тренировочным данным во время итераций обучения. Такие методы практически повсеместны в задачах компьютерного зрения из-за их эффективности в качестве меры регуляризации (Shorten и Khoshgoftaar 2019).

Однако недавнее исследование Балестриеро, Боттоу и Лекуна (2022) показывает, что, несмотря на то, что аугментация данных является столь распространенным методом улучшения производительности модели, на самом деле может оказаться рискованным слепо обращаться к этой технике независимо от набора данных и подхода. Это, по-видимому, является частью более масштабного явления, касающегося тенденции параметризованных мер регуляризации жертвовать производительностью на определенных классах в пользу общей точности модели. Однако это также во многом вызвано тем фактом, что различные преобразования изображений, по-видимому, обладают различными уровнями сохранения меток (Cui, Goel и Kingsbury 2015; Taylor и Nitschke 2018) в зависимости от класса данных изображения и, как таковые, могут иметь серьезное негативное влияние на производительность модели, специфичное для класса, из-за потери меток, если применяется слишком агрессивно. Это влияние также может быть настолько глубоким, что даже повлиять на производительность ниже по потоку в случае задач трансферного обучения.

Естественной реакцией, как таковой, может быть предостережение против использования дополнения данных в качестве метода регуляризации, чтобы избежать этого. Однако на практике это может оказаться сложным, поскольку общий прирост производительности, который обеспечивает этот метод, неоспорим, и в настоящее время он используется повсеместно, с небольшим количеством альтернатив. Кроме того, как упоминалось ранее, в статье показано, что другие методы регуляризации, такие как спад веса, также могут быть подвержены этому явлению. Также важно отметить, что Балестриеро, Боттоу и Лекун (2022) утверждают, что это явление не зависит от модели для популярных сверточных нейронных сетей, основанных на остаточных блоках, таких как ResNet (He et al. 2015), DenseNet (Huang, Liu, and Weinberger 2016) и других, но не делают никаких заявлений относительно того, является ли это явление не зависящим от данных или как оно будет проявляться в сетях классификации изображений, которые принадлежат к архитектурам, основанным на существенно иных принципах, таким как Vision Transformers (Dosovitskiy et al. 2020b; Liu et al. 2021), которые используют обработку изображений на основе фрагментов и механизмы внутреннего внимания для извлечения признаков из изображений.

Наша работа следует курсу дальнейшего исследования. Чтобы сформулировать наш основной исследовательский вопрос, мы следуем принципам движения ИИ, ориентированного на данные, отстаиваемого Эндрю Нг, которое стремится систематически проектировать данные, используемые в системах обучения ИИ, и уделяет особое внимание учету несовершенств в данных реального мира. В дополнении данных дисциплина описывает такие проблемы, как пробелы в доменах, смещение данных и шум. Следование этой школе мысли приводит нас к вопросу о том, влияет ли смещение, специфичное для класса, от дополнений данных на наборы данных, отличные от Imagenet, по-другому. В частности, мы стремимся проверить, можно ли наблюдать это явление на наборах данных, которые по своей природе в разной степени отличаются от Imagenet (Deng et al. 2009), который использовался в статье Балестриеро 2022 года, и в какой степени. Чтобы дополнить эту линию проверки, еще один, вторичный исследовательский вопрос возник из, казалось бы, незначительной детали в исходном исследовании. Конкретно, мы исследуем, влияет ли добавление случайного горизонтального переворота на то, как проявляется явление смещения, специфичного для класса.

Хотя это и не наша основная задача, мы также стремимся подтвердить, насколько это явление не зависит от модели в этих новых наборах данных. Для этого сначала необходимо провести тестирование с моделью, которая имеет общие черты с ResNet50, которая была базовой для многих экспериментов в (Balestriero, Bottou и LeCun 2022). Мы выбрали EfficientNet, впервые описанную в Tan и Le (2019), которая представляет собой семейство моделей, также использующих остаточные блоки, но была разработана с помощью поиска нейронной архитектуры (Elsken, Metzen и Hutter 2019) с использованием нового метода масштабирования, который равномерно масштабирует все измерения глубины/ширины/разрешения модели с использованием простого, но высокоэффективного составного коэффициента. С этой целью мы задаемся вопросом, повлияет ли смещение, специфичное для класса, от дополнений данных в том же наборе данных на другую архитектуру Residual CNN таким же образом, как и на ResNet. Наконец, также стоит изучить эффекты совершенно другой архитектуры, как упоминалось ранее. Для этих целей мы решили использовать SWIN Transformer, который представляет собой относительно небольшой основанный на патчах преобразователь зрения, использующий новую технику смещенного окна для более эффективного вычисления механизма внутреннего внимания, присущего моделям типа Transformer (Liu et al. 2021). Наконец, мы рассматриваем, повлияет ли смещение, специфичное для класса, от дополнений данных в том же наборе данных на модель Vision Transformer таким же образом, как и на ResNet.

Эта статьядоступно на arxivпо лицензии CC BY 4.0 DEED.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE