Специфика влияния данных на смещение, вызванное аугментацией

Специфика влияния данных на смещение, вызванное аугментацией

2 сентября 2024 г.
Авторы: (1) Атанасиос Ангелакис, Медицинский центр Амстердамского университета, Амстердамский университет - Центр науки о данных, Амстердамский научно-исследовательский институт общественного здравоохранения, Амстердам, Нидерланды (2) Андрей Расс, Гаага, НидерландыТаблица ссылок Аннотация и 1 Введение 2 Эффект смещения класса, вызванного увеличением данных, зависит от данных, регуляризации и архитектуры 21 Дополнение данных Надежность Разведка 22 Особенности влияния данных на смещение, вызванное увеличением 23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением 24 Альтернативные архитектуры оказывают разное влияние на смещение, вызванное увеличением 3 Заключение и ограничения, а также ссылки Приложения A-L 22. Особенности влияния данных на смещение, вызванное аугментацией. В качестве ключевой части нашего ориентированного на данные анализа эффектов DA, ​​вызывающих смещение, подробно описанного Балестриеро, Боттоу и Лекуном (2022), мы провели серию экспериментов на основе первоначального предложения статьи по обучению и оценке набора моделей CNN при корректировке режима DA, представленного как функция некоторого параметра α между партиями запусков (результаты см. на рисунке 2).Чтобы сузить область нашего исследования, мы ограничили эксперименты в этом разделе использованием ResNet50 в качестве архитектуры выбора, с применением случайного горизонтального отражения в сочетании со случайной обрезкой с увеличением частей обучающих изображений, скрытых в качестве параметризованного дополнения.В иллюстративных целях для целей исследования были выбраны три набора данных, чтобы обеспечить относительное разнообразие контента: Fashion-MNIST, CIFAR-10 и CIFAR-100.Все три набора данных отличаются от ImageNet тем, что содержат гораздо меньшее количество изображений (< 100 тыс. против> 1 млн), количество классов (≤ 100 против> 1K) и размер изображения (< 40px против> 200 пикселей)Есть еще несколько отличий: Fashion-MNIST состоит из фотографий предметов одежды в оттенках серого, снятых сверху вниз, тогда как CIFAR-100 содержит очень мало изображений на класс, несмотря на то, что наборы данных CIFAR в остальном довольно близки по тематике к ImageNet.Несмотря на значительно меньшее количество запусков, результаты наших экспериментов наглядно иллюстрируют эффект стирания меток из-за чрезмерного применения DA и его сильную вариацию между классами, как видно, например, на примере показателей пальто, платья, рубашки и сандалий на рисунке 2, каждый из которых демонстрирует отличительную динамику показателей по мере увеличения α, и каждая категория имеет разный порог α, после которого быстро происходит потеря меток из-за случайной обрезки (что иллюстрируется быстрым падением точности тестового набора).Помимо подтверждения смещения, вызванного DA, специфичного для класса, мы наблюдаем очень четкую разницу между тремя наборами данных с точки зрения скорости, с которой этот эффект проявляется в средней производительности, а также степени разницы между отдельными классами.Это можно объяснить сложностью каждого набора данных, но также наглядно иллюстрирует, как «устойчивость» к смещению, специфичному для класса, от DA может сильно различаться между наборами данных так же, как и между классами.Хотя эта разница заметна между тремя наблюдаемыми наборами данных, она становится еще более разительной при сравнении с производительностью ImageNet в работах Балестриеро, Боттоу и Лекуна (2022), поскольку потеря меток и соответствующее снижение производительности среднего тестового набора происходят при гораздо более ранних значениях α в наших наблюдениях.Как и в работе Балестриеро, Боттоу и Лекуна (2022), средняя производительность тестового набора во всех случаях следует тенденции «увеличения, падения, выравнивания», поскольку α выталкивает все классы, кроме самых надежных, за порог полной потери меток (например, на рисунке 2 средняя точность на CIFAR-10 достигает наивысшей точки 0764 при 10% α, затем быстро снижается до α 70%, после чего стабилизируется на уровне около 021С другой стороны, график Fashion-MNIST очень наглядно иллюстрирует поведение, специфичное для класса, поскольку мы видим, что класс «Сандал» достигает своей пиковой точности 0.994 при α до 36%, в то время как «Пальто» начинает падать от 086 до почти нулевой точности уже на 10% и 43% соответственноПолный обзор различных значений α, при которых каждый класс и средняя производительность тестового набора достигают своего пика, см. в Приложениях F, G и H.Причины этой устойчивости к смещению, специфичной для набора данных, можно свести к двум причинам: общая сложность как задачи обучения (eгFashion-MNIST «прост в решении» и, таким образом, получает минимальную выгоду от регуляризации до наступления ухудшения), а также устойчивость к потере меток из заданного DA, которая может возникнуть на уровне набора данных или класса.Надежность на уровне класса можно проиллюстрировать, сравнив производительность классов «Футболка» и «Брюки» на рисунке 2, поскольку изображения, принадлежащие классу «Брюки», визуально довольно сильно отличаются от большинства других категорий даже при более высоких уровнях кадрирования, в то время как класс «Футболка» быстро теряет свою идентичность при увеличении значений α, что проявляется в видимой разнице производительности.Надежность на уровне набора данных может быть обусловлена ​​такими факторами, как тренировочные изображения, содержащие больше информации (например,г«уменьшенные» изображения объектов, больший размер изображения, а также цвет RGB) и можно увидеть, как средняя производительность наборов данных CIFAR и ее динамика относительно α сравниваются с Fashion-MNISTЗдесь перспективным направлением для исследований может стать проведение ряда подобных экспериментов с наборами данных, специально отобранными с учетом их устойчивости к определенному DA, например, с таким набором данных, как Describable Textures Dataset (Cimpoi et al.2014) состоит из изображений объектов с акцентом на текстуру, с 47 классами, такими как «плетеный», «точечный», «сотовый», «тканый».По своей природе текстуры представляют собой повторяющиеся узоры, и поэтому, по крайней мере, некоторые из представленных классов должны быть очень устойчивы к случайной обрезке.Например, если изображение имеет «клетчатую» текстуру с сеткой из квадратов 10x10, то обрезка до 89% исходного изображения все равно не скроет узор.Также стоит отметить, что среднее снижение производительности в наших экспериментах происходит более резко, чем в экспериментах Балестриеро, Боттоу и Лекуна (2022).Это могло быть вызвано различиями в реализации DA, но также могло быть вызвано различиями в используемых обучающих данных.Например, хотя наблюдатель-человек может прийти к выводу, что при кадрировании изображений с использованием того же значения α удаляется одинаковое количество информации, с точки зрения модели это не так, поскольку абсолютное количество пикселей, удаляемых в результате этой операции, зависит от исходного размера изображений.Это, в свою очередь, является еще одним возможным направлением для будущих исследований: эксперименты могут проводиться на совершенно новых наборах данных с различными размерами изображений или, в качестве альтернативы, на тех же наборах данных, которые использовались в этой работе, но с увеличенным масштабом обучающих изображений.Эта статья доступна на arxiv по лицензии CC BY 40 Лицензия ДЕКЛАРААвторы: (1) Атанасиос Ангелакис, Медицинский центр Амстердамского университета, Амстердамский университет - Центр научных данных, Амстердамский научно-исследовательский институт общественного здравоохранения, Амстердам, Нидерланды (2) Андрей Расс, Гаага, НидерландыАвторы: Авторы: (1) Атанасиос Ангелакис, Медицинский центр Амстердамского университета, Амстердамский университет - Центр научных данных, Амстердамский научно-исследовательский институт общественного здравоохранения, Амстердам, Нидерланды (2) Андрей Расс, Гаага, НидерландыТаблица ссылок Аннотация и 1 Введение 2 Эффект смещения класса, вызванного расширением данных, зависит от данных, регуляризации и архитектуры 21 Дополнение данных Надежность Разведка 22 Специфика влияния данных на смещение, вызванное увеличением 23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением 24 Альтернативные архитектуры оказывают различное влияние на смещение, вызванное увеличением данных 3 Заключение и ограничения, а также ссылки Приложения A-L Аннотация и 1 Введение Аннотация и 1 Введение 2 На эффект смещения, вызванного увеличением данных и специфичного для класса, влияют данные, регуляризация и архитектура 2 На эффект смещения, вызванного увеличением данных и специфичного для класса, влияют данные, регуляризация и архитектура 21 Дополнение данных Надежность Разведка 21 Дополнение данных Надежность Разведка 22 Специфика влияния данных на смещение, вызванное увеличением 22 Специфика влияния данных на смещение, вызванное увеличением 23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением 23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением 24 Альтернативные архитектуры оказывают разное влияние на смещение, вызванное аугментацией 24 Альтернативные архитектуры оказывают разное влияние на смещение, вызванное увеличением 3 Заключение и ограничения, а также ссылки 3 Заключение и ограничения, а также ссылки Приложения A-L Приложения A-L 22. Особенности влияния данных на смещение, вызванное аугментацией. В качестве ключевой части нашего ориентированного на данные анализа эффектов DA, ​​вызывающих смещение, подробно описанного Балестриеро, Боттоу и Лекуном (2022), мы провели серию экспериментов на основе первоначального предложения статьи по обучению и оценке набора моделей CNN при корректировке режима DA, представленного как функция некоторого параметра α между партиями запусков (результаты см. на рисунке 2).Чтобы сузить область нашего исследования, мы ограничили эксперименты в этом разделе использованием ResNet50 в качестве архитектуры выбора, с применением случайного горизонтального отражения в сочетании со случайной обрезкой с увеличением частей обучающих изображений, скрытых в качестве параметризованного дополнения.В иллюстративных целях для целей исследования были выбраны три набора данных, чтобы обеспечить относительное разнообразие контента: Fashion-MNIST, CIFAR-10 и CIFAR-100.Все три набора данных отличаются от ImageNet тем, что содержат гораздо меньшее количество изображений (< 100 тыс. против> 1 млн), количество классов (≤ 100 против> 1K) и размер изображения (< 40px против> 200 пикселей)Есть еще несколько отличий: Fashion-MNIST состоит из фотографий предметов одежды в оттенках серого, снятых сверху вниз, тогда как CIFAR-100 содержит очень мало изображений на класс, несмотря на то, что наборы данных CIFAR в остальном довольно близки по тематике к ImageNet.Несмотря на значительно меньшее количество запусков, результаты наших экспериментов наглядно иллюстрируют эффект стирания меток из-за чрезмерного применения DA и его сильную вариацию между классами, как видно, например, на примере показателей пальто, платья, рубашки и сандалий на рисунке 2, каждый из которых демонстрирует отличительную динамику показателей по мере увеличения α, и каждая категория имеет разный порог α, после которого быстро происходит потеря меток из-за случайной обрезки (что иллюстрируется быстрым падением точности тестового набора).Помимо подтверждения смещения, вызванного DA, специфичного для класса, мы наблюдаем очень четкую разницу между тремя наборами данных с точки зрения скорости, с которой этот эффект проявляется в средней производительности, а также степени разницы между отдельными классами.Это можно объяснить сложностью каждого набора данных, но также наглядно иллюстрирует, как «устойчивость» к смещению, специфичному для класса, от DA может сильно различаться между наборами данных так же, как и между классами.Хотя эта разница заметна между тремя наблюдаемыми наборами данных, она становится еще более разительной при сравнении с производительностью ImageNet в работах Балестриеро, Боттоу и Лекуна (2022), поскольку потеря меток и соответствующее снижение производительности среднего тестового набора происходят при гораздо более ранних значениях α в наших наблюдениях.Как и в работе Балестриеро, Боттоу и Лекуна (2022), средняя производительность тестового набора во всех случаях следует тенденции «увеличения, падения, выравнивания», поскольку α выталкивает все классы, кроме самых надежных, за порог полной потери меток (например, на рисунке 2 средняя точность на CIFAR-10 достигает наивысшей точки 0764 при 10% α, затем быстро снижается до α 70%, после чего стабилизируется на уровне около 021С другой стороны, график Fashion-MNIST очень наглядно иллюстрирует поведение, специфичное для класса, поскольку мы видим, что класс «Сандал» достигает своей пиковой точности 0.994 при α до 36%, в то время как «Пальто» начинает падать от 086 до почти нулевой точности уже на 10% и 43% соответственноПолный обзор различных значений α, при которых каждый класс и средняя производительность тестового набора достигают своего пика, см. в Приложениях F, G и H.Причины этой устойчивости к смещению, специфичной для набора данных, можно свести к двум причинам: общая сложность как задачи обучения (eгFashion-MNIST «прост в решении» и, таким образом, получает минимальную выгоду от регуляризации до наступления ухудшения), а также устойчивость к потере меток из заданного DA, которая может возникнуть на уровне набора данных или класса.Надежность на уровне класса можно проиллюстрировать, сравнив производительность классов «Футболка» и «Брюки» на рисунке 2, поскольку изображения, принадлежащие классу «Брюки», визуально довольно сильно отличаются от большинства других категорий даже при более высоких уровнях кадрирования, в то время как класс «Футболка» быстро теряет свою идентичность при увеличении значений α, что проявляется в видимой разнице производительности.Надежность на уровне набора данных может быть обусловлена ​​такими факторами, как тренировочные изображения, содержащие больше информации (например,г«уменьшенные» изображения объектов, больший размер изображения, а также цвет RGB) и можно увидеть, как средняя производительность наборов данных CIFAR и ее динамика относительно α сравниваются с Fashion-MNISTЗдесь перспективным направлением для исследований может стать проведение ряда подобных экспериментов с наборами данных, специально отобранными с учетом их устойчивости к определенному DA, например, с таким набором данных, как Describable Textures Dataset (Cimpoi et al.2014) состоит из изображений объектов с акцентом на текстуру, с 47 классами, такими как «плетеный», «точечный», «сотовый», «тканый».По своей природе текстуры представляют собой повторяющиеся узоры, и поэтому, по крайней мере, некоторые из представленных классов должны быть очень устойчивы к случайной обрезке.Например, если изображение имеет «клетчатую» текстуру с сеткой из квадратов 10x10, то обрезка до 89% исходного изображения все равно не скроет узор.Также стоит отметить, что среднее снижение производительности в наших экспериментах происходит более резко, чем в экспериментах Балестриеро, Боттоу и Лекуна (2022).Это могло быть вызвано различиями в реализации DA, но также могло быть вызвано различиями в используемых обучающих данных.Например, хотя наблюдатель-человек может прийти к выводу, что при кадрировании изображений с использованием того же значения α удаляется одинаковое количество информации, с точки зрения модели это не так, поскольку абсолютное количество пикселей, удаляемых в результате этой операции, зависит от исходного размера изображений.Это, в свою очередь, является еще одним возможным направлением для будущих исследований: эксперименты могут проводиться на совершенно новых наборах данных с различными размерами изображений или, в качестве альтернативы, на тех же наборах данных, которые использовались в этой работе, но с увеличенным масштабом обучающих изображений.Эта статья доступна на arxiv по лицензии CC BY 40 Лицензия ДЕКЛАРАЭта статья доступна на arxiv по лицензии CC BY 40 Лицензия ДЕКЛАРАдоступно на arxiv
Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE