Альтернативные архитектуры оказывают разное влияние на смещение, вызванное аугментацией
2 сентября 2024 г.
Авторы:
(1) Атанасиос Ангелакис, Медицинский центр Амстердамского университета, Амстердамский университет - Центр науки о данных, Амстердамский научно-исследовательский институт общественного здравоохранения, Амстердам, Нидерланды
(2) Андрей Расс, Гаага, НидерландыТаблица ссылок Аннотация и 1 Введение
2 Эффект смещения класса, вызванного увеличением данных, зависит от данных, регуляризации и архитектуры
21 Дополнение данных Надежность Разведка
22 Особенности влияния данных на смещение, вызванное увеличением
23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением
24 Альтернативные архитектуры оказывают разное влияние на смещение, вызванное увеличением
3 Заключение и ограничения, а также ссылки
Приложения A-L 24. Альтернативные архитектуры оказывают разное влияние на смещение, вызванное аугментацией. Проведя анализ смещения, специфичного для класса, основанный на данных, мы посвятили последнюю серию экспериментов (см. рисунок 4) более модельно-ориентированному подходу к явлению.Балестриеро, Ботту и Лекун (2022) показывают, что различные архитектуры, как правило, согласуются с режимами сохранения меток для DA(α) — другими словами, замена ResNet50 на другую модель в приведенных выше экспериментах не приведет к заметной разнице в результирующей динамике производительности, специфичной для класса, и общей динамике производительности.Чтобы подтвердить и расширить это утверждение, мы воссоздали эксперимент из раздела 2.2 на наборе данных Fashion-MNIST с использованием другой остаточной CNN, EfficientNetV2S, а также Vision Transformer в SWIN-Transformer«Малая» архитектура EfficientNetV2S (Tan and Le 2021) была выбрана, поскольку она представляет собой современную и эффективную по времени реализацию семейства моделей EfficientNet.Модель была загружена, настроена и оптимизирована с использованием процедуры, соответствующей предыдущим разделам.Прогоны EfficientNetV2S в экспериментах этого раздела, по-видимому, еще раз подтвердили первоначальное предположение о том, что явление, по-видимому, является модельно-независимым (хотя и специфичным для данных), по крайней мере для остаточного семейства сверточных нейронных сетей, поскольку различная сложность и размер архитектуры действительно оказали влияние на скорость смещения, специфичного для класса, возникающего при увеличении случайного урожая α, но общая динамика того, как развивалась производительность, была сохранена.Например, как видно на рисунках 4, ухудшение точности по классам начинает быстро происходить для «Dress» при значении α 30% для EfficientNetV2S, в отличие от 40% для ResNet50.Полный обзор различных значений α, при которых каждый класс и средняя производительность тестового набора достигают своего пика, см. в Приложении I.Поскольку в предыдущем разделе подтверждалась модельно-независимая природа явления, касающегося остаточных сверточных нейронных сетей, в последнем испытании проводилась оценка производительности SWIN Transformer, поскольку архитектура имеет принципиально иную структуру и может быть настроена для восприятия изображений с более высокой степенью детализации с помощью параметра размера фрагмента.Модель была подготовлена аналогично предыдущим разделам.Как видно на рисунке 4 и в приложении L, хотя использование модели Vision Transformer не полностью предотвратило общую тенденцию смещения, специфичную для класса, поскольку случайная обрезка применялась более агрессивно, оно значительно замедлило ее более сильное воздействие и даже заметно изменило поведение определенных классов (например, сохранив стабильность лучших показателей в «Брюках» и «Сандалиях» даже при очень высоких значениях α, в то же время замедлив быстрое ухудшение точности в «Платье» и «Пальто» до 47% и 30% с 40% и 23% соответственно), что фактически сделало комбинацию модели и набора данных более устойчивой к потенциальным негативным компромиссам, которые может принести дополнение данных.Несмотря на это, а также на схожесть вычислительных требований, его наилучшая производительность, достигнутая на практике, оказалась немного ниже, чем у ResNet50.Хотя это не противоречит полностью моделе-независимому предложению Балестриеро, Ботту и Лекуна (2022), последствия этого результата таковы, что архитектуры для задач компьютерного зрения могут и должны выбираться не только по лучшей общей производительности тестового набора, но и на основе других достоинств, таких как устойчивость к смещению и потере меток в результате агрессивного дополнения данных, особенно в случаях, когда ожидается, что такое дополнение будет применяться массово или без интенсивного мониторинга, например, в системах MLOps с регулярным переобучением.Хотя приведенный выше эксперимент действительно служит для иллюстрации потенциальных преимуществ применения альтернативных архитектур в контексте регулирования класс-специфического смещения, вызванного DA, более широкие исследования, вероятно, оправданы.Естественным направлением такого расширения может быть продолжение применения различных семейств и экземпляров архитектур нейронных сетей, классифицирующих изображения, к задачеОдним из вариантов является расширение исследования с использованием SWIN Transformer путем его тестирования на дополнительном множестве наборов данных с более широким диапазоном размеров фрагментов, поскольку концепции регулирования детализации, с которой модель учится видеть детали на изображениях, и случайного кадрирования DA концептуально смежны.После этого исследуем ту же проблему с различными Vision Transformers, такими как более легкий MobileViT (Mehta и Rastegari 2021) или семейство больших моделей ViT от Google (Zhai et al.2022) — еще один шаг в этом направленииДругим возможным направлением для изучения степени специфичности этого явления для конкретной модели является исследование того, как оно относится к капсульным сетям, впервые описанным в работе Сабура, Фросста и Хинтона (2017), поскольку архитектура, опять же, значительно отличается как от остаточных сверточных нейронных сетей, так и от преобразователей изображений и, как правило, считается менее восприимчивой к дисперсии при преобразованиях изображений.Это семейство моделей также очень требовательно к обучению и потребует больших вложений ресурсов или меньших масштабов, чем та, которую мы провели.Поскольку на момент написания статьи CapsNets представляли собой очень активную область исследований (Квабена Патрик и др.2022), мы рекомендуем это как очень ценное направление исследованияЭта статья доступна на arxiv по лицензии CC BY 40 Лицензия ДЕКЛАРААвторы: (1) Атанасиос Ангелакис, Медицинский центр Амстердамского университета, Амстердамский университет - Центр научных данных, Амстердамский научно-исследовательский институт общественного здравоохранения, Амстердам, Нидерланды (2) Андрей Расс, Гаага, НидерландыАвторы: Авторы: (1) Атанасиос Ангелакис, Медицинский центр Амстердамского университета, Амстердамский университет - Центр научных данных, Амстердамский научно-исследовательский институт общественного здравоохранения, Амстердам, Нидерланды (2) Андрей Расс, Гаага, НидерландыТаблица ссылок Аннотация и 1 Введение 2 Эффект смещения класса, вызванного расширением данных, зависит от данных, регуляризации и архитектуры 21 Дополнение данных Надежность Разведка 22 Специфика влияния данных на смещение, вызванное увеличением 23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением 24 Альтернативные архитектуры оказывают различное влияние на смещение, вызванное увеличением данных 3 Заключение и ограничения, а также ссылки Приложения A-L Аннотация и 1 Введение Аннотация и 1 Введение 2 На эффект смещения, вызванного увеличением данных и специфичного для класса, влияют данные, регуляризация и архитектура 2 На эффект смещения, вызванного увеличением данных и специфичного для класса, влияют данные, регуляризация и архитектура 21 Дополнение данных Надежность Разведка 21 Дополнение данных Надежность Разведка 22 Специфика влияния данных на смещение, вызванное увеличением 22 Специфика влияния данных на смещение, вызванное увеличением 23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением 23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением 24 Альтернативные архитектуры оказывают разное влияние на смещение, вызванное аугментацией 24 Альтернативные архитектуры оказывают разное влияние на смещение, вызванное увеличением 3 Заключение и ограничения, а также ссылки 3 Заключение и ограничения, а также ссылки Приложения A-L Приложения A-L 24. Альтернативные архитектуры оказывают разное влияние на смещение, вызванное аугментацией. Проведя анализ смещения, специфичного для класса, основанный на данных, мы посвятили последнюю серию экспериментов (см. рисунок 4) более модельно-ориентированному подходу к явлению.Балестриеро, Ботту и Лекун (2022) показывают, что различные архитектуры, как правило, согласуются с режимами сохранения меток для DA(α) — другими словами, замена ResNet50 на другую модель в приведенных выше экспериментах не приведет к заметной разнице в результирующей динамике производительности, специфичной для класса, и общей динамике производительности.Чтобы подтвердить и расширить это утверждение, мы воссоздали эксперимент из раздела 2.2 на наборе данных Fashion-MNIST с использованием другой остаточной CNN, EfficientNetV2S, а также Vision Transformer в SWIN-Transformer«Малая» архитектура EfficientNetV2S (Tan and Le 2021) была выбрана, поскольку она представляет собой современную и эффективную по времени реализацию семейства моделей EfficientNet.Модель была загружена, настроена и оптимизирована с использованием процедуры, соответствующей предыдущим разделам.Прогоны EfficientNetV2S в экспериментах этого раздела, по-видимому, еще раз подтвердили первоначальное предположение о том, что явление, по-видимому, является модельно-независимым (хотя и специфичным для данных), по крайней мере для остаточного семейства сверточных нейронных сетей, поскольку различная сложность и размер архитектуры действительно оказали влияние на скорость смещения, специфичного для класса, возникающего при увеличении случайного урожая α, но общая динамика того, как развивалась производительность, была сохранена.Например, как видно на рисунках 4, ухудшение точности по классам начинает быстро происходить для «Dress» при значении α 30% для EfficientNetV2S, в отличие от 40% для ResNet50.Полный обзор различных значений α, при которых каждый класс и средняя производительность тестового набора достигают своего пика, см. в Приложении I.Поскольку в предыдущем разделе подтверждалась модельно-независимая природа явления, касающегося остаточных сверточных нейронных сетей, в последнем испытании проводилась оценка производительности SWIN Transformer, поскольку архитектура имеет принципиально иную структуру и может быть настроена для восприятия изображений с более высокой степенью детализации с помощью параметра размера фрагмента.Модель была подготовлена аналогично предыдущим разделам.Как видно на рисунке 4 и в приложении L, хотя использование модели Vision Transformer не полностью предотвратило общую тенденцию смещения, специфичную для класса, поскольку случайная обрезка применялась более агрессивно, оно значительно замедлило ее более сильное воздействие и даже заметно изменило поведение определенных классов (например, сохранив стабильность лучших показателей в «Брюках» и «Сандалиях» даже при очень высоких значениях α, в то же время замедлив быстрое ухудшение точности в «Платье» и «Пальто» до 47% и 30% с 40% и 23% соответственно), что фактически сделало комбинацию модели и набора данных более устойчивой к потенциальным негативным компромиссам, которые может принести дополнение данных.Несмотря на это, а также на схожесть вычислительных требований, его наилучшая производительность, достигнутая на практике, оказалась немного ниже, чем у ResNet50.Хотя это не противоречит полностью моделе-независимому предложению Балестриеро, Ботту и Лекуна (2022), последствия этого результата таковы, что архитектуры для задач компьютерного зрения могут и должны выбираться не только по лучшей общей производительности тестового набора, но и на основе других достоинств, таких как устойчивость к смещению и потере меток в результате агрессивного дополнения данных, особенно в случаях, когда ожидается, что такое дополнение будет применяться массово или без интенсивного мониторинга, например, в системах MLOps с регулярным переобучением.Хотя приведенный выше эксперимент действительно служит для иллюстрации потенциальных преимуществ применения альтернативных архитектур в контексте регулирования класс-специфического смещения, вызванного DA, более широкие исследования, вероятно, оправданы.Естественным направлением такого расширения может быть продолжение применения различных семейств и экземпляров архитектур нейронных сетей, классифицирующих изображения, к задачеОдним из вариантов является расширение исследования с использованием SWIN Transformer путем его тестирования на дополнительном множестве наборов данных с более широким диапазоном размеров фрагментов, поскольку концепции регулирования детализации, с которой модель учится видеть детали на изображениях, и случайного кадрирования DA концептуально смежны.После этого исследуем ту же проблему с различными Vision Transformers, такими как более легкий MobileViT (Mehta и Rastegari 2021) или семейство больших моделей ViT от Google (Zhai et al.2022) — еще один шаг в этом направленииДругим возможным направлением для изучения степени специфичности этого явления для конкретной модели является исследование того, как оно относится к капсульным сетям, впервые описанным в работе Сабура, Фросста и Хинтона (2017), поскольку архитектура, опять же, значительно отличается как от остаточных сверточных нейронных сетей, так и от преобразователей изображений и, как правило, считается менее восприимчивой к дисперсии при преобразованиях изображений.Это семейство моделей также очень требовательно к обучению и потребует больших вложений ресурсов или меньших масштабов, чем та, которую мы провели.Поскольку на момент написания статьи CapsNets представляли собой очень активную область исследований (Квабена Патрик и др.2022), мы рекомендуем это как очень ценное направление исследованияЭта статья доступна на arxiv по лицензии CC BY 40 Лицензия ДЕКЛАРАЭта статья доступна на arxiv по лицензии CC BY 40 Лицензия ДЕКЛАРАдоступно на arxiv
Оригинал