Подход, ориентированный на данные, к классоспецифическому смещению при дополнении данных изображений: заключение и ограничение

Подход, ориентированный на данные, к классоспецифическому смещению при дополнении данных изображений: заключение и ограничение

2 сентября 2024 г.
Авторы: (1) Атанасиос Ангелакис, Медицинский центр Амстердамского университета, Амстердамский университет - Центр науки о данных, Амстердамский научно-исследовательский институт общественного здравоохранения, Амстердам, Нидерланды (2) Андрей Расс, Гаага, НидерландыТаблица ссылок Аннотация и 1 Введение 2 Эффект смещения класса, вызванного увеличением данных, зависит от данных, регуляризации и архитектуры 21 Дополнение данных Надежность Разведка 22 Особенности влияния данных на смещение, вызванное увеличением 23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением 24 Альтернативные архитектуры оказывают переменное влияние на смещение, вызванное аугментацией 3 Заключение и ограничения, а также ссылки Приложения A-L 3 Заключение и ограничения Это исследование расширяет анализ, начатый Балестриеро, Боттоу и Лекуном (2022), сосредоточившись на влиянии дополнений данных, в частности случайной обрезки, на смещение, специфичное для класса, в моделях классификации изображенийНаш вклад многогранен и отвечает потребности в более тонком понимании эффектов DA в различных контекстах.Мы эмпирически демонстрируем, что вызванные DA класс-специфические смещения свойственны не только ImageNet, но также влияют на наборы данных с различными характеристиками, такие как Fashion-MNIST и CIFAR.Эти наборы данных, содержащие значительно меньше изображений меньшего размера, некоторые из которых монохромны, обеспечивают более широкую картину для оценки влияния DA.Это изменение характеристик набора данных позволило нам изучить, как предубеждения, вызванные DA, проявляются в средах, заметно отличающихся от ImageNet, тем самым расширяя область понимания последствий DA.Включая дополнительные архитектуры глубоких нейронных сетей, такие как EfficientNetV2S (остаточная модель) и SWIN Vision Transformer (неостаточная модель на основе патчей), мы углубляемся в независимое от модели предположение о смещении, вызванном DA-специфическим классом.Наши результаты показывают, что хотя это явление распространяется на остаточные модели, альтернативные архитектуры, такие как Vision Transformers, демонстрируют различную степень устойчивости или измененную динамику в ответ на DA, что предполагает потенциальную стратегию смягчения класс-специфических предубеждений посредством архитектурного выбора.Мы предлагаем подробную методологию «разведки надежности дополнения данных», совершенствуя первоначальную концепцию, предложенную Балестриеро, Боттоу и Лекуном (2022).Этот пошаговый подход направлен на более эффективное, учитывающее ресурсы исследование эффектов DA, ​​облегчая выявление и смягчение класс-специфических смещений на этапе проектирования модели.Применяя эту методологию, мы не только подтверждаем предыдущие выводы, но и представляем практическую основу для будущих исследований и усилий по разработке моделей.Наше исследование, подчеркивая вышеупомянутые вклады, признает ограничения его объема, касающиеся разнообразия рассмотренных архитектур и наборов данных.Будущая работа будет направлена ​​на изучение более широкого спектра моделей компьютерного зрения и характеристик данных, что может открыть новые возможности понимания нюансов влияния DA на производительность и смещение модели.Целью этого начинания является не только углубление нашего понимания влияния DA в различных условиях, но и содействие разработке более справедливых и эффективных систем компьютерного зрения.Ссылки Балестриеро, Рэндалл, Леон Ботту и Янн Лекун2022Эффекты регуляризации и дополнения данных зависят от классаВ книге «Достижения в области нейронных систем обработки информации», том 35, страницы 37878–37891, Curran Associates, Inc.Бишоп, Кристофер М. и Нассер М. Насрабади2006Распознавание образов и машинное обучение, том 4СпрингерЧимпой, М., СМаджи, яКоккинос, С.Мохамед, и А.Ведальди2014Описание текстур в дикой природеВ трудах конференции IEEEпо компьютерному зрению и распознаванию образов (CVPR)Цуй, Сяодун, Вайбхава Гоэль и Брайан Кингсбери2015Дополнение данных для глубокого нейронного сетевого акустического моделированияIEEE/ACM TransАудио, речь и языкПроц, 23(9):1469–1477Deng, Jia, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei2009Imagenet: крупномасштабная иерархическая база данных изображенийВ 2009 году на конференции IEEE по компьютерному зрению и распознаванию образов, страницы 248–255, IeeeДосовицкий, Алексей, Лукас Байер, Александр Колесников, Дирк Вайсенборн, Сяохуа Чжай, Томас Унтертинер, Мостафа Дегани, Маттиас Миндерер, Георг Хейгольд, Сильвен Гелли, Якоб Ушкорейт и Нил Хоулсби2020aИзображение стоит 16x16 слов: Трансформеры для распознавания изображений в масштабеCoRR, абс/201011929Досовицкий, Алексей, Лукас Байер, Александр Колесников, Дирк Вайсенборн, Сяохуа Чжай, Томас Унтертинер, Мостафа Дегани, Матиас Миндерер, Георг Хейгольд, Сильвен Гелли и др.2020бИзображение стоит 16x16 слов: Трансформеры для распознавания изображений в масштабепрепринт arXiv arXiv:201011929Элскен, Томас, Ян Хендрик Метцен и Фрэнк Хаттер2019Поиск нейронной архитектуры: обзорЖурнал исследований машинного обучения, 20(1):1997–2017Feng, Xin, Youni Jiang, Xuejiao Yang, Ming Du, and Xin Li2019Алгоритмы компьютерного зрения и их аппаратная реализация: обзорИнтеграция, 69:309–320Гудфеллоу, Ян, Йошуа Бенджио и Аарон Курвилль2016аГлубокое обучение, глава 5Издательство Массачусетского технологического институтаhttp://wwwdeeplearningкнигаоргГудфеллоу, Ян, Йошуа Бенджио и Аарон Курвилль2016бГлубокое обучение, глава 9Издательство Массачусетского технологического институтаhttp://wwwdeeplearningкнигаоргГудфеллоу, Ян, Йошуа Бенджио и Аарон Курвилль2016cГлубокое обучение, глава 6Издательство Массачусетского технологического институтаhttp://wwwdeeplearningкнигаоргГудфеллоу, Ян, Йошуа Бенджио и Аарон Курвилль2016гГлубокое обучение, глава 7Издательство Массачусетского технологического институтаhttp://wwwdeeplearningкнигаоргHe, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun2015Глубокое остаточное обучениеРаспознавание изображений, 7Huang, Gao, Zhuang Liu, and Kilian QВайнбергер2016Плотносвязанные сверточные сетиCoRR, абс/160806993Кингма, Дидерик П. и Джимми Ба2014Адам: Метод стохастической оптимизациипрепринт arXiv arXiv:14126980Ко, Том, Виджаядитья Педдинти, Дэниел Пови и Санджив Худанпур2015Аудиоусиление для распознавания речиНа Шестнадцатой ежегодной конференции международной ассоциации речевой коммуникацииКрижевский, Алекс, Джеффри Хинтон и др.2009Изучение нескольких слоев признаков на основе крошечных изображенийКвабена Патрик, Менса, Адебайо Феликс Адекойя, Айидзо Абра Майти и Баагьире И.Эдвард2022Капсульные сети – обзорЖурнал Университета короля Сауда – Компьютерные и информационные науки, 34(1):1295–1310LeCun, Yann, Yoshua Bengio, et al1995Сверточные сети для изображений, речи и временных рядовСправочник по теории мозга и нейронным сетям, 3361(10):1995ЛеКун, Янн, Леон Ботту, Йошуа Бенжио и Патрик Хаффнер1998Градиентное обучение, применяемое для распознавания документовТруды IEEE, 86(11):2278–2324ЛеКун, Янн, Корай Кавукчуоглу и Клеман Фарабет2010Сверточные сети и их применение в области зренияВ трудах международного симпозиума IEEE по схемам и системам 2010 г., страницы 253–256, IEEELiu, Ze, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo2021Swin transformer: Иерархический преобразователь зрения с использованием смещенных оконВ трудах Международной конференции IEEE/CVF по компьютерному зрению (ICCV), страницы 10012–10022Лощилов, Илья и Фрэнк Хаттер2017Регуляризация несвязанного распада весапрепринт arXiv arXiv:171105101Мехта, Сачин и Мохаммад Растегари2021Mobilevit: легкий, универсальный и удобный для мобильных устройств визуальный преобразовательCoRR, абс/211002178Сабур, Сара, Николас Фросс и Джеффри Э. Хинтон2017Динамическая маршрутизация между капсуламиДостижения в области нейронных систем обработки информации, 30Шалев-Шварц, Шай и Шай Бен-Давид2014Понимание машинного обучения: от теории к алгоритмамИздательство Кембриджского университетаШортен, Коннор и Таги М. Хошгофтаар2019Опрос по дополнению данных изображений для глубокого обученияЖурнал больших данных, 6(1):1–48Tan, Mingxing and Quoc Le2019EfficientNet: переосмысление масштабирования модели для сверточных нейронных сетейВ Трудах 36-й Международной конференции по машинному обучению, том 97 Трудов исследований машинного обучения, страницы 6105–6114, PMLRTan, Mingxing and Quoc VЛе2021Efficientnetv2: Меньшие модели и более быстрое обучениеCoRR, абс/210400298Тейлор, Люк и Джефф Нитшке2018Улучшение глубокого обучения с помощью универсального дополнения данныхВ серии симпозиумов IEEE 2018 года по вычислительному интеллекту (SSCI), страницы 1542–1547, IEEEТихонов, Андрей Николаевич1963Решение некорректно поставленных задач и метод регуляризацииСоветская математика, 4:1035–1038Тихонов, Андрей Николаевич1943Об устойчивости обратных задачВ ДоклАкадНаук СССР, том 39, страницы 195–198Вулодимос, Афанасиос, Николаос Дуламис, Анастасиос Дуламис, Эфтихиос Протопападакис и др.2018Глубокое обучение для компьютерного зрения: краткий обзорВычислительный интеллект и нейронаука, 2018Сяо, Хан, Кашиф Расул и Роланд Воллграф2017Fashion-mnist: новый набор данных изображений для сравнительного анализа алгоритмов машинного обученияпрепринт arXiv arXiv:170807747Чжай, Сяохуа, Александр Колесников, Нил Хоулсби и Лукас Бейер2022Масштабирование преобразователей зренияВ трудах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR), страницы 12104–12113Эта статья доступна на arxiv по лицензии CC BY 40 Лицензия ДЕКЛАРААвторы: (1) Атанасиос Ангелакис, Медицинский центр Амстердамского университета, Амстердамский университет - Центр научных данных, Амстердамский научно-исследовательский институт общественного здравоохранения, Амстердам, Нидерланды (2) Андрей Расс, Гаага, НидерландыАвторы: Авторы: (1) Атанасиос Ангелакис, Медицинский центр Амстердамского университета, Амстердамский университет - Центр научных данных, Амстердамский научно-исследовательский институт общественного здравоохранения, Амстердам, Нидерланды (2) Андрей Расс, Гаага, НидерландыТаблица ссылок Аннотация и 1 Введение 2 Эффект смещения класса, вызванного расширением данных, зависит от данных, регуляризации и архитектуры 21 Дополнение данных Надежность Разведка 22 Специфика влияния данных на смещение, вызванное увеличением 23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением 24 Альтернативные архитектуры оказывают различное влияние на смещение, вызванное увеличением данных 3 Заключение и ограничения, а также ссылки Приложения A-L Аннотация и 1 Введение Аннотация и 1 Введение 2 На эффект смещения, вызванного увеличением данных и специфичного для класса, влияют данные, регуляризация и архитектура 2 На эффект смещения, вызванного увеличением данных и специфичного для класса, влияют данные, регуляризация и архитектура 21 Дополнение данных Надежность Разведка 21 Дополнение данных Надежность Разведка 22 Специфика влияния данных на смещение, вызванное увеличением 22 Специфика влияния данных на смещение, вызванное увеличением 23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением 23 Добавление случайного горизонтального переворота способствует смещению, вызванному увеличением 24 Альтернативные архитектуры оказывают разное влияние на смещение, вызванное аугментацией 24 Альтернативные архитектуры оказывают разное влияние на смещение, вызванное аугментацией 3 Заключение и ограничения, а также ссылки 3 Заключение и ограничения, а также ссылки Приложения A-L Приложения A-L 3 Заключение и ограничения Это исследование расширяет анализ, начатый Балестриеро, Боттоу и Лекуном (2022), уделяя особое внимание влиянию дополнений данных, в частности случайной обрезки, на смещение, специфичное для класса, в моделях классификации изображений.Наш вклад многогранен и отвечает потребности в более тонком понимании эффектов DA в различных контекстах.Мы эмпирически демонстрируем, что вызванные DA класс-специфические смещения свойственны не только ImageNet, но также влияют на наборы данных с различными характеристиками, такие как Fashion-MNIST и CIFAR.Эти наборы данных, содержащие значительно меньше изображений меньшего размера, некоторые из которых монохромны, обеспечивают более широкую картину для оценки влияния DA.Это изменение характеристик набора данных позволило нам изучить, как предубеждения, вызванные DA, проявляются в средах, заметно отличающихся от ImageNet, тем самым расширяя область понимания последствий DA.Включая дополнительные архитектуры глубоких нейронных сетей, такие как EfficientNetV2S (остаточная модель) и SWIN Vision Transformer (неостаточная модель на основе патчей), мы углубляемся в независимое от модели предположение о смещении, вызванном DA-специфическим классом.Наши результаты показывают, что хотя это явление распространяется на остаточные модели, альтернативные архитектуры, такие как Vision Transformers, демонстрируют различную степень устойчивости или измененную динамику в ответ на DA, что предполагает потенциальную стратегию смягчения класс-специфических предубеждений посредством архитектурного выбора.Мы предлагаем подробную методологию «разведки надежности дополнения данных», совершенствуя первоначальную концепцию, предложенную Балестриеро, Боттоу и Лекуном (2022).Этот пошаговый подход направлен на более эффективное, учитывающее ресурсы исследование эффектов DA, ​​облегчая выявление и смягчение класс-специфических смещений на этапе проектирования модели.Применяя эту методологию, мы не только подтверждаем предыдущие выводы, но и представляем практическую основу для будущих исследований и усилий по разработке моделей.Наше исследование, подчеркивая вышеупомянутые вклады, признает ограничения его объема, касающиеся разнообразия рассмотренных архитектур и наборов данных.Будущая работа будет направлена ​​на изучение более широкого спектра моделей компьютерного зрения и характеристик данных, что может открыть новые возможности понимания нюансов влияния DA на производительность и смещение модели.Целью этого начинания является не только углубление нашего понимания влияния DA в различных условиях, но и содействие разработке более справедливых и эффективных систем компьютерного зрения.Ссылки Балестриеро, Рэндалл, Леон Ботту и Янн Лекун2022Эффекты регуляризации и дополнения данных зависят от классаВ книге «Достижения в области нейронных систем обработки информации», том 35, страницы 37878–37891, Curran Associates, Inc.Бишоп, Кристофер М. и Нассер М. Насрабади2006Распознавание образов и машинное обучение, том 4СпрингерЧимпой, М., СМаджи, яКоккинос, С.Мохамед, и А.Ведальди2014Описание текстур в дикой природеВ трудах конференции IEEEпо компьютерному зрению и распознаванию образов (CVPR)Цуй, Сяодун, Вайбхава Гоэль и Брайан Кингсбери2015Дополнение данных для глубокого нейронного сетевого акустического моделированияIEEE/ACM TransАудио, речь и языкПроц, 23(9):1469–1477Deng, Jia, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei2009Imagenet: крупномасштабная иерархическая база данных изображенийВ 2009 году на конференции IEEE по компьютерному зрению и распознаванию образов, страницы 248–255, IeeeДосовицкий, Алексей, Лукас Байер, Александр Колесников, Дирк Вайсенборн, Сяохуа Чжай, Томас Унтертинер, Мостафа Дегани, Маттиас Миндерер, Георг Хейгольд, Сильвен Гелли, Якоб Ушкорейт и Нил Хоулсби2020aИзображение стоит 16x16 слов: Трансформеры для распознавания изображений в масштабеCoRR, абс/201011929Досовицкий, Алексей, Лукас Байер, Александр Колесников, Дирк Вайсенборн, Сяохуа Чжай, Томас Унтертинер, Мостафа Дегани, Матиас Миндерер, Георг Хейгольд, Сильвен Гелли и др.2020бИзображение стоит 16x16 слов: Трансформеры для распознавания изображений в масштабепрепринт arXiv arXiv:201011929Элскен, Томас, Ян Хендрик Метцен и Фрэнк Хаттер2019Поиск нейронной архитектуры: обзорЖурнал исследований машинного обучения, 20(1):1997–2017Feng, Xin, Youni Jiang, Xuejiao Yang, Ming Du, and Xin Li2019Алгоритмы компьютерного зрения и их аппаратная реализация: обзорИнтеграция, 69:309–320Гудфеллоу, Ян, Йошуа Бенджио и Аарон Курвилль2016аГлубокое обучение, глава 5Издательство Массачусетского технологического институтаhttp://wwwdeeplearningкнигаоргГудфеллоу, Ян, Йошуа Бенджио и Аарон Курвилль2016бГлубокое обучение, глава 9Издательство Массачусетского технологического институтаhttp://wwwdeeplearningкнигаоргГудфеллоу, Ян, Йошуа Бенджио и Аарон Курвилль2016cГлубокое обучение, глава 6Издательство Массачусетского технологического институтаhttp://wwwdeeplearningкнигаоргГудфеллоу, Ян, Йошуа Бенджио и Аарон Курвилль2016гГлубокое обучение, глава 7Издательство Массачусетского технологического институтаhttp://wwwdeeplearningкнигаоргHe, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun2015Глубокое остаточное обучениеРаспознавание изображений, 7Huang, Gao, Zhuang Liu, and Kilian QВайнбергер2016Плотносвязанные сверточные сетиCoRR, абс/160806993Кингма, Дидерик П. и Джимми Ба2014Адам: Метод стохастической оптимизациипрепринт arXiv arXiv:14126980Ко, Том, Виджаядитья Педдинти, Дэниел Пови и Санджив Худанпур2015Аудиоусиление для распознавания речиНа Шестнадцатой ежегодной конференции международной ассоциации речевой коммуникацииКрижевский, Алекс, Джеффри Хинтон и др.2009Изучение нескольких слоев признаков на основе крошечных изображенийКвабена Патрик, Менса, Адебайо Феликс Адекойя, Айидзо Абра Майти и Баагьире И.Эдвард2022Капсульные сети – обзорЖурнал Университета короля Сауда – Компьютерные и информационные науки, 34(1):1295–1310LeCun, Yann, Yoshua Bengio, et al1995Сверточные сети для изображений, речи и временных рядовСправочник по теории мозга и нейронным сетям, 3361(10):1995ЛеКун, Янн, Леон Ботту, Йошуа Бенжио и Патрик Хаффнер1998Градиентное обучение, применяемое для распознавания документовТруды IEEE, 86(11):2278–2324ЛеКун, Янн, Корай Кавукчуоглу и Клеман Фарабет2010Сверточные сети и их применение в области зренияВ трудах международного симпозиума IEEE по схемам и системам 2010 г., страницы 253–256, IEEELiu, Ze, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo2021Swin transformer: Иерархический преобразователь зрения с использованием смещенных оконВ трудах Международной конференции IEEE/CVF по компьютерному зрению (ICCV), страницы 10012–10022Лощилов, Илья и Фрэнк Хаттер2017Регуляризация несвязанного распада весапрепринт arXiv arXiv:171105101Мехта, Сачин и Мохаммад Растегари2021Mobilevit: легкий, универсальный и удобный для мобильных устройств визуальный преобразовательCoRR, абс/211002178Сабур, Сара, Николас Фросс и Джеффри Э. Хинтон2017Динамическая маршрутизация между капсуламиДостижения в области нейронных систем обработки информации, 30Шалев-Шварц, Шай и Шай Бен-Давид2014Понимание машинного обучения: от теории к алгоритмамИздательство Кембриджского университетаШортен, Коннор и Таги М. Хошгофтаар2019Опрос по дополнению данных изображений для глубокого обученияЖурнал больших данных, 6(1):1–48Tan, Mingxing and Quoc Le2019EfficientNet: переосмысление масштабирования модели для сверточных нейронных сетейВ Трудах 36-й Международной конференции по машинному обучению, том 97 Трудов исследований машинного обучения, страницы 6105–6114, PMLRTan, Mingxing and Quoc VЛе2021Efficientnetv2: Меньшие модели и более быстрое обучениеCoRR, абс/210400298Тейлор, Люк и Джефф Нитшке2018Улучшение глубокого обучения с помощью универсального дополнения данныхВ серии симпозиумов IEEE 2018 года по вычислительному интеллекту (SSCI), страницы 1542–1547, IEEEТихонов, Андрей Николаевич1963Решение некорректно поставленных задач и метод регуляризацииСоветская математика, 4:1035–1038Тихонов, Андрей Николаевич1943Об устойчивости обратных задачВ ДоклАкадНаук СССР, том 39, страницы 195–198Вулодимос, Афанасиос, Николаос Дуламис, Анастасиос Дуламис, Эфтихиос Протопападакис и др.2018Глубокое обучение для компьютерного зрения: краткий обзорВычислительный интеллект и нейронаука, 2018Сяо, Хан, Кашиф Расул и Роланд Воллграф2017Fashion-mnist: новый набор данных изображений для сравнительного анализа алгоритмов машинного обученияпрепринт arXiv arXiv:170807747Чжай, Сяохуа, Александр Колесников, Нил Хоулсби и Лукас Бейер2022Масштабирование преобразователей зренияВ трудах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR), страницы 12104–12113Эта статья доступна на arxiv по лицензии CC BY 40 Лицензия ДЕКЛАРАЭта статья доступна на arxiv по лицензии CC BY 40 Лицензия ДЕКЛАРАдоступно на arxiv
Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE