
Настройка пикселей, а не душа: как атомы фильтров.
1 июля 2025 г.Таблица ссылок
Аннотация и 1. Введение
- Предварительный
- Методы
- Эксперименты
- Связанные работы
- Заключение и ссылки
- Детали экспериментов
- Дополнительные экспериментальные результаты
5 Связанных работ
5.1 Предварительная тренировка и тонкая настройка
Стандартная практика предварительной тренировки и точной настройки [13,17,60,70] влечет за собой модели, первоначально проходящие предварительные наборы данных, такие как ImageNet-21K, BookCorpus и Common Crawl [46, 51, 79]. Впоследствии эти модели точно настроены для повышения их сходимости и производительности по конкретным задачам [12].
В сфере эффективной настройки параметров [78] были предложены различные подходы. Lora [16] тонкие матрицы с более низким рейтингом на каждом слое, чтобы представлять обновления веса. Подход к адаптеру [15] вводит небольшие модули между слоями и уменьшает параметры, только настраивая эти адаптеры [3,19,28,74]. Настройка визуальной подсказки (VPT) [18, 58] представила ограниченное количество обучаемых параметров для оптимизации, сохраняя при этом замороженную основу. SSF [30] предлагает масштабирование и смещение глубоких признаков, извлеченных предварительно обученной моделью.
5.2 Модельные архитектуры
По сравнению с моделями, основанными на трансформаторах [5, 31, 61, 73], в течение длительного времени в качестве основного модуля для извлечения функций изображения в задачах компьютерного зрения использовалась функции изображения в задачах компьютерного зрения. При индуктивном предыдущем моделях, основанных на свертке, требуется меньше учебных изображений и вычислительных ресурсов для достижения хорошего обобщения. Архитектуры, основанные на свертке, были в значительной степени изучены [13, 32, 57] и обнаружили несколько приложений, такие как извлечение признаков [48], генерация изображений [20, 59], супер-резолутон [68] и имета. Многочисленные исследования исследуют интеграцию сверточных методов с трансформаторами зрения, чтобы повысить их производительность [10,47]. Параметр-эффективная тонкая настройка в нижестоящих задачах имеет решающее значение и требует дальнейших исследований при использовании предварительно обученных крупномасштабных моделей на основе свертков.
5.3 Дискриминационные и генеративные задачи
Дискриминационные и генеративные задачи представляют фундаментальные концепции в машинном обучении. Дискриминационные модели [11, 13, 39, 80] предназначены для различения различных экземпляров данных, в то время как генеративные модели [20, 48, 59, 68] используются для создания новых экземпляров данных. Дискриминационные модели были применены к классификациям изображений [13, 32, 57], обнаружению объекта [39, 80] и семантической сегментации [11]. Генеративные модели были тщательно изучены для синтеза изображений, включая вариационный аутокодер [22,48,63,65], диффузию [4,49,59] и авторегрессивные модели [37, 42, 64].
В этом исследовании наше основное внимание уделяется реализации эффективных параметров методов создания для двух задач: классификация изображений с использованием Convnext [32] и синтеза изображений с использованием стабильной диффузии [49].
6 Заключение
В этой работе мы предложили метод точной настройки, эффективный для параметров, для больших сверточных моделей путем формулирования сверточных слоев над подпространством фильтра. Атомы тонкого настраивания фильтра, состоящие из небольшого количества параметров и не изменившиеся коэффициенты атома, особенно эффективны с точки зрения параметров. Он успешно поддерживает возможности предварительно обученных моделей, избегая при этом переосмысления до последующих задач. Затем мы сформулируем простой, но эффективный способ достижения подпространства фильтров из переполнения путем разложения каждого атома фильтра на другой набор атомов фильтра, тем самым расширяя пространство параметров, доступное для точной настройки по мере необходимости. Наш подход продемонстрировал эффективность в различных конфигурациях как по дискриминационным, так и по генеративным задачам.
LimitationsПолем Наш метод, который концентрируется на моделях настройки в подпространстве фильтров, особенно выгоден для конверта. Несмотря на то, что он может быть естественным образом распространяться на линейные слои посредством соответствующих математических составов, весь потенциал нашего подхода при применении к линейным слоям остается недооцененным.
Ссылки
Бек, А., Тебол, М.: Алгоритм быстрого итеративного усадки для линейных обратных проблем. Siam Journal of Imaging Sciences с. 183–202 (2009) 4
Браун, Т., Манн, Б., Райдер, Н., Суббия, М., Каплан, Дж. Д., Дхаривал, П., Нилакантан, А., Шьям, П., Сасстри, Г., Аскетл, А. и др.: Языковые модели являются учащимися. Достижения в системах обработки нейронной информации (2020) 1
Chen, S., Ge, C., Tong, Z., Wang, J., Song, Y., Wang, J., Luo, P.: Adaptformer: адаптирование трансформаторов зрения для масштабируемого визуального распознавания. Достижения в системах обработки нейронной информации (2022) 1, 13
Dhariwal, P., Nichol, A.: Диффузионные модели бьют Gans по синтезу изображения. Достижения в системах обработки нейронной информации (2021) 14
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: Изображение стоит 16x16 слов: трансформаторы для распознавания изображения в масштабе. В кн.: Международная конференция по обучению представления (2020) 1, 13
Edalati, A., Tahaei, M., Kobyzev, I., Nia, V.P., Clark, J.J., Rezagholizadeh, M.: Krona: Параметр эффективная настройка с адаптером Kronecker. Arxiv Preprint arxiv: 2212.10650 (2022) 7
Eveniou, A., Pontil, M.: Многозадачное обучение функции. Достижения в области систем обработки нейронной информации (2007) 3
Фридман, Д., Диенг, А.Б.: Оценка Венди: показатель оценки разнообразия для машинного обучения. Arxiv Preprint arxiv: 2210.02410 (2022) 10
Gildenblat, J., участники: библиотека Pytorch для методов CAM.https: // github.com/jacobgil/pytorch-grad-cam (2021) 5
Guo, J., Han, K., Wu, H., Tang, Y., Chen, X., Wang, Y., Xu, C.: CMT: сверточные нейронные сети встречаются с трансформаторами зрения. В кн.: Труды конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов (2022) 14
Hao, S., Zhou, Y., Guo, Y.: Краткий обзор семантической сегментации с глубоким обучением. Нейрокомпьютинг стр. 302–321 (2020) 14
Он, К., Гиршик Р., Доллр, П. В: Материалы Международной конференции IEEE/CVF по компьютерному видению (2019) 13
He, K., Zhang, X., Ren, S., Sun, J.: Глубокое остаточное обучение для распознавания изображений. В: Труды Конференции IEEE по компьютерному зрению и распознаванию образцов (2016) 1, 3, 6, 9, 13, 14, 12
Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S.: Gans, обученный двумя правилами обновления в масштабе времени, сходится к локальному равновесию Нэша. Достижения в области систем обработки нейронной информации (2017) 10
Houlsby, N., Giurgiu, A., Jastrzebski, S., Morrone, B., de laroussilhe, Q., Gesmundo, A., Attariyan, M., Gelly, S.: Параметр-эффективное обучение передачи для NLP. В кн.: Международная конференция по машинному обучению (2019) 13
Hu, E.J., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., Chen, W., et al.: Lora: низкая адаптация крупных языковых моделей. В кн.: Международная конференция по обучению представления (2021) 1, 2, 4, 10, 11, 12, 13
Huang, G., Liu, Z., van der Maaten, L., Weinberger, K.Q.: Густо связанные сверточные сети. В кн.: Труды Конференции IEEE по компьютерному зрению и распознаванию образцов (2017) 13
Jia, M., Tang, L., Chen, B.C., Cardie, C., Phishipe, S., Hariharan, B., Lim, S.N.: Визуальная подсказка настройки. В: Европейская конференция по компьютерному видению (2022) 1, 13
Карими Махабади, Р., Хендерсон, Дж., Рудер, С.: Компактер: Эффективные слои с низким уровнем гиперкомплекса. Достижения в системах обработки нейронной информации (2021) 13
Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., Aila, T.: Анализ и улучшение качества изображения Stylegan. В кн.: Труды конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов (2020) 14
Хан, А., Сохаил, А., Захура, У., Куреши, А.С.: Обзор недавних архитектур глубоких сверточных нейронных сетей. Обзор искусственного интеллекта (2020)
Kingma, D., Salimans, T., Poole, B., Ho, J.: Вариационные диффузионные модели. Достижения в системах обработки нейронной информации (2021) 14
Kingma, D.P., Ba, J.: Адам: метод стохастической оптимизации. В кн.: Международная конференция по обучению представителей (2015) 9
Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A.C., Lo, W.Y., Dollár, P., Girshick, R.: Сегмент что угодно. Arxiv: 2304.02643 (2023) 1
Крижевский, А., Хинтон, Дж.: Изучение нескольких слоев функций из крошечных изображений. Доктор философии Тезис, Университет Торонто (2009) 9
Кумар А., Дауме III, H.: Группирование и совпадение учебных задач в многозадачном обучении. Международная конференция по машинному обучению (2012) 3
Кумари, Н., Чжан Б., Чжан Р., Шехтман, Э., Чжу, Дж.Ю.: Многоконцептная настройка диффузии текста на изображение. В кн.: Труды конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов (2023) 10
Li, X.L., Liang, P.: Prefix-Tuning: оптимизация непрерывных подсказок для поколения. В: Труды Ассоциации вычислительной лингвистики (2021) 13
Li, Y., Gu, S., Gool, L.V., Timofte, R.: Основная база обучения для сверточной нейронной сети сжатия. В: Материалы Международной конференции IEEE/CVF по компьютерному видению (2019) 2, 3
Lian, D., Zhou, D., Feng, J., Wang, X.: Масштабирование и смещение ваших функций: новая базовая линия для эффективной настройки модели. Достижения в системах обработки нейронной информации (2022) 1, 13, 3
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Suin Transformer: иерархический трансформатор зрения с использованием смещенных окон. В: Материалы Международной конференции IEEE/CVF по компьютерному видению (2021) 13
Liu, Z., Mao, H., Wu, C.Y., Feichtenhofer, C., Darrell, T., Xie, S.: Convnet для 2020 -х годов. В кн.: Труды конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов (2022) 3, 9, 14
Лошчилов, И., Хаттер, Ф.: Регулярная регуляризация распада веса. В кн.: Международная конференция по обучению представителей (2018) 10, 12, 3
Mallat, S.G., Zhang, Z.: Соответствующие занятия с частотными словарями. Транзакции IEEE по обработке сигналов стр. 3397–3415 (1993) 4
Maurer, A., Pontil, M., Romera-Paredes, B.: Разреженное кодирование для многозадачного и переноса обучения. В кн.: Международная конференция по машинному обучению (2013) 3
Miao, Z., Wang, Z., Chen, W., Qiu, Q.: Постоянное обучение с обменом атома фильтра. В кн.: Международная конференция по обучению представления (2021) 2, 3
Van Den Oord, A., Kalchbrenner, N., Espeholt, L., Vinysals, O., Graves, A. и др.: Условное генерация изображения с декодерами Pixelcnn. Достижения в области систем обработки нейронной информации (2016) 14
Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., Fernandez, P., Haziza, D., Massa, F., El-Nouby, A., et al.: Dinov2: изучение надежных визуальных особенностей без надзора. Arxiv Preprint arxiv: 2304.07193 (2023) 10
Padilla, R., Netto, S.L., Da Silva, E.A.: Обследование показателей производительности для алгоритмов объекта. В: Международная конференция 2020 г. по системам, сигналам и обработке изображений (IWSSIP) (2020) 14
Papyan, V., Romano, Y., Elad, M.: Разрученные нейронные сети проанализированы с помощью сверточного разреженного кодирования. Журнал исследований машинного обучения 18, 2887–2938 (2017) 2, 3
Parisi, G.I., Kemker, R., Part, J.L., Kanan, C., Wermter, S.: Непрерывное обучение на протяжении всей жизни с нейронными сетями: обзор. Нейронные сети (2019) 2
Пармар, Н., Васвани, А., Ускорет, Дж., Кайзер, Л., Шейзер, Н., Ку, А., Тран, Д.: Трансформер Изображения. В кн.: Международная конференция по машинному обучению (2018) 14
Qiu, Q., Cheng, X., Sapiro, G., Calderbank, R.: DCFNet: глубокая нейронная сеть с разложенными сверточными фильтрами. В кн.: Международная конференция по машинному обучению (2018) 2, 3
Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Передаваемые визуальные модели обучения от надзора естественного языка. В кн.: Международная конференция по машинному обучению (2021) 10
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I. и др.
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P.J.: Изучение пределов обучения передачи с помощью единого трансформатора текста в текст. Журнал исследований машинного обучения (2020) 1, 13
Raghu, M., Unterthiner, T., Kornblith, S., Zhang, C., Dosovitskiy, A.: Трансформеры видения видят как сверточные нейронные сети? Достижения в системах обработки нейронной информации (2021) 14
Разави А., Ван Ден Оорд, А., Виньялс, О. Достижения в области систем обработки нейронной информации (2019) 14
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: Синтез изображения высокого разрешения с скрытыми диффузионными моделями. В: Труды конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов (2022) 1, 3, 9, 11, 14, 6, 7, 7
Romera-Paredes, B., Aung, H., Bianchi-Berthouze, N., Pontil, M.: Многолинейное многозадачное обучение. В кн.: Международная конференция по машинному обучению (2013) 3
РУССАКОВСКИЙ, О., Дэн Дж., Су, Х., Краузе, Дж., Сэтеш, С., Ма, С., Хуанг, З., Карпати, А., Хосла, А., Бернштейн, М., Берг, А.С., Фей-Фей, Л. Международный журнал Computer Vision (IJCV) (2015) 1, 9, 13
Rusu, A.A., Rabinowitz, N.C., Desjardins, G., Soyer, H., Kirkpatrick, J., Kavukcuoglu, K., Pascanu, R., Hadsell, R.: Прогрессивные нейронные сети. Симпозиум глубокого обучения NIPS (2016) 2
Santosa, F., Symes, W.W.: Линейная инверсия сейсмограмм отражений с ограниченными полосами. Siam Journal по научным и статистическим вычислениям с. 1307–1330 (1986) 4
Schuhmann, C., Beaumont, R., Vencu, R., Gordon, C., Wightman, R., Cherti, M., Coombes, T., Katta, A., Mullis, C., Wortsman, M., et al.: Laion-5B: открытый высокоаправый набор данных для обучения моделям изображений. Достижения в системах обработки нейронной информации (2022)
Shen, Z., Liu, Z., Qin, J., Savvides, M., Cheng, K.T.: Частичный лучше, чем все: повторное посещение стратегии тонкой настройки для нескольких выстрелов. В: Труды конференции AAAI по искусственному интеллекту (2021) 1
Сильвер, Д., Хуанг А., Мэддисон, С.Дж., Гез, А., Сифре, Л., Ван Ден Дриссше, Г., Шритвизер, Дж., Антоноглу, И., Паннеершельвам, В., Ланктот, М. и др.: Овладевание игрой в Гу с глубокими сетью и поиском деревьев. Nature (2016) 1
Simonyan, K., Zisserman, A.: Очень глубокие сверточные сети для крупномасштабного распознавания изображений. В кн.: Международная конференция по обучению представителей (2015) 14
Sohn, K., Chang, H., Lezama, J., Polania, L., Zhang, H., Hao, Y., Essa, I., Jiang L. В кн.: Труды конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов (2023) 13
Song, Y., Durkan, C., Murray, I., Ermon, S.: Максимальное вероятность обучения диффузионных моделей на основе баллов. Достижения в системах обработки нейронной информации (2021) 14
Tan, M., Le, Q.: Efficiousnet: переосмысление масштабирования модели для сверточных нейронных сетей. В кн.: Международная конференция по машинному обучению (2019) 13
Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A., Jégou, H.: Трансформированные трансформаторы изображений и дистилляция обработки обработки. В кн.: Международная конференция по машинному обучению (2021) 13
Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F. и др.: Llama: открытые и эффективные языковые модели фундамента. Arxiv Preprint arxiv: 2302.13971 (2023) 1
Vahdat, A., Kautz, J.: Nvae: глубокий иерархический вариационный автоэкодер. Достижения в системах обработки нейронной информации (2020) 14
Van Den Oord, A., Kalchbrenner, N., Kavukcuoglu, K.: Pixel повторяющиеся нейронные сети. В кн.: Международная конференция по машинному обучению (2016) 14
Ван Ден Оорд, А., Виньялс, О. и др.: Нейронное дискретное обучение. Достижения в системах обработки нейронной информации (2017) 14
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser,., Polosukhin, I.: Внимание - все, что вам нужно. Достижения в области систем обработки нейронной информации (2017) 1
Wah, C., Branson, S., Welder, P., Perona, P., Persomie, S.: Cub-200-2011. Технический Член палаты представителей CNS-TR-2011-001, Калифорнийский технологический институт (2011) 5, 12
Wang, Z., Chen, J., Hoi, S.C.: Глубокое обучение для изображения Супер разрешение: опрос. IEEE Транзакции по анализу шаблонов и интеллектую машин (2020) 14
Xie, E., Yao, L., Shi, H., Liu, Z., Zhou, D., Liu, Z., Li, J., Li, Z.: Difffit: разблокировка передачи больших диффузионных моделей посредством простой мелкой настройки параметров. Arxiv Preprint arxiv: 2304.06648 (2023) 10, 11, 12
Xie, S., Girshick, R., Dollár, P., Tu, Z., He, K.: Совокупные остаточные преобразования для глубоких нейронных сетей. В кн.: Труды Конференции IEEE по компьютерному зрению и распознаванию образцов (2017) 13
Yeh, S.Y., Hsieh, Y.G., Gao, Z., Yang, B.B., OH, G., Gong, Y.: Навигация Textto-Image Настройка: из точной настройки Lycoris до модельной оценки. В кн.: Международная конференция по обучению представления (2023) 1, 7, 10, 11, 12
Yoon, J., Kim, S., Yang, E., Hwang, S.J.: Масштабируемое и постоянное обучение порядок с разложением параметров аддитивного параметра. В кн.: Международная конференция по обучению представителей (2019) 2
Yu, W., Luo, M., Zhou, P., Si, C., Zhou, Y., Wang, X., Feng, J., Yan, S.: Metaformer на самом деле то, что вам нужно для зрения. В кн.: Труды конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов (2022) 13
Zaken, E.B., Goldberg, Y., Ravfogel, S.: Bitfit: простое параметры, эффективное для создания для трансформатора для маскированных языковых моделей на основе трансформатора. В: Материалы 60 -го ежегодного собрания Ассоциации по вычислительной лингвистике (2022) 1, 10, 11, 12, 13
Zhai, M., Chen, L., Mori, G.: Hyper-Lifelonggan: масштабируемое обучение на протяжении всей жизни для образования. В кн.: Труды конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов (2021) 2
Zhai, X., Puigcerver, J., Kolesnikov, A., Ruyssen, P., Riquelme, C., Lucic, M., Jolonga, J., Pinto, A.S., Neumann, M., Dosovitskiy, A., et al.: Крупномасштабное исследование представления обучения с визуальным адаптацией. Arxiv Preprint arxiv: 1910.04867 (2019) 8, 10, 12
Zhang, Y., Yang, Q.: Опрос по многозадачному обучению. IEEE транзакции по знаниям и разработке данных (2021) 3
Zhou, K., Yang, J., Loy, C.C., Liu, Z.: Обучение моделям на языке зрения. Международный журнал компьютерного видения (2022) 13
Zhu, Y., Kiros R., Zemel R., Salakhutdinov R., Urtasun R., Torralba, A., Fidler, S.: Совместные книги и фильмы: к истории, похожим на истории
Объяснения, просмотрев фильмы и чтение книг. В: Материалы Международной конференции IEEE по компьютерному видению (2015) 1, 13
Zou, Z., Chen, K., Shi, Z., Guo, Y., Ye, J.: Обнаружение объекта за 20 лет: опрос. Материалы IEEE (2023) 14
Авторы:
(1) Вэй Чен, Университет Пердью, Индиана, США (chen2732@purdue.edu);
(2) Zichen Miao, Университет Пердью, Индиана, США (miaoz@purdue.edu);
(3) Qiang Qiu, Университет Пердью, Индиана, США (qqiu@purdue.edu).
Эта статья есть
Оригинал