Гипертрансформатор: Краткое содержание и введение

Гипертрансформатор: Краткое содержание и введение

17 апреля 2024 г.

:::информация Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Андрей Жмогинов, Google Research & {azhmogin,sandler,mxv}@google.com;

(2) Марк Сэндлер, Google Research & {azhmogin,sandler,mxv}@google.com;

(3) Макс Владимиров, Google Research & {azhmogin,sandler,mxv}@google.com.

:::

Таблица ссылок

АННОТАЦИЯ

В этой работе мы предлагаем HyperTransformer, модель на основе трансформатора для обучения методом нескольких шагов, которая генерирует веса сверточной нейронной сети (CNN) непосредственно из вспомогательных выборок. Поскольку зависимость небольшой сгенерированной модели CNN от конкретной задачи кодируется моделью преобразователя высокой мощности, мы эффективно отделяем сложность большого пространства задач от сложности отдельных задач. Наш метод особенно эффективен для небольших целевых архитектур CNN, где обучение фиксированному универсальному, независимому от задачи внедрению не является оптимальным, и лучшая производительность достигается, когда информация о задаче может модулировать все параметры модели. Для более крупных моделей мы обнаруживаем, что создание только последнего слоя позволяет нам получать конкурентоспособные или лучшие результаты, чем те, которые получены с помощью современных методов, при этом обеспечивая сквозную дифференцируемость. Наконец, мы расширяем наш подход до полуконтролируемого режима, используя немаркированные образцы в наборе поддержки и дополнительно улучшая производительность при небольшом количестве выстрелов.

1 ВВЕДЕНИЕ

При обучении в несколько этапов традиционная парадигма машинного обучения, заключающаяся в подгонке параметрической модели к обучающим данным, доводится до предела крайней нехватки данных, когда целые категории вводятся только с одним или несколькими примерами. Общий подход к решению этой проблемы использует данные обучения для определения параметров φ учащегося aφ, который с учетом небольшой партии примеров для конкретной задачи (называемой набором поддержки) может решить эту задачу на невидимых данных (называемых набором запросов).< /п>

Одно широкое семейство методов классификации изображений с несколькими кадрами, часто называемое обучением на основе показателей, основано на предварительной тренировке внедрения eφ(·), а затем использовании некоторого расстояния в пространстве внедрения для маркировки образцов запроса на основе их близости к известным помеченным вспомогательным образцам. . Эти методы доказали свою эффективность на многочисленных тестах (обзор и ссылки см. в Tian et al. (2020)), однако возможности обучаемого ограничены возможностями самой архитектуры, поскольку эти методы пытаются создать универсальную функцию внедрения. /п>

С другой стороны, методы, основанные на оптимизации, такие как основополагающий алгоритм MAML (Finn et al., 2017), могут точно настроить встраивание eφ, выполняя дополнительные обновления SGD для всех параметров φ модели, создающей его. Это частично устраняет ограничения методов, основанных на метриках, путем изучения нового внедрения для каждой новой задачи. Однако во многих из этих методов все знания, извлеченные в ходе обучения на различных задачах и описывающие aφ обучаемого, все равно должны «укладываться» в то же количество параметров, что и сама модель. Такое ограничение становится более серьезным по мере того, как целевые модели становятся меньше, а набор задач увеличивается.

В этой статье мы предлагаем новый подход к обучению с помощью нескольких шагов, который позволяет нам отделить сложность пространства задач от сложности отдельных задач. Основная идея заключается в использовании модели трансформатора (Васвани и др., 2017), которая с учетом эпизода задачи из нескольких шагов генерирует всю модель вывода, создавая все веса модели за один проход. Это позволяет нам кодировать тонкости доступных обучающих данных внутри модели преобразователя, при этом создавая специализированные крошечные модели, способные решать отдельные задачи. Уменьшив размер сгенерированной модели и перенеся вычислительные затраты на генератор весов на основе преобразователя, мы можем снизить стоимость вывода на новых изображениях. Это может снизить общую стоимость вычислений в тех случаях, когда задачи меняются нечасто и, следовательно, генератор весов используется лишь время от времени.

Начнем с наблюдения, что механизм самообслуживания хорошо подходит в качестве основного механизма для генератора весов CNN с несколькими кадрами. В отличие от более ранних подходов на основе CNN (Zhao et al., 2020) или BiLSTM (Ravi & Larochelle, 2017), модель ванильного преобразователя [1] инвариантна к перестановкам выборки и может обрабатывать несбалансированные наборы данных с различным количеством образцы по категориям. Кроме того, мы демонстрируем, что однослойная модель самообслуживания может воспроизводить упрощенный алгоритм обучения на основе градиентного спуска. Используя модель преобразователя для генерации слоя логитов поверх традиционно изученного внедрения, мы достигаем конкурентоспособных результатов в нескольких распространенных тестах обучения с несколькими попытками. Варьируя параметры трансформатора, мы показываем, что эту высокую производительность можно объяснить дополнительной мощностью модели трансформатора, которая отделяет ее сложность от сложности сгенерированной CNN.

Затем мы расширяем наш метод для поддержки немаркированных образцов, используя специальный входной токен, который мы объединяем со всеми немаркированными примерами, кодируя тот факт, что их классы неизвестны. В наших экспериментах, описанных в разделе 4.3, мы наблюдаем, что добавление немеченых образцов может значительно улучшить производительность модели. Интересно, что полная выгода от использования дополнительных данных реализуется только в том случае, если преобразователи используют два или более слоев. Этот результат согласуется с базовым механизмом, описанным в разделе 3.2, где мы показываем, что модель преобразователя, имеющая как минимум два слоя, может кодировать алгоритм в стиле ближайшего соседа, который связывает немаркированные выборки с аналогичными помеченными примерами. По сути, обучая генератор весов создавать модели CNN с максимально возможной производительностью для набора запросов, мы учим преобразователь использовать немаркированные выборки без необходимости вручную вводить дополнительные цели оптимизации. Наш подход можно было бы дополнительно обобщить для обработки частично известных выборочных меток (когда известно, что истинная метка принадлежит некоторому набору классов), но это будет предметом будущей работы.

Наконец, мы исследуем возможность нашего подхода генерировать все веса модели CNN, корректируя как уровень логитов, так и все промежуточные уровни, производящие встраивание выборки. Мы показываем, что, создавая все слои, мы можем улучшить точность обучения и тестирования [2] моделей CNN ниже определенного размера. Но, что интересно, одной только генерации слоя логитов оказывается достаточно при достижении определенного порогового размера модели (см. рисунок 3). Ожидается, что этот порог будет зависеть от вариативности и сложности учебных задач.

Помимо возможности отделить сложность распределения задач от сложности отдельных задач, еще одним важным преимуществом нашего метода является то, что он позволяет проводить обучение непрерывно, не полагаясь на сложную оптимизацию вложенных градиентов и другие подходы метаобучения. где количество шагов развертывания велико. В отличие от этих методов, наша оптимизация выполняется за один цикл обновления параметров преобразователя (и экстрактора функций).

Статья построена следующим образом. В разделе 2 мы обсуждаем постановку задачи обучения в несколько этапов и освещаем связанную с ней работу. В разделе 3 представлен наш подход, обсуждается мотивация выбора модели, основанной на внимании, и показано, как наш подход можно использовать для мета-обучения с полуконтролируемыми алгоритмами обучения. В разделе 4 мы обсуждаем результаты наших экспериментов. Наконец, в разделе 5 мы приводим заключительные замечания.


[1] без маскировки внимания или позиционной кодировки

[2] Как обсуждалось в разделе 4.2, HT с высокой точностью обучения может быть практическим подходом к персонализации модели при условии, что реальные задачи возникают из распределения, наблюдаемого во время обучения.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE