Ваш следующий аниматор может быть алгоритмом

Ваш следующий аниматор может быть алгоритмом

16 июня 2025 г.

Аннотация и 1 введение

2 Связанная работа

2.1 Синтез программы

2.2 Инструменты поддержки творчества для анимации

2.3 Денежные инструменты для проектирования

3 Формирующие шаги

4 Система логовой и 4.1 вход

4.2 Предварительная визуальная информация

4.3 Визуально обоснованный синтез кода

5 Оценки

5.1 Оценка: ремонт программы

5.2 Методология

5.3 Выводы

6 Оценка с новичками

7 Обсуждение и 7.1. Отрываны от шаблонов

7.2 Создание кода вокруг визуальных эффектов

7.3 Ограничения

8 Заключение и ссылки

2.1 Синтез программы

Синтез программы, формальное название для генерации кода,-это идея, что, учитывая спецификацию проблемы высокого уровня, пространство поиска потенциальных программных решений может автоматически искать, чтобы найти доказываемое правильное решение [30]. В то время как синтез программы возник в области формальных методов и логических решателей SAT, он сильно развивался с момента введения машинного обучения и крупных языковых моделей.

Состояние современных моделей для генерации кода включают GPT-4, Alphacode, Codegen, Code Llama и Gemini [42, 47, 49, 52, 57]. Эти модели, как правило, принимают на естественный язык спецификацию проблемы (например, Docstrings), тестовые примеры и примеры входов и выходов. Эти модели показали замечательную способность к возможности решать сложные задачи программирования на уровне среднего человеческого программиста [42]. Пробуждение для генерации кода обычно отличается от традиционных взаимодействий по подъеме, поскольку код имеет основные абстрактные синтаксические представления, в то время как подсказка естественного языка может быть более декларативным и сосредоточенным на концептуальных намерениях [26]. Преобразование намерения пользователя в код часто включает промежуточные представления, такие как царапины [48] и цепочка-размышления / цепочки кода, для получения и реализации технической спецификации [23, 41].

В то время как модели генерации кодов в основном были связаны с задачами программирования на основе текста (например, задачи LeetCode), они также показали, что они способны выполнять визуальные задачи. Vipergpt продемонстрировал, что модель генерации кода может использоваться для составления функций компьютерного зрения и логического модуля в планы кода, которые получают ответы на визуальные запросы [56]. Системы HCI также показали, что модели генерации кодов могут быть интегрированы в творческие рабочие процессы и оказывать интерактивную помощь [17, 58]. Spellburst продемонстрировал, как LLMS может быть направлено на то, чтобы помочь конечным пользователям исследовать творческое кодирование, форму генеративного искусства, написав подсказки на естественном языке и объединяя основные представления кода [17]. BlenderGPT-это плагин с открытым исходным кодом, который позволяет пользователям переводить подсказку в действия в Blender, включающую создание сцены, генерацию шейдеров и рендеринг [6]. Design2Code недавно проиллюстрировал, что программирование фронт-эндов также может быть генерально создано с помощью моделей Mevetuning Code и применения подсказки саморевизии [54]. Тем не менее, Design2Code в настоящее время превосходит современные LLMS (GPT-4V). Как и в этих более ранних работах, модели генерации кодов часто составляют абстракции из библиотек, которые были записаны для программного создания визуальных эффектов (BPY, CSS, P5.JS) [27, 53].

Недавним направлением в пространстве синтеза программы было восстановление программы посредством самоопределения. Ремонт программы относится к автоматическим подходам к исправлению ошибок, а самоопределение-это идея, что LLMS может проверять и редактировать свой код [22]. Тем не менее, эти подходы, как правило, были сосредоточены на текстовых задачах и задачах по программированию [21, 32]. Наша работа показывает, как самоопределение может быть расширена в визуальную область, обнаружив визуальные ошибки на уровне уровня и предоставляя изображение «различия», которые описывают ошибку для визуально обоснованного ремонта программы.

2.2 Инструменты поддержки творчества для анимации

Анимация - очень сложная творческая задача. Инструменты, которые поддерживают его, могут быть такими же удобными для начинающих, как и Google Slides [7] или так же крутой в кривой обучения, как Adobe After Effects [1] и Autodesk Maya [3]. Анимация охватывает широкий спектр творческих задач, от концептуализации (сценария, создание аниматики) до создания активов (графический дизайн и раскадрирование) до дизайна движения (частицы, первичный и путь пути) [35]. Инструменты исследований часто помогают пользователям с комплексным созданием целевого артефакта. Например, Katika-это сквозное инструмент, который помогает пользователям создавать анимированные видео-видео, преобразуя анимационные сценарии в списки выстрелов и поиск соответствующих графических активов и связей движения [34]. Другие системы помогли пользователям создать анимированную визуализацию устройства [20], 3D -анимацию [46] и кинетические иллюстрации [38], основывая взаимодействия вокруг фундаментальных принципов анимации [36]. Эти принципы помогают максимизировать влияние анимации, разделяя измерения, такие как первичное и вторичное движение, постановка, время, ожидание.

Многие подходы сосредоточены на конкретной задаче преобразования статических активов в анимированные путем разработки способов определения движения. Движение может быть получено из ряда мест: оно может быть настроено из шаблонов [10, 12], изолированных из видео [37], организованного с помощью движения частиц и пути [2, 39] или направленных через языковые преобразования [20, 43]. Шаблоны и анимации на уровне страниц популярны в коммерческих инструментах, таких как Adobe Express, Canva, Capcut и Pinterest Shuffles [4, 5, 8–10], потому что они позволяют пользователям исследовать разнообразные возможности анимации, одновременно уменьшая усилия по ручным усилиям-пользователи не должны анимации каждого элемента независимо. Было обнаружено, что шаблоны для видео и анимации полезны для представления начинающих дизайнеров для экспертных моделей в пространстве дизайна, добавляя структуру в их творческий процесс и повышение общего качества их творений [40, 60].

Авторы:

(1) Вивиан Лю, Колумбийский университет (vivian@cs.columbia.edu);

(2) Rubaiat Habib Kazi, Adobe Research (rhabib@adobe.com);

(3) Li-Yi Wei, Adobe Research (lwei@adobe.com);

(4) Мэтью Фишер, Adobe Research (matfishe@adobe.com);

(5) Тимоти Ланглуа, Adobe Research (tlangloi@adobe.com);

(6) Сет Уокер, Adobe Research (swalker@adobe.com);

(7) Лидия Чилтон, Колумбийский университет (chilton@cs.columbia.edu).


Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE