Этот инструмент для искусственного интеллекта позволяет вам разрабатывать логотипы, которые на самом деле что -то значат

Этот инструмент для искусственного интеллекта позволяет вам разрабатывать логотипы, которые на самом деле что -то значат

7 августа 2025 г.
  1. Введение

  2. Связанная работа

    2.1 Семантический типографский дизайн логотипа

    2.2 Генеративная модель для вычислительного дизайна

    2.3 Инструмент создания графического дизайна

  3. Формирующее исследование

    3.1 Общий рабочий процесс и проблемы

    3.2 Беспокойство в вовлечении генеративной модели

    3.3 Пространство дизайна семантической типографической работы

  4. Рассмотрение дизайна

  5. Напечатано и 5.1 идея

    5.2 Выбор

    5.3 поколение

    5.4 Оценка

    5.5 итерация

  6. Прохождение интерфейса и 6.1 стадия до поколения

    6.2 Стадия генерации

    6.3 Стадия после поколения

  7. Оценка и 7.1 базовое сравнение

    7.2 Изучение пользователя

    7.3 Анализ результатов

    7.4 Ограничение

  8. Дискуссия

    8.1 Персонализированный дизайн: сотрудничество с ИИ

    8.2 Включение знаний о дизайне в инструменты поддержки творчества

    8.3 Рабочий процесс ориентированного на микс-пользователь, ориентированный на инфекцию,

  9. Заключение и ссылки

2.1 Семантический типографский дизайн логотипа

Семантические типографские логотипы являются гармоничной интеграцией шрифтов и изображений, где изображения визуально иллюстрируются шрифтом [23, 43, 48]. По сравнению с простой Wordmark [50, 52] и изобразительным логотипом [22, 30], семантический типографский логотип позволяет более сплоченному подходу кодировать как слово, так и графическое содержание и улучшать связь между ними. Способность воплощать богатую символику и выразительность привела к увеличению внедрения семантических типографских логотипов в различных сценариях, таких как культурная продвижение [3], коммерческий бренд [15] и личная идентичность [28]. Обширные исследования изучали, как шрифты могут быть разработаны, чтобы усилить семантическое значение на различных уровнях детализации. Некоторые исследования подразделяют шрифт в серии скелетаударыс под управлением пользователя [38] и автоматической сегментацией [4], а затем применяйте структурную стилизацию к каждому ходу и соединению отдельно. Напротив, недавние исследования [23, 48, 59] сместили свое внимание с стиля на уровне инсульта на индивидуальныеписьмоСтилизация с использованием предопределенных шаблонов. Например, Tendulkar et al. [48] заменили буквы на значки клипарт, относящиеся к изображениям и визуально напоминающие соответствующую букву. Другой подход, как продемонстрировано Xu et al. [55], включает в себя сжатиемноголудочныйи расположить их в заранее определенную семантическую форму. Этот подход был дополнительно усилен Zou et al. [66], который предложил автоматическую структуру, которая поддерживает размещение, упаковку и деформацию компактных каллиграм.

В то время как предыдущие исследования тщательно исследовали логотип семантического типографии в различных гранулярности шрифтов, сохраняются две ключевые проблемы: 1) Эти модели построены для шрифтов с конкретной гранулярностью, ограничивая их применимость, и 2) мало известно относительно взаимосвязи отображения между шрифтом и изображениями. В этих работах обычно используется простой подход, в котором один шрифт в сочетании с одним конкретным изображением. Чтобы исследовать пространство дизайна, мы собираем реальное корпус, анализируем гранулярность шрифтов и картирование типов и создание этих принципов дизайна в Typedance. Затем мы предлагаем унифицированную структуру, основанную на диффузионной модели для поддержки гибкого смешивания между изображениями и шрифтами в различных гранулировании.

2.2 Генеративная модель для вычислительного дизайна

Вычислительный дизайн увлекла значительное внимание в области генеративных методов. В последнее время были достигнуты достижения в соответствии с семантическим значением между изображением и текстовыми пар, что делает естественный язык ценным инструментом, который преодолевает разрыв между людьми и творчеством [29, 39]. Многочисленные исследования использовали такую семантическую последовательность, чтобы получить соответствующие изображения из корпуса с использованием операторов естественного языка, которые можно использовать в качестве дизайнерских материалов для создания новых конструкций [12, 64]. В то время как предыдущие исследования основывались на извлечении из ограниченного корпуса и предопределенных шаблонов, более поздние исследования предлагали модели диффузии текста-изображения [40, 47], которые превосходят модели основных моделей GAN [18] и авторегрессивные модели [41]. Тем не менее, это обычное поколение, управляемое текстами, в значительной степени зависит от хорошо продуманных подсказок, что приводит к нестабильным результатам, лишенным управления пользователем. Чтобы решить эту проблему и улучшить настройку пользователей, последние достижения внедрили условия, основанные на изображениях, для достижения управляемых манипуляций, включая Devinmap [42] и EDGEMAP [63]. Некоторые генеративные модели, ориентированные на стилизацию шрифта, только поддерживают генерацию уровня букв [23] и требуют сбора изображений, содержащих конкретные изображения для точной настройки модели [47].

В то время как предыдущие работы продемонстрировали невероятную генеративную способность в создании сложных структур и значимой семантики, обеспечивая читаемость как шрифта, так и изображений оставаться сложной задачей. В частности, в условиях текста не хватает достаточных ограничений для захвата всех намерений пользователей, в то время как условие изображения чрезмерно жестко и не может приспособить включение дополнительной информации. Чтобы решить эту проблему, Mou et al. [34] предложили подход, который объединяет множество условий для улучшения управляемости. Аналогичным образом, Vistylist [45] раскрывает пространство дизайна, что позволяет генерации с комбинированными пользовательскими факторами проектирования. Typedance опирается на эти предыдущие исследовательские усилия, предоставляя несколько дизайнерских априоров, которые ссылаются на характеристики семантических типографских логотипов. Эти дизайнерские априоры, извлеченные из предоставленных пользователями изображений, служат руководством для пользователей для выбора и включения в свои проекты. Благодаря поддержке как текстовых, так и изображений, Typedance предоставляет пользователям гибкий контроль, обеспечивая персонализированные и отличительные результаты дизайна.

2.3 Инструмент создания графического дизайна

Значительные работы разработали инструменты авторизации для облегчения графического дизайна, которые могут быть в целом разделены на две основные категории: инструменты идеи и создания. В области идеи несколько исследований [24, 26, 56] предложили интерфейсы, направленные на вдохновляющие идеи и облегчают исследование дизайнерских материалов. Например, Metamap [24] использовал структуру, похожую на Mindmap, охватывающую три измерения дизайна, чтобы стимулировать пользователей и поощрять их к созданию широкого спектра уникальных и разнообразных идей. Относительно процесса создания, как Xiao et al. [54] идентифицировали, основные работы следуют двухэтапному трубопроводу, который включает в себя получение примеров и адаптацию их в качестве дизайнерского материала [62] и ссылки на передачу стиля [45]. Совсем недавно исследователи стремились смешать подходы для создания нового дизайна, основанного на существующих дизайнерских материалах. В ходе процесса, семантически связанных составных значков для создания составной конструкции находчивым образом, принимаются некоторыми исследователями [13, 64]. Точно так же Zhang et al. [61] продемонстрировали, что элементы композиции когерентных изображений могут создавать декоративный шрифт с широким концептуальным охватом. С другой стороны, Chilton et al. [8, 9] далее исследовал потенциал смешивания посредством аналогичной замены формы. Например, они показали, что «логотип Starbucks» может заменить положение «Солнца», так как оба имеют круглую форму.

Тем не менее, методы пространственного состава и замены формы сталкиваются с проблемами при работе со сложностью семантических типографических логотипов, в которых шрифт и изображения должны быть пространственно объединены в целом, несмотря на отсутствие сходства формы. В этой работе Typedance использует диффузионные модели для включения деталей изображений, сохраняя при этом существенное представление шрифта, что позволяет более естественную смесь. Кроме того, Typedance объединяет как функции идеи, так и функции создания. Чтобы обеспечить читаемость как шрифта, так и изображений в семантических типографических логотипах, дополнительно включен компонент оценки, повышая верность процесса проектирования. Предоставление существенного представления шрифта, обеспечивая более естественную смесь. Кроме того, Typedance объединяет как функции идеи, так и функции создания. Чтобы обеспечить читаемость как шрифта, так и изображений в семантических типографических логотипах, дополнительно включен компонент оценки, повышая верность процесса проектирования.

Авторы:

(1) Шиши Сяо, Гонконгский университет науки и технологии (Гуанчжоу), Китай;

(2) Лангвей Ван, Гонконгский университет науки и технологии (Гуанчжоу), Китай;

(3) Xiaojuan MA, Гонконгский университет науки и технологии, Китай;

(4) Вэй Зенг, Гонконгский университет науки и технологии (Гуанчжоу), Китай.


Эта статья естьДоступно на ArxivПод атрибуцией-некоммерческими показателями 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE