Я попробовал искусственный интеллект Google для преобразования текста в изображение и был шокирован результатами.
29 мая 2022 г.В программах искусственного интеллекта, преобразующих текст в изображение, нет ничего нового. Действительно, существующие нейронные сети, такие как DALL-E, впечатлили нас своей способностью генерировать простые фотореалистичные изображения из коротких, но описательных предложений.
Но на этой неделе я познакомился с Imagen. Imagen, разработанный командой Brain Team Google Research, представляет собой искусственный интеллект, аналогичный DALL-E и LDM. Тем не менее, цель Brain Team с Imagen — генерировать изображения с более высоким уровнем точности и достоверности, используя для их создания тот же метод коротких и описательных предложений.
Примером таких предложений может быть — согласно демонстрации на веб-сайте Imagen — «Фотография пушистой панды в ковбойской шляпе и черной кожаной куртке, едущей на велосипеде по вершине горы». Это довольно многословно, но предложение построено таким образом, что ИИ может идентифицировать каждый элемент как собственный критерий.
Затем ИИ анализирует каждый сегмент предложения как удобоваримую порцию информации и пытается создать изображение, максимально близкое к этому предложению. И за исключением некоторых сверхъестественных или странных моментов, Imagen может сделать это с удивительно быстрыми и точными результатами.
Слишком полезно?
Если вы сами проверяли Imagen или другие нейронные сети, то, вероятно, заметили подавляющее внимание к нескольким избранным темам. DALL-E, например, любит создавать изображения на основе повседневных предметов домашнего обихода, таких как часы или туалеты. Imagen, по крайней мере, на данный момент, кажется, ставит милых животных на передний план своих возможностей по созданию изображений. Но на самом деле для этого есть очень веская причина.
Команда Brain Team Google не уклоняется от того факта, что Imagen делает вещи относительно безвредными. Как часть довольно длинного заявления об отказе от ответственности, команда прекрасно понимает, что нейронные сети могут использоваться для создания вредоносного контента, такого как расовые стереотипы, или распространения токсичных идеологий. Imagen даже использует набор данных, который, как известно, содержит такой неприемлемый контент.
«Несмотря на то, что подмножество наших обучающих данных было отфильтровано для удаления шума и нежелательного контента, такого как порнографические изображения и ненормативная лексика, — отмечает Brain Team, — мы также использовали набор данных LAION-400M, который, как известно, содержит широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы.
«Imagen полагается на текстовые кодировщики, обученные на некурируемых данных веб-масштаба, и, таким образом, наследует социальные предубеждения и ограничения больших языковых моделей».
Это также причина, по которой команда Google Brain Team не планирует выпускать Imagen для общего пользования, по крайней мере, до тех пор, пока она не сможет разработать дополнительные «защиты», чтобы предотвратить использование ИИ в гнусных целях. В результате предварительный просмотр на веб-сайте ограничен всего несколькими выбранными переменными.
В конце концов, это правильный вызов. В прошлом были примеры того, как программы искусственного интеллекта высвобождались для публики в Интернете… с крайне нежелательными результатами. Возможно, вы помните Tay от Microsoft, учетную запись AI в Twitter, появившуюся на платформе социальных сетей примерно пять лет назад.
Tay был довольно дерзким экспериментом со стороны Microsoft. Его цель состояла в том, чтобы увидеть, как ИИ будет реагировать и взаимодействовать с реальными людьми в среде социальных сетей. Однако за несколько часов Тэй превратился из полезного чат-бота в распространителя антисемитских тезисов. И это несмотря на то, что бот был «смоделирован, очищен и отфильтрован» согласно Microsoft (спасибо, Грань).
Учитывая прецедент, созданный искусственным интеллектом, таким как Тэй, легко понять, почему Imagen находится под контролем. Очевидно, что даже обширной фильтрации может быть недостаточно.
Все еще далеко от совершенства
Хотя я был очень впечатлен Imagen, и мне было очень весело смешивать и сопоставлять предложения для создания всевозможных причудливых картинок, это определенно не то, что я считаю чрезвычайно убедительным. По крайней мере, пока.
Чаще всего Imagen выдавал пугающе веселые результаты. Животные, в частности, часто появлялись со всевозможными причудливыми пропорциями. Увидеть енота с массивной головой или похожими на человеческие руки, сжимающими руль велосипеда, было довольно обычным явлением. Хотя эти необычные результаты, смешанные с фотореализмом, были очень забавными, они часто приводили к пугающе сверхъестественным результатам.
Вариант создания картины маслом был на самом деле намного более убедительным, и большая часть того, что Imagen смог создать здесь, не выглядела бы неуместной в школьном проекте. И я имею в виду это самым приятным образом. Как оказалось, персидский кот, играющий на гитаре, намного убедительнее подходит для картины, чем для реалистичной фотографии.
Как уже отмечалось, весьма вероятно, что мы не получим общедоступную версию Imagen в ближайшее время. Или когда-нибудь, если уж на то пошло. Риски, связанные с программами искусственного интеллекта и нейронными сетями, способными генерировать сомнительный контент, все еще слишком велики. На данный момент, тем не менее, я доволен тем, что Imagen является забавным маленьким сувениром для тех, кто хочет провести немного времени, создавая забавных животных в ковбойских шляпах, спускающихся с горы на скейтборде.
Оригинал