Google объясняет, почему ИИ-изображение Gemini пошло не так и как это исправить
27 февраля 2024 г.Несколько недель назад Google запустил новый инструмент создания изображений для Gemini (набор инструментов искусственного интеллекта, ранее известный как Bard и Duet), который позволял пользователям создавать всевозможные изображения из простых текстовых подсказок. К сожалению, инструмент искусственного интеллекта Google неоднократно промахивался и создавал неточные и даже оскорбительные изображения, что заставило многих из нас задаться вопросом: как бот мог так ошибаться? Что ж, компания наконец опубликовала заявление, объясняющее, что пошло не так, и как она планирует исправить Gemini.
официальная запись в блоге В решении проблемы говорится, что при разработке функции преобразования текста в изображение для Gemini команда, стоящая за Gemini, хотела «гарантировать, что она не попадет в некоторые ловушки, которые мы видели в прошлом с технологией генерации изображений, такие как создание изображений насилия или откровенно сексуального характера или изображений реальных людей». Далее в сообщении поясняется, что пользователи, вероятно, не хотят видеть людей только одной этнической принадлежности или других характерных особенностей.
Итак, чтобы предложить довольно простое объяснение происходящему: Близнецы подбрасывали изображения цветных людей, когда им предлагали создать изображения белых исторических личностей, давая пользователям «разнообразные нацисты' или просто игнорировать часть вашего приглашения, в которой вы точно указали, что ищете. Хотя возможности Gemini по созданию изображений в настоящее время приостановлены, когда вы можете получить доступ к этой функции, вы должны точно указать, кого вы пытаетесь сгенерировать (Google использует пример «белый ветеринар с собакой»), и Gemini, похоже, проигнорирует первую половину это подскажет и создаст ветеринаров всех рас, кроме той, которую вы просили.
Далее Google объяснил, что это стало результатом двух серьезных ошибок: во-первых, Gemini показывала диапазон разных людей, не учитывая диапазон, который не показывать. Наряду с этим, пытаясь создать более сознательный и менее предвзятый генеративный ИИ, Google признает, что «модель стала гораздо более осторожной, чем мы предполагали, и полностью отказалась отвечать на определенные подсказки, ошибочно интерпретируя некоторые весьма безобидные подсказки как чувствительные».
Итак, что дальше?
На момент написания возможность создания изображений людей на Gemini была приостановлена, пока команда Gemini работает над исправлением неточностей и проведением дальнейшего тестирования. В сообщении блога отмечается, что «галлюцинации» ИИ не являются чем-то новым, когда дело касается сложных моделей глубокого обучения — даже Барда и У ChatGPT были сомнительные истерики, пока создатели этих ботов решали проблемы.
Пост заканчивается обещанием Google продолжать работу над поколением людей с помощью искусственного интеллекта Gemini, пока все не будет решено, с пометкой, что, хотя команда не может обещать, она никогда не будет генерировать «неловкие, неточные или оскорбительные результаты», принимаются меры, чтобы такие случаи происходили как можно реже.
В общем, весь этот эпизод показывает, что ИИ настолько умен, насколько мы его делаем. Наш главный редактор Лэнс Уланофф лаконично заметил: «Когда ИИ не знает истории, вы не можете винить ИИ». Учитывая то, как быстро искусственный интеллект ворвался и вторгся в различные аспекты нашей повседневной жизни — хотим мы этого или нет — легко забыть, что публичное распространение ИИ началось всего 18 месяцев назад. Какими бы впечатляющими ни были доступные нам в настоящее время инструменты, в конечном итоге мы все еще находимся на заре искусственного интеллекта.
Мы не можем критиковать парад Google Gemini только потому, что ошибки были более заметными, чем, скажем, Недавний полный тарабарщины крах ChatGPT. Временная пауза и переработка Google в конечном итоге приведут к улучшению продукта, и рано или поздно мы увидим инструмент таким, каким он должен был быть.
Вам также может понравиться...
- Что такое Sora OpenAI? Объяснение инструмента преобразования текста в видео и описание того, когда вы сможете его использовать
- Ты пользователь Reddit? Google собирается передать все ваши сообщения голодному ИИ, и вы ничего не можете с этим поделать
- Gemma, новая модель искусственного интеллекта Google с открытым исходным кодом, может сделать вашего следующего чат-бота безопаснее и ответственнее
Оригинал