Забудьте о ChatGPT — NExT-GPT может читать и генерировать аудио- и видеоподсказки, выводя генеративный искусственный интеллект на новый уровень.

Забудьте о ChatGPT — NExT-GPT может читать и генерировать аудио- и видеоподсказки, выводя генеративный искусственный интеллект на новый уровень.

27 сентября 2023 г.

2023 год казался годом, посвященным искусственному интеллекту и его постоянно расширяющимся возможностям, но эра чистого текстового вывода уже сдает свои позиции. На рынке искусственного интеллекта могут доминировать такие гиганты, как ChatGPT и Google Bard, но новая модель большого языка (LLM), NExT-GPT, призвана встряхнуть ситуацию, предлагая полный набор текста, изображений, аудио и видео. выход.

NExT-GPT — детище исследователей Национального университета Сингапура и Университета Цинхуа. Представленная как система «любой к любому», NExT-GPT может принимать входные данные в различных форматы и доставлять ответы в соответствии с желаемым результатом в виде видео, аудио, изображений и текстовых ответов. Это означает, что вы можете вставить текстовое приглашение, и NExT-GPT может обработать его в видео, или вы можете передать ему изображение и преобразовать его в аудиовыход.

ChatGPT только что объявил о возможность «видеть, слышать и говорить», что похоже на то, что предлагает NExT-GPT, но ChatGPT собирается использовать более удобную для мобильных устройств версию такого рода функции. , и еще не представил возможности видео.

За последний год мы видели множество альтернатив ChatGPT и конкурентов, но NExT-GPT — одна из них. из немногих LLM, которые мы видели до сих пор, которые могут соответствовать текстовому выводу ChatGPT, но также предоставляют результаты, выходящие за рамки того, что в настоящее время может сделать популярный чат-бот OpenAI. Вы можете перейти на страницу GitHub или демо-страница, чтобы опробовать ее самостоятельно.

Итак, на что это похоже?

Я поигрался с NExT-GPT на демо-сайте и должен сказать, что я впечатлен, но не потрясен. Конечно, это не отточенный продукт, обладающий преимуществами публичной обратной связи, множества обновлений и т. д., но он все равно очень хорош.

Я попросил его превратить фотографию моего кота Мисо в изображение его в образе библиотекаря, и остался очень доволен результатом. Оно может быть не того же уровня качества, что и известные генераторы изображений, такие как Midjourney или Стабильная диффузия, но это все равно была, несомненно, очень милая картинка.

Кошка в библиотеке в очках

Вероятно, это один из наименее проклятые изображения, которые я лично создал с помощью ИИ. (Изображение предоставлено: Будущее VIA NExT-GPT)

Я также протестировал функции видео и аудио, но они оказались не такими успешными, как генерация изображений. Сгенерированные видео снова не были ужасными, но имели очень очевидный вид «сделано ИИ», который присутствует в большом количестве сгенерированных изображений и видео, причем все выглядело немного искаженным и шатким. Это было сверхъестественно.

В целом, у этого LLM есть большой потенциал для заполнения пробелов в аудио и видео в таких крупных компаниях, занимающихся искусственным интеллектом, как OpenAI и Google. Я очень надеюсь, что по мере того, как NExT-GPT будет становиться все лучше и лучше, мы сможем видеть более высокое качество продукции и без проблем создавать отличные домашние фильмы из наших кошек в кратчайшие сроки.

Вам также может понравиться...


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE