
Забудьте о ChatGPT — NExT-GPT может читать и генерировать аудио- и видеоподсказки, выводя генеративный искусственный интеллект на новый уровень.
27 сентября 2023 г.2023 год казался годом, посвященным искусственному интеллекту и его постоянно расширяющимся возможностям, но эра чистого текстового вывода уже сдает свои позиции. На рынке искусственного интеллекта могут доминировать такие гиганты, как ChatGPT и Google Bard, но новая модель большого языка (LLM), NExT-GPT, призвана встряхнуть ситуацию, предлагая полный набор текста, изображений, аудио и видео. выход.
NExT-GPT — детище исследователей Национального университета Сингапура и Университета Цинхуа. Представленная как система «любой к любому», NExT-GPT может принимать входные данные в различных форматы и доставлять ответы в соответствии с желаемым результатом в виде видео, аудио, изображений и текстовых ответов. Это означает, что вы можете вставить текстовое приглашение, и NExT-GPT может обработать его в видео, или вы можете передать ему изображение и преобразовать его в аудиовыход.
ChatGPT только что объявил о возможность «видеть, слышать и говорить», что похоже на то, что предлагает NExT-GPT, но ChatGPT собирается использовать более удобную для мобильных устройств версию такого рода функции. , и еще не представил возможности видео.
За последний год мы видели множество альтернатив ChatGPT и конкурентов, но NExT-GPT — одна из них. из немногих LLM, которые мы видели до сих пор, которые могут соответствовать текстовому выводу ChatGPT, но также предоставляют результаты, выходящие за рамки того, что в настоящее время может сделать популярный чат-бот OpenAI. Вы можете перейти на страницу GitHub или демо-страница, чтобы опробовать ее самостоятельно.
Итак, на что это похоже?
Я поигрался с NExT-GPT на демо-сайте и должен сказать, что я впечатлен, но не потрясен. Конечно, это не отточенный продукт, обладающий преимуществами публичной обратной связи, множества обновлений и т. д., но он все равно очень хорош.
Я попросил его превратить фотографию моего кота Мисо в изображение его в образе библиотекаря, и остался очень доволен результатом. Оно может быть не того же уровня качества, что и известные генераторы изображений, такие как Midjourney или Стабильная диффузия, но это все равно была, несомненно, очень милая картинка.
Я также протестировал функции видео и аудио, но они оказались не такими успешными, как генерация изображений. Сгенерированные видео снова не были ужасными, но имели очень очевидный вид «сделано ИИ», который присутствует в большом количестве сгенерированных изображений и видео, причем все выглядело немного искаженным и шатким. Это было сверхъестественно.
В целом, у этого LLM есть большой потенциал для заполнения пробелов в аудио и видео в таких крупных компаниях, занимающихся искусственным интеллектом, как OpenAI и Google. Я очень надеюсь, что по мере того, как NExT-GPT будет становиться все лучше и лучше, мы сможем видеть более высокое качество продукции и без проблем создавать отличные домашние фильмы из наших кошек в кратчайшие сроки.
Вам также может понравиться...
- Использование ChatGPT снижается, поскольку пользователи жалуются на "тупые" ответы, и причина может заключаться в самой большой угрозе ИИ для будущего < li>Microsoft может планировать запуск будущие центры обработки данных с ядерной энергетикой
- Объяснение NPU: почему Microsoft так заботится об этих AI-чипах?
Оригинал