Как мы автоматизируем 80–100 % медиа-процессов с помощью когнитивных вычислений
5 апреля 2022 г.- В последнее время многие думают о когнитивных вычислениях. Изучая возможности искусственного интеллекта в некоторой степени имитировать человеческое восприятие, новаторы технологий обнаружили, что когнитивные вычисления лучше подходят для этого.*
- Мы внезапно поняли, что в этом отношении можно сделать намного больше — вместо того, чтобы имитировать только восприятие, мы можем заставить технологии принимать решения, как люди. *
Поделившись этой идеей с членами команды AIHunters, мы поставили перед собой задачу автоматизации когнитивного бизнеса в индустрии медиа и развлечений.
Давайте познакомим вас с тем, как мы это сделали — предоставьте решение, которое направляет инновации на оптимизацию обработки видео и постобработки, выходя за рамки ограничений обычного анализа ИИ.
Приобретенная целевая отрасль: средства массовой информации и развлечения
В медиа- и развлекательном бизнесе видеоконтент находится в центре всего. Это то, что держит нас приклеенными к нашим телефонам, телевизорам и ноутбукам большую часть нашего свободного времени, принося огромные доходы и узнаваемость бренда.
Эти сотни часов видео создаются людьми по большей части. Мы понимаем: технология далеко не соответствует человеческому творчеству.
А как же рутинная работа? Эти задачи требуют бесчисленных часов ручной работы сотен редакторов.
Отвечая на этот вопрос, наши специалисты по искусственному интеллекту нашли решение, позволяющее сократить время и затраты на обработку видео и постобработку: технология когнитивных вычислений в сочетании с унифицированным и хорошо структурированным рабочим процессом.
Давайте поговорим о решении, которое мы придумали.
Команда AIHunters создала облачную платформу, которая может анализировать видеоконтент, принимать обоснованные решения и действовать в соответствии с ними без помощи человека. Мы называем это CognitiveMill™.
__CognitiveMill™__может анализировать огромное количество видеоконтента, опираясь на такие технологии, как:
- Глубокое обучение;
- Цифровая обработка изображений;
- Когнитивное компьютерное зрение;
- Традиционное компьютерное зрение.
Решение пережевывает все, что вы ему бросаете. Спортивные мероприятия, фильмы, телепередачи, пользовательский контент и прямые трансляции — он может все.
Проблема с обычным ИИ для анализа видео
Пытаясь решить поставленную задачу, мы столкнулись с проблемой: ограниченность алгоритмов глубокого обучения не позволяла эффективно использовать их для рассуждений и адаптивного принятия решений.
Другие традиционные средства обработки также оказались неэффективными: нейронные сети привязаны к обучающим наборам, а сложные сквозные конвейеры глубокого обучения могут выступать в качестве основы когнитивной автоматизации только теоретически.
Работа с видеоконтентом разных типов и жанров выходит за рамки упомянутых технологий.
Поэтому нам пришлось найти свой подход.
Мы рассмотрели возможность объединения лучших практик глубокого обучения, когнитивной науки, компьютерного зрения, вероятностного ИИ и математического моделирования, чтобы имитировать поведение человека: наше решение может не только видеть, как человек, но и думать и принимать решения, как человек.
Итак, давайте покажем вам, как CognitiveMill™ обрабатывает сложные видеоданные.
Когнитивные вычисления являются решающим типом
Для начала мы разделили когнитивный процесс принятия решений на два этапа:
- Этап представления. Здесь облачный робот имитирует то, как люди сосредотачиваются на вещах и воспринимают их. Это достигается с помощью глубокого обучения, цифровой обработки изображений, когнитивного и традиционного компьютерного зрения и имитации человеческого глаза.
- Этап когнитивных решений. Имитируя работу человеческого мозга, робот принимает решения на основе контент-анализа. Для облегчения процесса мы применяем вероятностный ИИ, когнитивную науку, машинное восприятие и математическое моделирование.
Глубокие исследования наших ученых в области искусственного интеллекта позволили им создать более 50 алгоритмов, заложив основу для когнитивной автоматизации бизнеса.
И мы идем о процессе с простотой использования в виду.
Мы разработали отдельные модули, содержащие каждую из когнитивных способностей, имитирующих мыслительные процессы человека. Такой подход помогает нам легко повторно использовать и комбинировать модули для имитации различных потоков познания в будущем.
Таким образом, вы можете забыть обо всех этих переобучении и перемоделировании. Пара корректировок здесь и там, и мы готовы принять новый вызов.
Оборачиваем технологию в масштабируемый продукт
Чтобы еще больше улучшить процесс разработки, мы создали док-контейнеры для каждого модуля ИИ. Функционал продактизации перенесен в специальный SDK, который мы поддерживаем самостоятельно.
При всем этом команде ИИ не нужно беспокоиться о частоте кадров или проблемах с файловой системой, и они сосредоточены на разработке математических алгоритмов.
Кроме того, каждый из модулей настроен для облегчения определенного конвейера в зависимости от бизнес-кейса.
Но это не все, что мы делаем, чтобы сделать наши конвейеры более эффективными. Кроме того, мы полагаемся на модуль транскодирования GPU, чтобы:
- Оптимизация процесса изменения размера для упрощения компьютерного зрения и анализа глубокого обучения;
- Не зависит от различий в медиаконтейнерах и сломанной мета.
Мы также добавили загрузку медиа-воркеров вместе с парсерами медиа-контейнеров, чтобы упростить конвейер облачного производства, организовав все это с помощью Kubernetes.
Все данные хранятся с помощью EFS. Рабочие имеют доступ к очереди сегментов модулей с созданными для них задачами.
Во главе всего этого находится центральная БД обработки, которая опирается на набор микросервисов планирования для управления задачами и определения их приоритетов.
Все события платформы регистрируются в журнале Kafka.
Мы управляем бизнес-логикой платформы через микросервис QBIT (внутреннее название). Именно здесь происходит конфигурация конвейера и обработка потоков.
QBIT управляет сообщениями Kafka и вносит соответствующие изменения в БД.
Включив внешний уровень связи, мы внедрили независимый медиа-сервер RTP для приема прямых трансляций.
В довершение всего, мы создали микросервис ZOOLU (внутреннее название), который отслеживает Kubernetes, и микросервис ROVAR, который создает динамические веб-визуализаторы для любого типа выходных данных когнитивной автоматизации мультимедиа.
Но это все просто разбросанные технические слова. Давайте посмотрим, как протекает весь процесс.
- Система получает новый технологический запрос;
- Процесс регистрируется в журнале Kafka;
- Конвейер загружает видеоресурс, предоставленный заказчиком;
- Скачанный файл транскодируется в несколько файлов. В зависимости от конфигурации конвейера файлы получают разное разрешение;
- Конвейер создает прокси для адаптации мультимедиа для визуализации веб-интерфейса;
- Платформа создает задачу для этапов пайплайна.
В конце рабочего процесса, в зависимости от конфигурации конвейера, вы получаете файл JSON, содержащий метаданные о достойных внимания сценах, конкретных событиях или временных маркерах, которые можно использовать для постобработки и т. д.
После этого EFS автоматически очищается, а повторно используемые файлы перемещаются на S3.
Так что же дальше?
Вы можете перенести этот файл JSON в свою инфраструктуру и использовать стороннее программное обеспечение для его дальнейшей обработки или даже использовать его в других конвейерах CognitiveMill™.
Также не нужно ничего возиться, чтобы заставить CognitiveMill™ работать: вы можете легко создавать новые процессы через API или веб-интерфейс.
Помимо обработки медиаконтента, CognitiveMill™ также предлагает возможности мониторинга, администрирования и масштабирования производства для каждого клиента.
Отвечая на запросы средств массовой информации и развлечений
CognitiveMill™ предлагает новый способ производства и управления контентом для OTT-платформ, вещательных компаний, телеканалов, производителей телекоммуникационных медиа, спортивных лиг и всех, кто занимается созданием видеоконтента.
Наш продукт решает множество проблем, с которыми ежедневно сталкиваются медиа и развлекательные компании. Отвечая на потребность в решении основных вопросов, мы предлагаем платформу, включающую шесть продуктов:
- CognitiveReelz™ — автоматически создает подборки спортивных моментов;
- CognitiveSkip™ — позволяет зрителям пропускать побочный контент, а создателям контента — вставлять целевую и интеллектуальную рекламу, а также корректировать EPG;
- CognitiveCrop™ — обрезает видео из альбомного в портретное соотношение сторон, распространенное в социальных сетях;
- CognitiveCast™ — идентифицирует актерский состав фильма, отмечая главных и второстепенных персонажей на основе сюжета;
- CognitiveShapes™ — распознает движущуюся графику на основе вашего образца в живом и записанном видеоконтенте;
- CognitiveNude™ — обнаруживает неприемлемый контент в видео и помечает сегменты на временной шкале.
С помощью этого списка инструментов вы можете повысить эффективность производства и управления видеоконтентом, автоматизируя самые тривиальные и рутинные рабочие процессы.
Пусть человек снимет видео, а робот его обработает. Звучит как много для меня.
Заключение
Это здорово и все такое, но как насчет преимуществ, которые технология приносит медиа- и развлекательным компаниям?
Давайте тогда свернем цифры.
Вот чего нам удалось добиться менее чем за год:
- Мы создали более 50 запатентованных алгоритмов искусственного интеллекта, объединенных в более чем 15 конвейеров когнитивной автоматизации;
- Мы охватываем более 20 бизнес-кейсов с помощью наших продуктов для когнитивных вычислений;
- Cognitive Mill™ намного опережает людей по скорости: она обрабатывает видеоконтент в 50 раз быстрее;
- На данный момент Cognitive Mill™ ежедневно анализирует более 100 часов контента. Проанализировав потребности рынка, мы теперь стремимся достичь 2000 часов медиа в день.
С Cognitive Mill™ вы получаете решение для автоматизации, которое обеспечивает лучшие функции видеопроизводства для любых целей, которые могут вам понадобиться.
Откровенно говоря, здесь нет предела небу.
В отличие от обычного ИИ, который некоторые могут использовать для анализа видеоконтента, нашу облачную платформу когнитивных вычислений можно легко адаптировать для еще большего количества бизнес-кейсов. Все наши конвейеры могут быть настроены и адаптированы к вашему варианту использования за очень короткое время.
Гораздо короче по сравнению со временем, которое требуется для переобучения ИИ.
Вы можете начать с когнитивной автоматизации бизнеса уже сегодня — начните с просмотра как
Оригинал