Зарегистрируйтесь для игры: может ли ИИ сделать спортивные трансляции доступными?
19 сентября 2023 г.23 сентября — Международный день жестовых языков, провозглашенный Организацией Объединенных Наций в 2017 году. Эта дата – хороший повод помечтать (а может быть, поставить перед собой цель), что наступит день, когда все медиа- и технологические продукты будут одинаково доступны для всех людей, независимо от их инвалидности. Я мечтаю, чтобы когда-нибудь все глухие люди могли смотреть спортивные трансляции в прямом эфире. Перевод на языки жестов в режиме реального времени — непростая задача даже для переводчиков-людей. Но поскольку квалифицированных переводчиков слишком мало, а жестовых языков слишком много, спортивные трансляции в настоящий момент не могут стать по-настоящему общедоступными. Использование искусственного интеллекта (ИИ) для решения этой проблемы — очень интересная техническая задача и, безусловно, очень хорошее дело. За последние несколько лет в этой области было сделано немало, но препятствия все еще сохраняются. В этой статье я предлагаю обзор новейших технологий, посвященных этой цели, и приглашаю вас обсудить эти результаты и внести свой вклад в разгадку этой загадки.
Спорт не для всех?
Спорт – король, и точка. Со времени первых древних Олимпийских игр (и, возможно, даже раньше) это помогло трансформировать соревновательную часть человеческой природы в ненасильственные формы. Оно объединяет миллионы людей по всему миру и выходит за рамки политических границ. Он также является правителем современной цифровой и медиа-вселенной. По данным Research and Markets, мировой спортивный рынок вырос. с $486,61 млрд в 2022 году до $512,14 млрд в 2023 году при совокупном годовом темпе роста (CAGR) 5,2%. Ожидается, что в 2027 году спортивный рынок вырастет до $623,63 млрд при среднегодовом темпе роста 5,0%. Это намного быстрее, чем рост мировой экономики, который, по прогнозам Международный валютный фонд. Только мировой рынок онлайн-трансляций спортивных трансляций в 2020 году оценивался в 18,11 миллиарда долларов США, и ожидается, что будет достигнет 87,33 миллиарда долларов в 2028 году. Еще одной иллюстрацией популярности спорта станет отчет Nielsen Sports показал, что 31 % доходов от рекламы на линейном телевидении в США зависит от спортивных программ в прямом эфире, несмотря на спортивные трансляции. на их долю приходится лишь 2,7 % доступного контента вещательных программ.
Однако эта огромная индустрия упускает (частично или полностью) значительную часть населения мира. По данным ООН, в мире насчитывается 70 миллионов глухих людей. , что составляет чуть менее 10% от 8,05-миллиардного населения Земли. Проблема прогрессирует: Всемирная организация здравоохранения ожидает, что к 2050 году 2,5 миллиарда человек (или примерно четверть всех людей) будут испытывать ту или иную степень потери слуха. Конечно, многие спортивные трансляции имеют субтитры. Но проблема в том, что многим глухим людям трудно научиться читать и писать. В большинстве стран уровень неграмотности среди глухих выше 75%, это поистине ошеломляющий показатель. Во многих передачах, особенно на телевидении, присутствуют сурдопереводчики. Но, опять же, есть проблема. Глухие люди во всем мире используют более 300 различных жестовых языков, большинство из которых непонятны друг другу. Очевидно, что невозможно нанять 300 переводчиков, чтобы сделать одну трансляцию глобальной. Но что, если вместо этого мы наймем ИИ?
Знак (язык) жизни
Чтобы полностью понять сложность этой задачи, давайте кратко рассмотрим, что на самом деле представляют собой языки жестов. Исторически сложилось так, что они часто использовались в качестве лингва-франка людьми, наделенными нормальным слухом, но говорящими на разных языках. Самый известный пример — язык жестов степных индейцев на севере XIX века. Америка. Языки разных племен были непохожи, но их образ жизни и среда обитания были весьма схожи, что помогло им найти общие символы. Например, круг, нарисованный на небе, означал луну или что-то бледное, похожее на луну. Подобные способы общения использовали племена Африки и Австралии.
Однако это не относится к языкам жестов, используемым глухими. В каждом регионе, стране они развиваются независимо, а иногда даже различаются от города к городу. Например, американский язык жестов (ASL), широко используемый в США, полностью отличается от британского языка жестов, хотя обе страны говорят по-английски. По иронии судьбы, ASL намного ближе к старофранцузскому языку жестов (LSF), потому что французский глухой человек, Лоран Клерк, был одним из первых учителей для глухих в США в 19 веке. Вопреки распространенному мнению, настоящего международного языка жестов не существует. Попыткой его создания стала жестуно, ныне известная как международный язык жестов, задуманная Международной федерацией глухих в 1951 году. Однако, как и его аналог для слышащих людей, эсперанто, он далеко не так популярен, чтобы стать настоящим решением.
Еще одна важная вещь, которую следует иметь в виду при обсуждении переводов на жестовые языки, — это то, что они являются самостоятельными языками, совершенно отличными от языков, которые мы слышим. Очень распространенное заблуждение состоит в том, что язык жестов имитирует язык жестов, на котором говорят люди. Напротив, у них совершенно другая языковая структура, грамматика и синтаксис. Например, в ASL используется синтаксис темы-комментария, а в английском языке используются конструкции субъект-объект-глагол. Таким образом, с точки зрения синтаксиса ASL на самом деле больше похож на разговорный японский, чем на английский. . Существуют жестовые алфавиты (подробнее о них можно узнать здесь). strong>), но они используются для написания собственных названий мест и людей, а не для составления слов.
Разрушая барьеры
Было множество попыток соединить разговорный язык и язык жестов с помощью «роботизированных перчаток». ” для распознавания жестов. Некоторые из них датируются 1980-ми годами. Со временем добавились более сложные гаджеты, вроде акселерометров и всевозможных датчиков. Однако успех этих попыток был в лучшем случае ограниченным< /сильный>. И вообще, большинство из них сосредоточилось на переводе языков жестов на разговорные языки, а не наоборот. Последние разработки в области компьютерного зрения, распознавания речи, нейронных сетей, машинного обучения и искусственного интеллекта дают надежду, что прямой перевод с разговорного языка на жестовый также возможен.
Самый распространенный путь — использование 3D-аватаров для отображения жестов и эмоций на языке жестов, используя речь и другие данные в качестве входных данных. Примечательная функция, разработанная вещательной корпорацией NHK в Японии, позволяет перевод спортивных данных, таких как имена игроков, результаты матчей и т. д., на язык жестов, отображаемый аватаром, похожим на мультфильм. Данные, полученные от организаторов мероприятия или других лиц, интерпретируются и помещаются в шаблоны, а затем выражаются аватаром. Однако таким способом можно перевести только ограниченные типы данных. NHK заявляет, что продолжает развивать технологию, чтобы аватары могли выражать эмоции более человечно.
Lenovo и бразильский центр инноваций CESAR недавно объявили, что создают сурдопереводчик для слышащих людей, использующих ИИ. Аналогичным образом, SLAIT (что означает переводчик языка жестов AI) разрабатывает образовательный инструмент, который помогает изучать ASL в интерактивном режиме. Хотя эти задачи отличаются от наших задач, методы компьютерного зрения и модели обучения искусственного интеллекта, разработанные в рамках этих проектов, могут быть очень полезны для обеспечения перевода с речи на язык жестов в будущем.
Другие стартапы становятся ближе к нашей теме обсуждения. Например, появился Signapse с помощью решения, которое может переводить текст на язык жестов, отображаемый в виде фотореалистичного анимированного движения аватара. Компания использует генеративно-состязательные сети и методы глубокого обучения, а также постоянно развивающуюся базу данных видео (подробнее об этом в рецензируемой статье здесь). Однако эта платформа предназначена в основном для перевода публичных объявлений и текстов веб-сайтов. Другими словами, похоже, что до прямой трансляции в реальном времени еще далеко.
Израильский стартап CODA сделал еще один шаг вперед к нашей цели. Компания разработала инструмент перевода звука в жесты на базе искусственного интеллекта и утверждает, что он работает "почти мгновенно". В настоящее время он предлагает свои услуги на пяти исходных языках: английском, иврите, французском, испанском и итальянском. Далее CODA планирует добавить несколько различных языков жестов в странах с высокой численностью населения, таких как Индия и Китай.
Пожалуй, самое близкое к нашей мечте воплощение было представлено Baidu AI Cloud на платформе цифровых аватаров Xiling. Платформа была запущена для предоставления аудитории с нарушениями слуха Трансляции зимних Паралимпийских игр 2022 года в Пекине. Местные СМИ сообщили, что они способны создавать цифровые аватары для сурдоперевода и живого перевода «за считанные минуты».
Заключение
Следующим шагом в разработке перевода речи в жесты станет расширение вывода на максимально возможное количество жестовых языков и сокращение временного интервала, необходимого для перевода, с минут до секунд. Обе задачи представляют собой серьезные проблемы. Добавление большего количества языков жестов в выходной канал означает создание и постоянное развитие обширных баз данных жестов рук и тела, а также выражений лица. Сокращение временного разрыва еще более важно, поскольку в спорте важны моменты. Даже минутный перерыв означает, что стрим следует задержать, иначе зрители упустят саму суть игры. Время, необходимое для перевода, можно сократить за счет создания более обширной аппаратной инфраструктуры, разработки баз данных наиболее типичных речевых шаблонов, которые можно распознать еще до того, как фраза будет закончена. Все это может показаться дорогостоящим предприятием. Но с одной стороны, улучшение качества жизни миллионов людей бесценно. С другой стороны, мы говорим не только о благотворительности. Подумайте о дополнительной аудитории, которую получат трансляции, и о спонсорских деньгах, которые будут задействованы. В целом, это вполне может быть беспроигрышная игра.
Похоже, что крупные технологические компании также присоединяются к гонке. Zippia, портал вакансий, недавно сообщил, что Google принимает на работу Переводчики жестового языка получают зарплату, более чем в два раза превышающую зарплату, которую они обычно ожидают в Соединенных Штатах (110 734 доллара США против средних 43 655 долларов США). При таких темпах переводчик языка будет получать примерно на 10 % больше, чем средний инженер-программист в США ( 100 260 долларов США). Это вполне может быть намеком на то, что вскоре нас ожидает крупный прорыв…
Пожалуйста, не стесняйтесь комментировать, и давайте объединим усилия, чтобы найти решение!
Оригинал