
Обновление Google Docs может сделать голосовой ввод действительно полезным
10 января 2023 г.Документы Google получают большое обновление, которое вскоре может сделать его функцию голосового набора гораздо более полезной и популярной для расшифровки совещаний.
Облачный текстовый процессор предлагает возможность 'печатать' громкой связи с вашим голосом уже несколько лет (просто перейдите в «Инструменты»> «Голосовой ввод» с включенным микрофоном). Но обновление, которое выйдет в начале февраля, будет содержать некоторые улучшения этой функции, а также возможность использовать ее в веб-браузерах помимо Chrome.
Google заявляет, что обновление «поможет уменьшить количество ошибок транскрипции и свести к минимуму потерю звука во время транскрипции». Ограничения текущего воплощения привели к тому, что оно уступило позиции лучшим приложениям для преобразования речи в текст a> например Otter.ai, который широко используется командой TechRadar. Инструменты распознавания речи и специальных возможностей Microsoft в последнее время также добились больших успехов в таких приложениях, как Word.
Но если Документы Google ' встроенный эквивалент может сравниться по точности со своими все более впечатляющими конкурентами, он может стать гораздо более широко используемым инструментом. В частности, он также будет работать в Google Slides для отображения слов говорящего в режиме реального времени.
Эта функция также должна продолжать улучшаться благодаря другому обновлению; расширенная поддержка «большинства основных браузеров». Google еще не сказал, какие браузеры, но можно с уверенностью сказать, что Safari, Firefox и Microsoft Edge могут быть включены.
Вероятно, мы узнаем, когда обновление начнет выпускаться в течение следующего месяца. Пользователи Google Workspace, подписавшиеся на обновления Rapid Release, начнут получать их с сегодняшнего дня, но большинство из нас увидят постепенное развертывание в течение двух недель, начиная с 6 февраля. <час>
Анализ: ИИ учится быть полезным
Google не уточнил, какая технология обеспечивает обновление голосового набора в Документах Google, но, вероятно, она похожа на интерфейс на основе ИИ, если предлагает предприятиям улучшать такие услуги, как взаимодействие с клиентами.
Технология искусственного интеллекта быстро совершенствуется в визуальном пространстве, например, в Dall-E и Midjourney, а также в чат-ботах, таких как ChatGPT. Распознавание рукописного ввода также получило большой импульс. Но речь, возможно, является одной из самых полезных областей для разработки ИИ как с точки зрения удобства использования, так и доступности. И надежное программное обеспечение для преобразования речи в текст — это только начало.
Microsoft недавно представила жуткую, но потенциально полезную новую технологию искусственного интеллекта под названием Vall-E, которая может 5E1611814447919792128%7Ctwgr%5E19f9a7c5b5c9792ea2a8fc2cf16e16da35ed00ca%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.rockpapershotgun.com%2Fmicrosoft-unveil-vallcanice-e-their-creepy-target="aiir-thatcanlice-e-their-creepy-target" имитировать человеческие голоса только на основе трехсекундного образца. На аналогичную тему Apple недавно выпустила первую линейку аудиокниги с дикторами на основе ИИ (выше).
Эти достижения поднимают серьезные этические вопросы, связанные с возможностью подражания, поэтому технология, стоящая за обоими, в настоящее время заблокирована и недоступна для потребителей. Но ящик Пандоры голосовых технологий резко распахнулся.
На данный момент быстрые улучшения в технологии преобразования речи в текст, найденные в таких документах, как Google Docs (и действительно, лучшее программное обеспечение для преобразования текста в речь) являются наиболее полезными плодами этих новых алгоритмов искусственного интеллекта. Пока это программное обеспечение делает заметки о наших встречах, мы будем собирать попкорн для неизбежных этических дебатов о голосовых подражателях следующего поколения.
Оригинал