Лучшие API-интерфейсы транскрипции и библиотеки с открытым исходным кодом в 2022 году
7 марта 2022 г.За последнее десятилетие количество приложений, использующих технологии распознавания речи и транскрипции голоса, резко возросло. Больше людей, чем когда-либо прежде, используют технологию голосового ИИ в своих домах, автомобилях и на работе.
Достижения в области глубокого обучения, машинного обучения и исследований в области искусственного интеллекта способствовали этому внедрению, сделав технологию распознавания речи более доступной, недорогой и, что наиболее важно, точной.
С этим ростом интереса и принятия также одновременно увеличилось количество API-интерфейсов транскрипции речи и библиотек с открытым исходным кодом, доступных для пользователей.
В этой статье рассматриваются некоторые из лучших API-интерфейсов транскрипции и библиотек с открытым исходным кодом, доступных сегодня на рынке, которые оцениваются по точности, цене, документации и предлагаемым дополнительным функциям.
Лучшие API транскрипции
В этой категории выделяются три API транскрипции речи: AssemblyAI, Google Speech-to-Text и AWS Transcribe.
1. СборкаAI
AssemblyAI — это __API преобразования речи в текст__запуск с конкурентоспособная точность и простой в использовании интерфейс. API предлагает три бесплатных часа транскрипции в месяц, доступный платный уровень и обширную документацию, что делает его любимым разработчиком.**
Будучи стартапом, API вкладывает значительные средства в последние исследования в области глубокого обучения и постоянно выпускает обновления для улучшения своих моделей. Совсем недавно API выпустил свой набор API-интерфейсов Audio Intelligence, которые обеспечивают большую ценность для бизнеса своих клиентов. К ним относятся анализ настроений, модерация контента, обнаружение сущностей, редактирование PII, суммирование и автоматические выделения расшифровки, и ожидается, что в ближайшее время будет выпущено больше. **
Поскольку он появился на рынке новее, в API отсутствуют некоторые функции, доступные у некоторых из его более опытных конкурентов.
2. Преобразование речи в текст Google
Google Speech-to-textТекст продолжает оставаться доминирующим игроком на рынке распознавания речи. Благодаря хорошей точности, надежной языковой поддержке и предметно-ориентированным моделям это популярный выбор среди других известных компаний.
Распознавание имени Google имеет более высокую цену, чем другие API-интерфейсы преобразования речи в текст, тем более что компания поддерживает только расшифровку файлов в Google Cloud Bucket. Его также может быть немного сложно использовать, так как вы должны сначала зарегистрировать учетную запись GCP и проект.
Тем не менее, те, кто хочет протестировать API, могут сделать это с начальными 60 минутами бесплатной транскрипции и бесплатным хостингом Google Cloud за 300 долларов.
3. Расшифровка AWS
AWS Transcribe — еще один хороший вариант для крупных компаний. API предлагает один час бесплатной транскрипции в месяц в течение первых двенадцати месяцев использования. Однако точность несколько ниже, чем у других API, представленных сегодня на рынке, а документация обновляется не так регулярно.
Как и в Google, начать работу с AWS Transcribe может быть немного сложно и дорого, поскольку он поддерживает только файлы, размещенные в корзине Amazon S3.
Тем, кто ищет специализированную транскрипцию, например, в медицинской отрасли, следует проверить его Transcribe Medical API, который обучен точно работать в этой профессии.
Топ-3 библиотеки транскрипции с открытым исходным кодом
В дополнение к API-интерфейсам транскрипции существует множество общедоступных библиотек транскрипции с открытым исходным кодом. Хотя бесплатные библиотеки с открытым исходным кодом требуют значительно большей работы, чем API, для обеспечения высокой точности и полезности.
Однако, если вы готовы приложить усилия и имеете базовое представление о распознавании речи, вам следует рассмотреть три основных варианта:
1. Wav2Письмо
Wav2Letter, __[Автоматическое распознавание речи (ASR)] от Facebook AI Research(https://www.assemblyai.com/blog/what-is-asr/)__toolkit , предназначен для использования исследователями и разработчиками для транскрипции речи.
Благодаря предварительно обученным моделям для набора данных Librispeech это хорошая библиотека с открытым исходным кодом, с которой можно быстро начать работу.
Wav2Letter может похвастаться приличной точностью и написан на C++.
2. Глубокая речь
DeepSpeech, созданный с использованием сквозной архитектуры модели, впервые разработанной Baidu, представляет собой отличный вариант транскрипции речи с открытым исходным кодом.
С DeepSpeech легко работать, тем более что он предназначен для работы с целым рядом устройств, от Raspberry Pi 4 до мощного графического процессора.
Он также обладает хорошей готовой точностью для библиотеки с открытым исходным кодом.
3. Калди
Наконец, Kaldi — еще одна очень популярная библиотека распознавания речи с открытым исходным кодом.
Из-за его популярности существует множество бесплатных учебных пособий, которые помогут вам приступить к обучению собственных моделей распознавания речи и настроить свой опыт.**
Как и DeepSpeech, Kaldi также обладает хорошей точностью распознавания речи и предназначен для того, чтобы разработчики могли быстро начать его использовать.
Оригинал