Речь в текст (распознавание голоса) непосредственно из аудио / транскрипции [закрыто]

Необходимо иметь возможность преобразовывать или расшифровывать аудио (например, из .MP3, другого аудиоформата), содержащее речь, в текстовые расшифровки, используя алгоритм преобразования речи в текст (распознавание голоса) с высоким Существует множество доступных способов сделать это, которые становятся все более точными, но предназначены для речи, произносимой в микрофон устройства (например, Google Translate/соответствующий API для Интернета, приложение Dragon для iOS). Мне нужен способ прямой передачи звука файл в механизм распознавания речи/API. Не хотите воспроизводить звук через динамик и захватывать его с помощью микрофона — это занимает много времени для длинных аудиофайлов и ухудшает качество звука и, как следствие, качество транскрипции. или API, или код для этого есть? Есть ли какая-то оболочка вокруг одной из существующих служб, которая предполагает, что микрофон будет источником?

Спасибо


Теперь есть относительно новый сервис, который позволяет автоматическую транскрипцию речи в текст, и отличный веб-интерфейс для редактирования результатов человеком. Это:

https://trint.com/

Мы использовали его и остались довольны результатами. Транскрипция, конечно же, не идеальна, но это отличное начало, и она позволяет редактировать, готовый человеком.

Также теперь есть новый API и сервис, доступные от IBM Bluemix/Watson. Вы можете попробовать бесплатную демоверсию здесь:

https://speech-to-text-demo.mybluemix.net/

Эта служба выполняет довольно приличную работу по преобразование звука (полученного с микрофона или из аудиофайла) в текст. В настоящее время, по крайней мере, в демонстрации кажется, что он не использует MP3, но будет использовать wav и другие форматы. У этой службы есть полный API, и она в первую очередь предназначена для встраивания в приложения.

Оцените статью
Botgadget.ru
Добавить комментарий