Разумеется, загрузить аудио в программу очень просто, но если ваша задача — получить связный текст, а не отдельные слова, результат может вас не обрадовать. Для того чтобы объяснить, почему, сначала мы хотели бы дать небольшую справку о текущем состоянии дел в машинном обучении.
Небольшая справка о текущем состоянии дел в машинном обучении
Современные алгоритмы компьютерного распознавания речи демонстрируют чудеса при преобразовании в текст записей речи на языках без гибкой морфологии. Сразу оговоримся, что для получения превосходного результата запись должна быть сделана в тихой обстановке.
К таким языкам-счастливчикам относятся, например, английский, французский или испанский — в них количество словоформ в зависимости от рода, числа и времени минимально, а падежи и склонения вообще отсутствуют. Немного редактуры — и перед вами готовый к использованию текст.
Чуть хуже, но все же на достойном уровне алгоритмы преобразовывают в текст короткие голосовые команды на любых языках. Роботы привыкли слышать практически одни и те же фразы изо дня в день, а однообразие исходного материала — это залог хорошего результата при распознавании.