У меня есть набор аудиофайлов, которые загружаются пользователями, и неизвестно, что они содержат.
Я хотел бы взять произвольный звуковой файл и извлечь каждый из экземпляров, где кто-то говорит в отдельные аудиофайлы. Я не хочу обнаруживать фактические слова, просто "начатые разговоры", "прекратить говорить" и создавать новые файлы в этих точках.
(Я ориентируюсь на среду Linux и разрабатываю на Mac)
Я нашел Sox, который выглядит многообещающим, и он имеет режим "vad" (обнаружение активности голоса). Однако, похоже, этот первый экземпляр речи и полосок звучит до этой точки, поэтому он закрывается, но не совсем прав.
Я также просмотрел библиотеку Python 'wave', но тогда мне нужно было написать собственную реализацию Sox 'vad'.
Есть ли инструменты командной строки, которые будут делать то, что я хочу с полки? Если нет, подходят ли какие-либо хорошие Python или Ruby?