Я работаю над проектом, где мне нужно извлечь человеческий звук из аудиофайла .wav с помощью java.
Звуковой файл .wav может содержать от 3 до 4 звуков, таких как собака, кошка, музыка и человек. Мне нужно будет определить человеческий звук, а затем отвлечь эту часть от аудиофайла .wav.
Я использую FFT.java и Complex.java.
Теперь я написал класс AudioFileReader, который считывает файл audio.wav с жесткого диска, а затем преобразует его в массив байтов. Затем использовались вышеупомянутые FFT.java и Complex.java для применения FFT.fft(bytesArray), который дает мне сложный массив в обратном порядке;
Теперь проблема заключается в том, как извлечь человеческий шаблон байтового звука из возвращаемого сложного массива... знает ли кто-нибудь, как я мог бы это достичь?
Edit: Мы принимаем очень простой файл audio.wav. Например, звук кота, затем тишина, звук человека, затем тишина, звук собаки, затем тишина и т.д. Никакая смесь голосов.