Я хочу взять аудио данные PCM и найти в нем пики. В частности, я хочу вернуть частоту и время, в которые происходит пик.
Мое понимание этого заключается в том, что я должен взять данные PCM и выгрузить его в массив, установив его в качестве реальных значений, когда сложные части установлены на 0. Затем я беру БПФ, и я возвращаю массив. Если каждое число в массиве является значением величины, как мне получить частоту, связанную с каждой из них? Кроме того, я беру величину реальной и сложной части или просто отбрасываю комплексные значения?
Наконец, если бы я хотел найти пики в одной песне, я просто устанавливаю небольшое окно в FFT и перескакиваю его по всему аудио? Любые предложения о том, насколько велико это окно?