Я хотел бы получить некоторую меру расстояния между двумя звуками. Например, я хочу сравнить звук животного с звуком человека, подражающего этому животному, а затем вернуть оценку того, насколько похожи звуки.
Кажется сложной проблемой. Какой был бы лучший способ приблизиться к нему? Я подумывал выделить несколько функций из аудиосигналов, а затем выполнить эвклидовое расстояние или сходство с косинусом (или что-то в этом роде) по этим функциям. Какие функции можно было бы легко извлечь и использовать для определения различий в восприятии между звуками?
(Я видел что-то о том, как Ahazam использует хэширование, но это похоже на другую проблему, потому что две части звука точно такие же, с добавлением шума. Если в этом случае две части аудио не являются то же самое, они просто перцептивно похожи)