Я хотел бы создать программу для определения того, насколько закрыта аудиозапись пользователя для другой записи, чтобы исправить произношение пользователя. Например:
- Я записываю себя, говоря "Доброе утро".
- Я даю запись иностранному студенту "Доброе утро".
- Сравните его запись с моим, чтобы узнать, достаточно ли его произношение.
Я видел это в некоторых инструментах изучения языка (я считаю, что Розетта Стоун делает это), но как это делается? Обратите внимание, что мы имеем дело только с речью (а не, скажем, с музыкой). Какие алгоритмы или библиотеки я должен изучить?