Я спросил question несколько дней назад о том, как найти ближайших соседей для данного вектора. Мой вектор теперь 21 размер, и прежде чем я продолжу дальше, потому что я не из области машинного обучения или математики, я начинаю задавать себе некоторые фундаментальные вопросы:
- Является ли евклидово расстояние хорошей метрикой для поиска ближайших соседей в первую очередь? Если нет, то каковы мои варианты?
- Кроме того, как решить вопрос о правильном пороге для определения k-соседей? Есть ли какой-то анализ, который можно сделать для определения этого значения?
- Раньше мне предлагалось использовать kd-Trees, но на странице Википедии ясно сказано, что для high-dimension kd-Tree почти эквивалентно поиску грубой силы. В этом случае, как наилучшим образом найти ближайших соседей в миллионном наборе данных эффективно?
Кто-нибудь может прояснить некоторые (или все) вышеуказанные вопросы?