В настоящее время я изучаю системы рекомендаций и хотел бы знать, как другие исследователи приобретают или генерируют тестовые данные для оценки производительности систем?
Как получить или сформировать тестовые данные для системы рекомендаций
Ответ 1
Когда я работал с рекомендательными системами, у меня была такая же проблема. Мне больше всего понравился набор данных Grouplens:
Вы можете загружать рейтинги, данные пользователями в кино.
Кроме того, я описал в своем блоге некоторые наборы данных, которые я нашел при исследовании:
http://girlincomputerscience.blogspot.com.br/2010/12/datasets.html
Надеюсь, что это поможет!
Ответ 2
Я не знаю, какое поле вы оцениваете, но если это рекомендации для фильма, вы можете использовать данные MovieLens от GroupLens, чтобы начать с. (Похоже, что их сайт временно отключен, но я уверен, что он скоро будет готов).
У них есть три набора данных - 100 000 голосов (предпочтений), 1 миллион и 10 миллионов - и кажется, что они более или менее стандарт, с которым все начинают работать.