Как получить или сформировать тестовые данные для системы рекомендаций

В настоящее время я изучаю системы рекомендаций и хотел бы знать, как другие исследователи приобретают или генерируют тестовые данные для оценки производительности систем?

Ответ 1

Когда я работал с рекомендательными системами, у меня была такая же проблема. Мне больше всего понравился набор данных Grouplens:

http://grouplens.org/node/12

Вы можете загружать рейтинги, данные пользователями в кино.

Кроме того, я описал в своем блоге некоторые наборы данных, которые я нашел при исследовании:

http://girlincomputerscience.blogspot.com.br/2010/12/datasets.html

Надеюсь, что это поможет!

Ответ 2

Я не знаю, какое поле вы оцениваете, но если это рекомендации для фильма, вы можете использовать данные MovieLens от GroupLens, чтобы начать с. (Похоже, что их сайт временно отключен, но я уверен, что он скоро будет готов).

У них есть три набора данных - 100 000 голосов (предпочтений), 1 миллион и 10 миллионов - и кажется, что они более или менее стандарт, с которым все начинают работать.