Что означает парадокс Симпсона в тестировании AB?

Я делаю A/B тестирование, и я столкнулся с парадоксом Симпсона в моих результатах (день против месяца против общей продолжительности теста).

  • Означает ли это, что мое тестирование a/b неверно/репрезентативно? (Некоторый внешний фактор повлиял на тестирование?)
  • Если это признак проблемы, каковы дальнейшие направления?

Спасибо за вашу большую помощь.

Дополнительная литература: http://en.wikipedia.org/wiki/Simpson%27s_paradox

Ответ 1

Немного сложно сказать, не видя точных данных и размеров, которые вы тестируете, но, вообще говоря, вы хотите принимать решения на основе несвязанных данных. Эта статья из Microsoft дает довольно яркий пример парадокса Симпсона при тестировании программного обеспечения.

Можете ли вы предоставить чистый пример ваших комбинированных и несвязанных данных и краткую сводку теста?

Ответ 2

Если A явно, значительно лучше в отдельных тестах A/B, в то время как B оценивается лучше в совокупности, то главная причина заключается в том, что вы не можете агрегировать эти наборы данных таким образом. А лучше.

Если тестирование получило одинаковые результаты каждый день, вы не получили бы этого ясного результата даже при разных размерах выборки в день. Поэтому я думаю, что это дополнительно подразумевает, что что-то изменилось. Это может быть что угодно. Возможно, то, что вы тестировали каждый день, изменилось (возможно, очень тонким способом, например, скоростью сервера). Или, может быть, люди, которых вы тестируете, изменились (возможно, демографически, возможно, только с точки зрения их настроения). Это не означает, что ваше тестирование плохое или недействительное. Это просто означает, что вы измеряете то, что движется, и это делает вещи сложными.

И я мог бы ошибаться или неправильно понимать ситуацию, но я думаю, что также верно, что вы не тестировали A и B столько же раз. То есть, если в понедельник вы протестировали A 50 раз и B 50 раз, а во вторник вы протестировали A 600 раз и B 600 раз, и так далее, а A обогнал B каждый день, то я не вижу, как вы могли бы получить совокупный результат, когда B превосходит A. Если это верно для вашей тестовой установки, это, безусловно, похоже на то, что вы могли бы исправить, чтобы упростить ваши данные.

Ответ 3

Парадокс Симпсона происходит только тогда, когда ваши размеры группы различны. Фактически, итоговые результаты являются средневзвешенными для результатов от каждой группы (и при этом взвешивании парадокс может появиться).

На самом деле это не вызвано внешними факторами или вещами. Это просто потому, что одна группа гораздо важнее (потому что в группе больше элементов).

Если вы предоставите дополнительную информацию, мы, вероятно, могли бы помочь лучше.