Представьте, что у вас есть набор из пяти элементов (A-E) с некоторыми числовыми значениями измеренного свойства (несколько наблюдений для каждого элемента, например "частота сердечных сокращений" ):
A = {100, 110, 120, 130}
B = {110, 100, 110, 120, 90}
C = { 90, 110, 120, 100}
D = {120, 100, 120, 110, 110, 120}
E = {110, 120, 120, 110, 120}
Сначала, мне нужно определить, существуют ли существенные различия на средних уровнях. Поэтому я запускаю один путь ANOVA с помощью Статистический пакет, предоставляемый Apache Commons Math. Никаких проблем до сих пор, я получаю логическое значение, которое говорит мне, существуют ли различия или нет.
Второй, если различия обнаружены, мне нужно знать элемент (или элементы), который отличается от остальных. Я планирую использовать непарные t-тесты, сравнивая каждую пару элементов (A с B, A с C.... D с E), чтобы узнать, отличается ли элемент от другого. Итак, на данный момент у меня есть информация о списке элементов, которые представляют существенные различия с другими, например:
C is different than B
C is different than D
Но мне нужен общий алгоритм для эффективного определения с этой информацией того, какой элемент отличается от других (C в примере, но может быть более одного).
Если оставить статистические вопросы в стороне, вопрос может быть (в общих чертах): "Учитывая информацию о равенстве/неравенстве каждой из пар элементов в коллекции, как бы вы могли определить элемент /s, который/отличается от других?
Кажется, проблема, в которой может применяться теория графов. Я использую язык Java для реализации, если это полезно.
Изменить: Элементы - это люди, и измеренные значения необходимы для выполнения задачи. Мне нужно определить, кто принимает слишком много или слишком мало времени для выполнения задачи в какой-то системе обнаружения мошенничества.