Как читать матрицу смешения классификатора в WEKA

Извините, я новичок в WEKA и просто изучаю.

В моем выводе классификатора решений (J48) есть матрица замешательства:

a    b   <----- classified as
130  8     a = functional
15   150   b = non-functional

Как я могу прочитать эту матрицу? Какая разница между a и b?
Кроме того, может ли кто-нибудь объяснить мне, какие значения домена?

Ответ 1

Я бы сказал так:

Матрица путаницы - это Weka, сообщающая о том, насколько хороша эта модель J48 с точки зрения того, что она делает правильно, и что она ошибается.

В ваших данных целевая переменная была либо "функциональной", либо "нефункциональной"; правая часть матрицы сообщает вам, что столбец "a" является функциональным, а "b" нефункциональным.

В столбцах рассказывается, как ваша модель классифицировала ваши образцы - это то, что предсказала модель:

В первом столбце содержатся все образцы, которые ваша модель считает "а" - 145 из них, всего
Второй столбец содержит все образцы, которые ваша модель считает "b" - 158 из них

С другой стороны, строки представляют реальность:

Первая строка содержит все образцы, которые действительно являются "а" - 138 из них, всего
Вторая строка содержит все образцы, которые действительно являются "b" - 165 из них

Зная столбцы и строки, вы можете вникнуть в детали:

В начало слева, 130, это то, что ваша модель считает "а" , которая на самом деле "a" - это были правильные
Внизу слева, 15, это то, что ваша модель считает "а" , но которая на самом деле "b" < - один вид ошибки
В начало справа, 8, это то, что ваша модель считает "b" , но которая действительно являются "а" - другой вид ошибки
Внизу справа, 150 - это то, что ваша модель считает "б", которая действительно "b"

Таким образом, верхние и нижние правые матрицы показывают, что ваша модель становится правильной.

Нижние левые и верхние правые матрицы показывают, где ваша модель запуталась.

Ответ 2

Вы читали страницу Википедии о путанице матриц? Текст вокруг матрицы в их примере устроен немного по-другому (метки строк слева, а не справа), но вы читаете это точно так же.

Строка указывает на истинный класс, столбец - на выход классификатора. Тогда каждая запись дает количество экземпляров <row> которые были классифицированы как <column>. В вашем примере 15 Bs были (неправильно) классифицированы как As, 150 B были правильно классифицированы как B и т.д.

В результате все правильные классификации расположены по диагонали от верхнего левого до нижнего правого угла. Все, что находится за этой диагональю, является какой-то неправильной классификацией.

Изменить: страница Википедии с тех пор переключил строки и столбцы вокруг. Бывает. При изучении матрицы путаницы всегда проверяйте метки, чтобы увидеть, являются ли они истинными классами в строках, предсказанными классами в столбцах или наоборот.