Как интерпретировать выход регрессии Weka Logistic?

Пожалуйста, помогите интерпретировать результаты логистической регрессии, созданной weka.classifiers.functions.Logistic из библиотеки Weka.

Я использую числовые данные из примеров Weka:

@relation weather

@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

Чтобы создать модель логистической регрессии, я использую команду:   java -cp $WEKA_INS/weka.jar weka.classifiers.functions.Logistic -t $WEKA_INS/data/weather.numeric.arff -T $WEKA_INS/data/weather.numeric.arff -d./weather.numeric.model. ARFF

Здесь три аргумента означают:

-t <name of training file> : Sets training file.
-T <name of test file> : Sets test file. 
-d <name of output file> : Sets model output file.

Запуск вышеуказанной команды приведет к следующему выводу:

Logistic Regression with ridge parameter of 1.0E-8
Coefficients...
              Class
Variable                    yes
===============================
outlook=sunny           -6.4257
outlook=overcast        13.5922
outlook=rainy           -5.6562
temperature             -0.0776
humidity                -0.1556
windy                    3.7317
Intercept                22.234

Odds Ratios...
              Class
Variable                    yes
===============================
outlook=sunny            0.0016
outlook=overcast    799848.4264
outlook=rainy            0.0035
temperature              0.9254
humidity                 0.8559
windy                   41.7508


Time taken to build model: 0.05 seconds
Time taken to test model on training data: 0 seconds

=== Error on training data ===
Correctly Classified Instances          11               78.5714 %
Incorrectly Classified Instances         3               21.4286 %
Kappa statistic                          0.5532
Mean absolute error                      0.2066
Root mean squared error                  0.3273
Relative absolute error                 44.4963 %
Root relative squared error             68.2597 %
Total Number of Instances               14     

=== Confusion Matrix ===
 a b   <-- classified as
 7 2 | a = yes
 1 4 | b = no

Вопросы:

1) Первый раздел отчета:

Coefficients...
              Class
Variable                    yes
===============================
outlook=sunny           -6.4257
outlook=overcast        13.5922
outlook=rainy           -5.6562
temperature             -0.0776
humidity                -0.1556
windy                    3.7317
Intercept                22.234

1.1) Правильно ли я понимаю, что "Коэффициенты" - это фактически веса, которые применяются к каждому атрибуту перед добавлением их вместе для получения значения атрибута class "play" равным "yes"?

2) Второй раздел отчета:

Odds Ratios...
              Class
Variable                    yes
===============================
outlook=sunny            0.0016
outlook=overcast    799848.4264
outlook=rainy            0.0035
temperature              0.9254
humidity                 0.8559
windy                   41.7508

2.1) В чем смысл "Коэффициентов шансов"? 2.2) Все ли они также относятся к атрибуту класса "play", равному "да"? 2.3) Почему значение "outlook = overcast" намного больше, чем значение "outlook = sunny"?

3)

=== Confusion Matrix ===
 a b   <-- classified as
 7 2 | a = yes
 1 4 | b = no

3.1) Что представляет собой матрица Confusion Matrix?

Большое спасибо за вашу помощь!

Ответ 1

Вопрос:

  • Вы в основном правы. Коэффициенты на самом деле являются весами, которые применяются к каждому атрибуту, прежде чем добавлять их вместе. Однако результат - это вероятность того, что новый экземпляр принадлежит классу yes ( > 0,5 означает "да" ).

  • Коэффициенты шансов указывают на то, насколько значительным будет влияние изменения этого значения (или изменения на это значение) на предсказание. Я думаю, что эта ссылка отлично справляется с объяснением соотношений шансов. Значение outlook = overcast настолько велико, что, если прогноз слишком пасмурен, шансы очень хорошие, что игра будет равна да.

  • Матрица замешательства просто показывает вам, сколько точек тестовых данных правильно и неправильно классифицировано. В вашем примере 7 A были классифицированы как A, где 2 A были классифицированы как B. На ваш вопрос более подробно ответил на этот вопрос: Как прочитать матрицу смешения классификатора в WEKA.