Индекс за пределами функции gbm

У меня странная проблема. Я успешно запускаю этот код на своем ноутбуке, но когда я пытаюсь запустить его на другой машине, я получаю это предупреждение Распространение не указано, предполагая bernoulli..., который я ожидаю, но потом получаю эту ошибку: Error in object$var.levels[[i]] : subscript out of bounds

library(gbm)
gbm.tmp <- gbm(subxy$presence ~ btyme + stsmi + styma + bathy,
                data=subxy,
                var.monotone=rep(0, length= 4), n.trees=2000, interaction.depth=3,
                n.minobsinnode=10, shrinkage=0.01, bag.fraction=0.5, train.fraction=1,
                verbose=F, cv.folds=10)

Может ли кто-нибудь помочь? Структуры данных точно такие же, один и тот же код, то же R. Я даже не использую индекс здесь.

EDIT: traceback()

6: predict.gbm(model, newdata = my.data, n.trees = best.iter.cv)
5: predict(model, newdata = my.data, n.trees = best.iter.cv)
4: predict(model, newdata = my.data, n.trees = best.iter.cv)
3: gbmCrossValPredictions(cv.models, cv.folds, cv.group, best.iter.cv, 
       distribution, data[i.train, ], y)
2: gbmCrossVal(cv.folds, nTrain, n.cores, class.stratify.cv, data, 
       x, y, offset, distribution, w, var.monotone, n.trees, interaction.depth, 
       n.minobsinnode, shrinkage, bag.fraction, var.names, response.name, 
       group)
1: gbm(subxy$presence ~ btyme + stsmi + styma + bathy, data = subxy,var.monotone = rep(0, length = 4), n.trees = 2000, interaction.depth = 3, n.minobsinnode = 10, shrinkage = 0.01, bag.fraction = 0.5, train.fraction = 1, verbose = F, cv.folds = 10)

Может ли это что-то сделать, потому что я переместил сохраненное рабочее пространство R на другую машину?

EDIT 2: ok, поэтому я обновил пакет gbm на машине, где работал код, и теперь я получаю ту же ошибку. Поэтому на данный момент я думаю, что более старый пакет gbm, возможно, не имел этой проверки или что более новая версия имеет некоторые проблемы. Я не понимаю gbm достаточно хорошо, чтобы сказать.

Ответ 1

просто догадка, так как я не могу видеть ваши данные, но я считаю, что ошибка возникает, когда у вас есть уровни переменных, которые существуют в наборе тестов, которых нет в учебном наборе.

это может легко произойти, если у вас есть фактор-переменная с большим количеством уровней, или один уровень имеет небольшое количество экземпляров.

так как вы используете сгибы CV, возможно, что удержание, установленное на одном из циклов, имеет данные о тренировках на иностранных уровнях.

Я бы предложил либо:

A) используйте model.matrix() для однострочного кодирования ваших факторных переменных

B) продолжайте устанавливать разные семена, пока не получите разделение CV, которое не имеет этой ошибки.

РЕДАКТИРОВАТЬ: yep, с этой трассировкой, ваш 3-й аутсорсинг CV имеет уровень фактора в его тестовом наборе, который не существует в обучении. поэтому функция прогнозирования видит чужое значение и не знает, что делать.

РЕДАКТИРОВАТЬ 2: Вот краткий пример, чтобы показать, что я подразумеваю под "уровнями факторов не в тестовом наборе"

#Example data with low occurrences of a factor level:

set.seed(222)
data = data.frame(cbind( y = sample(0:1, 10, replace = TRUE), x1 = rnorm(10), x2 = as.factor(sample(0:10, 10, replace = TRUE))))
data$x2 = as.factor(data$x2)
data

      y         x1 x2
 [1,] 1 -0.2468959  2
 [2,] 0 -1.2155609  6
 [3,] 0  1.5614051  1
 [4,] 0  0.4273102  5
 [5,] 1 -1.2010235  5
 [6,] 1  1.0524585  8
 [7,] 0 -1.3050636  6
 [8,] 0 -0.6926076  4
 [9,] 1  0.6026489  3
[10,] 0 -0.1977531  7

#CV fold.  This splits a model to be trained on 80% of the data, then tests against the remaining 20%.  This is a simpler version of what happens when you call gbm CV fold.

CV_train_rows = sample(1:10, 8, replace = FALSE) ; CV_test_rows = setdiff(1:10, CV_train_rows)
CV_train = data[CV_train_rows,] ; CV_test = data[CV_test_rows,]

#build a model on the training... 

CV_model = lm(y ~ ., data = CV_train)
summary(CV_model)
#note here: as the model has been built, it was only fed factor levels (3, 4, 5, 6, 7, 8) for variable x2

CV_test$x2
#in the test set, there are only levels 1 and 2.

#attempt to predict on the test set
predict(CV_model, CV_test)

Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) : 
factor x2 has new levels 1, 2

Ответ 2

Я сталкиваюсь с той же проблемой и в конечном итоге решаю ее, изменив одну из скрытых функций, называемых expect.gbm в пакете gbm. Эта функция предсказывает тестирование, установленное обученным объектом gbm на обучающем наборе из деления путем перекрестной проверки.

Проблема заключается в том, что прошедший набор тестов должен содержать только столбцы, соответствующие функциям, поэтому вы должны изменить функцию.