Как создать/настроить собственную функцию счетчика в scikit-learn?

Я использую Поддержка векторной регрессии в качестве оценки в GridSearchCV. Но я хочу изменить функцию ошибки: вместо того, чтобы использовать значение по умолчанию (R-squared: коэффициент определения), я хотел бы определить свою собственную функцию пользовательских ошибок.

Я попытался сделать один с make_scorer, но это не сработало.

Я прочитал документацию и обнаружил, что можно создать пользовательские оценки, но мне не нужно переделывать всю оценку - только error/scoring.

Я думаю, что могу сделать это, определив вызываемый как бомбардир, как он говорит в docs.

Но я не знаю, как использовать оценку: в моем случае SVR. Должен ли я переключиться на классификатор (например, SVC)? И как я буду использовать его?

Моя пользовательская функция ошибки выглядит следующим образом:

def my_custom_loss_func(X_train_scaled, Y_train_scaled):
    error, M = 0, 0
    for i in range(0, len(Y_train_scaled)):
        z = (Y_train_scaled[i] - M)
        if X_train_scaled[i] > M and Y_train_scaled[i] > M and (X_train_scaled[i] - Y_train_scaled[i]) > 0:
            error_i = (abs(Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(z))
        if X_train_scaled[i] > M and Y_train_scaled[i] > M and (X_train_scaled[i] - Y_train_scaled[i]) < 0:
            error_i = -(abs((Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(z)))
        if X_train_scaled[i] > M and Y_train_scaled[i] < M:
            error_i = -(abs(Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(-z))
    error += error_i
    return error

Переменная M не равна нулю/нулю. Я просто установил его для нуля для простоты.

Может ли кто-нибудь показать пример приложения этой пользовательской функции подсчета очков? Спасибо за вашу помощь!

Ответ 1

Как вы видели, это делается с помощью make_scorer (docs).

from sklearn.grid_search import GridSearchCV
from sklearn.metrics.scorer import make_scorer
from sklearn.svm import SVR

import numpy as np

rng = np.random.RandomState(1)

def my_custom_loss_func(X_train_scaled, Y_train_scaled):
    error, M = 0, 0
    for i in range(0, len(Y_train_scaled)):
        z = (Y_train_scaled[i] - M)
        if X_train_scaled[i] > M and Y_train_scaled[i] > M and (X_train_scaled[i] - Y_train_scaled[i]) > 0:
            error_i = (abs(Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(z))
        if X_train_scaled[i] > M and Y_train_scaled[i] > M and (X_train_scaled[i] - Y_train_scaled[i]) < 0:
            error_i = -(abs((Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(z)))
        if X_train_scaled[i] > M and Y_train_scaled[i] < M:
            error_i = -(abs(Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(-z))
    error += error_i
    return error

# Generate sample data
X = 5 * rng.rand(10000, 1)
y = np.sin(X).ravel()

# Add noise to targets
y[::5] += 3 * (0.5 - rng.rand(X.shape[0]/5))

train_size = 100

my_scorer = make_scorer(my_custom_loss_func, greater_is_better=True)

svr = GridSearchCV(SVR(kernel='rbf', gamma=0.1),
                   scoring=my_scorer,
                   cv=5,
                   param_grid={"C": [1e0, 1e1, 1e2, 1e3],
                               "gamma": np.logspace(-2, 2, 5)})

svr.fit(X[:train_size], y[:train_size])

print svr.best_params_
print svr.score(X[train_size:], y[train_size:])

Ответ 2

У Джейми есть пример с флешами, но вот пример использования make_scorer прямо из scikit-learn документации:

import numpy as np
def my_custom_loss_func(ground_truth, predictions):
    diff = np.abs(ground_truth - predictions).max()
    return np.log(1 + diff)

# loss_func will negate the return value of my_custom_loss_func,
#  which will be np.log(2), 0.693, given the values for ground_truth
#  and predictions defined below.
loss  = make_scorer(my_custom_loss_func, greater_is_better=False)
score = make_scorer(my_custom_loss_func, greater_is_better=True)
ground_truth = [[1, 1]]
predictions  = [0, 1]
from sklearn.dummy import DummyClassifier
clf = DummyClassifier(strategy='most_frequent', random_state=0)
clf = clf.fit(ground_truth, predictions)
loss(clf,ground_truth, predictions) 

score(clf,ground_truth, predictions)

При определении пользовательского счетчика с помощью sklearn.metrics.make_scorer соглашение состоит в том, что пользовательские функции, заканчивающиеся на _score, возвращают значение для максимизации. А для счетчиков, заканчивающихся на _loss или _error, значение возвращается для минимизации. Вы можете использовать эту функциональность, установив параметр greater_is_better внутри make_scorer. То есть этот параметр будет True для счетчиков, где более высокие значения лучше, и False для счетчиков, где более низкие значения лучше. GridSearchCV может затем оптимизироваться в соответствующем направлении.

Затем вы можете преобразовать свою функцию в качестве бомбардира следующим образом:

from sklearn.metrics.scorer import make_scorer

def custom_loss_func(X_train_scaled, Y_train_scaled):
    error, M = 0, 0
    for i in range(0, len(Y_train_scaled)):
        z = (Y_train_scaled[i] - M)
        if X_train_scaled[i] > M and Y_train_scaled[i] > M and (X_train_scaled[i] - Y_train_scaled[i]) > 0:
            error_i = (abs(Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(z))
        if X_train_scaled[i] > M and Y_train_scaled[i] > M and (X_train_scaled[i] - Y_train_scaled[i]) < 0:
            error_i = -(abs((Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(z)))
        if X_train_scaled[i] > M and Y_train_scaled[i] < M:
            error_i = -(abs(Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(-z))
    error += error_i
    return error


custom_scorer = make_scorer(custom_loss_func, greater_is_better=True)

И затем передайте custom_scorer в GridSearchCV, как и любую другую функцию подсчета очков: clf = GridSearchCV(scoring=custom_scorer).