Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Последующая настройка порога принятия решений для обучения с учетом стоимости#

После обучения классификатора выход predict метод выводит предсказания меток классов, соответствующие пороговой обработке либо decision_function или predict_proba выход. Для бинарного классификатора порог по умолчанию определяется как оценка апостериорной вероятности 0,5 или оценка решения 0,0.

Однако эта стратегия по умолчанию, скорее всего, не оптимальна для поставленной задачи. Здесь мы используем набор данных "Statlog" по немецким кредитам [1] для иллюстрации примера использования. В этом наборе данных задача состоит в том, чтобы предсказать, имеет ли человек «хороший» или «плохой» кредит. Кроме того, предоставляется матрица затрат, которая определяет стоимость ошибочной классификации. В частности, ошибочная классификация «плохого» кредита как «хорошего» в среднем в пять раз дороже, чем ошибочная классификация «хорошего» кредита как «плохого».

Мы используем TunedThresholdClassifierCV для выбора точки отсечения функции принятия решений, которая минимизирует предоставленную бизнес-стоимость.

Во второй части примера мы дополнительно расширяем этот подход, рассматривая задачу обнаружения мошенничества в транзакциях по кредитным картам: в этом случае бизнес-метрика зависит от суммы каждой отдельной транзакции.

Ссылки

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Обучение с учетом затрат с постоянными выгодами и издержками#

В этом первом разделе мы иллюстрируем использование TunedThresholdClassifierCV в условиях обучения с учетом стоимости, когда выигрыши и затраты, связанные с каждой записью матрицы ошибок, постоянны. Мы используем проблематику, представленную в [2] используя набор данных "Statlog" по немецким кредитам [1].

Набор данных "Statlog" по кредитам в Германии#

Мы загружаем набор данных German credit из OpenML.

import sklearn
from sklearn.datasets import fetch_openml

sklearn.set_config(transform_output="pandas")

german_credit = fetch_openml(data_id=31, as_frame=True, parser="pandas")
X, y = german_credit.data, german_credit.target

Мы проверяем типы признаков, доступные в X.

X.info()

RangeIndex: 1000 entries, 0 to 999
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype
---  ------                  --------------  -----
 checking_status         1000 non-null   category
 duration                1000 non-null   int64
 credit_history          1000 non-null   category
 purpose                 1000 non-null   category
 credit_amount           1000 non-null   int64
 savings_status          1000 non-null   category
 employment              1000 non-null   category
 installment_commitment  1000 non-null   int64
 personal_status         1000 non-null   category
 other_parties           1000 non-null   category
residence_since         1000 non-null   int64
property_magnitude      1000 non-null   category
age                     1000 non-null   int64
other_payment_plans     1000 non-null   category
housing                 1000 non-null   category
existing_credits        1000 non-null   int64
job                     1000 non-null   category
num_dependents          1000 non-null   int64
own_telephone           1000 non-null   category
foreign_worker          1000 non-null   category
dtypes: category(13), int64(7)
memory usage: 69.9 KB

Многие признаки являются категориальными и обычно закодированы строками. Нам нужно закодировать эти категории при разработке нашей прогнозной модели. Проверим целевые переменные.

y.value_counts()

class
good    700
bad     300
Name: count, dtype: int64

Еще одно наблюдение заключается в том, что набор данных несбалансирован. Нам нужно быть осторожными при оценке нашей прогнозной модели и использовать семейство метрик, адаптированных к этой ситуации.

Кроме того, мы наблюдаем, что целевая переменная закодирована строкой. Некоторые метрики (например, точность и полнота) требуют указания метки интереса, также называемой 'положительной меткой'. Здесь мы определяем, что наша цель - предсказать, является ли выборка 'плохим' кредитом.

pos_label, neg_label = "bad", "good"

Для проведения анализа мы разделяем наш набор данных с помощью одного стратифицированного разбиения.

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

Мы готовы разработать нашу прогнозную модель и соответствующую стратегию оценки.

Метрики оценки#

В этом разделе мы определяем набор метрик, которые будем использовать далее. Чтобы увидеть эффект настройки точки отсечения, мы оцениваем прогностическую модель с использованием кривой ROC (Receiver Operating Characteristic) и кривой Precision-Recall. Значения, указанные на этих графиках, - это истинно положительная частота (TPR), также известная как полнота или чувствительность, и ложноположительная частота (FPR), также известная как специфичность, для кривой ROC, а также точность и полнота для кривой Precision-Recall.

Из этих четырех метрик scikit-learn не предоставляет оценщик для FPR. Поэтому нам нужно определить небольшую пользовательскую функцию для его вычисления.

from sklearn.metrics import confusion_matrix


def fpr_score(y, y_pred, neg_label, pos_label):
    cm = confusion_matrix(y, y_pred, labels=[neg_label, pos_label])
    tn, fp, _, _ = cm.ravel()
    tnr = tn / (tn + fp)
    return 1 - tnr

Эта обученная модель не точна. Действительно, мы не установили параметры ядра и вместо этого использовали значения по умолчанию. Мы можем их проверить.

Поэтому нам нужно определить оценщик scikit-learn с помощью make_scorer куда передается информация. Мы храним все пользовательские скореры в словаре. Чтобы использовать их, нам нужно передать обученную модель, данные и целевую переменную, на которой мы хотим оценить прогностическую модель.

from sklearn.metrics import make_scorer, precision_score, recall_score

tpr_score = recall_score  # TPR and recall are the same metric
scoring = {
    "precision": make_scorer(precision_score, pos_label=pos_label),
    "recall": make_scorer(recall_score, pos_label=pos_label),
    "fpr": make_scorer(fpr_score, neg_label=neg_label, pos_label=pos_label),
    "tpr": make_scorer(tpr_score, pos_label=pos_label),
}

Кроме того, оригинальное исследование [1] определяет пользовательскую бизнес-метрику. Мы называем "бизнес-метрикой" любую метрическую функцию, которая направлена на количественную оценку того, как предсказания (правильные или ошибочные) могут повлиять на бизнес-ценность развертывания данной модели машинного обучения в конкретном контексте приложения. Для нашей задачи предсказания кредитоспособности авторы предоставляют пользовательскую матрицу затрат, которая кодирует, что классификация "плохого" кредита как "хорошего" в среднем в 5 раз дороже, чем наоборот: для финансового учреждения менее затратно не предоставить кредит потенциальному клиенту, который не допустит дефолта (и, следовательно, упустить хорошего клиента, который в противном случае и вернул бы кредит, и выплатил проценты), чем предоставить кредит клиенту, который допустит дефолт.

Мы определяем функцию на Python, которая взвешивает матрицу ошибок и возвращает общую стоимость. Строки матрицы ошибок содержат количество наблюдаемых классов, а столбцы — количество предсказанных классов. Напомним, что здесь мы рассматриваем «плохой» как положительный класс (вторая строка и столбец). Инструменты выбора модели Scikit-learn ожидают, что мы следуем соглашению, что «выше» означает «лучше», поэтому следующая матрица выигрыша присваивает отрицательные выигрыши (стоимости) двум видам ошибок предсказания:

увеличение на -1 для каждого ложного положительного результата («хороший» кредит, помеченный как «плохой»),
увеличение на -5 за каждый ложный отрицательный результат («плохой» кредит, помеченный как «хороший»),
a 0 выигрыш для истинно положительных и истинно отрицательных случаев.

Обратите внимание, что теоретически, учитывая, что наша модель откалибрована, а наш набор данных репрезентативен и достаточно велик, нам не нужно настраивать порог, но можно безопасно установить его на 1/5 от соотношения затрат, как указано в уравнении (2) в статье Элкана [2].

import numpy as np


def credit_gain_score(y, y_pred, neg_label, pos_label):
    cm = confusion_matrix(y, y_pred, labels=[neg_label, pos_label])

    gain_matrix = np.array(
        [
            [0, -1],  # -1 gain for false positives
            [-5, 0],  # -5 gain for false negatives
        ]
    )
    return np.sum(cm * gain_matrix)


scoring["credit_gain"] = make_scorer(
    credit_gain_score, neg_label=neg_label, pos_label=pos_label
)

Базовая прогнозная модель#

Мы используем HistGradientBoostingClassifier как прогнозная модель, которая изначально обрабатывает категориальные признаки и пропущенные значения.

from sklearn.ensemble import HistGradientBoostingClassifier

model = HistGradientBoostingClassifier(
    categorical_features="from_dtype", random_state=0
).fit(X_train, y_train)
model

HistGradientBoostingClassifier(random_state=0)

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Мы оцениваем производительность нашей прогнозной модели с помощью кривых ROC и Precision-Recall.

import matplotlib.pyplot as plt

from sklearn.metrics import PrecisionRecallDisplay, RocCurveDisplay

fig, axs = plt.subplots(nrows=1, ncols=2, figsize=(14, 6))

PrecisionRecallDisplay.from_estimator(
    model, X_test, y_test, pos_label=pos_label, ax=axs[0], name="GBDT"
)
axs[0].plot(
    scoring["recall"](model, X_test, y_test),
    scoring["precision"](model, X_test, y_test),
    marker="o",
    markersize=10,
    color="tab:blue",
    label="Default cut-off point at a probability of 0.5",
)
axs[0].set_title("Precision-Recall curve")
axs[0].legend()

RocCurveDisplay.from_estimator(
    model,
    X_test,
    y_test,
    pos_label=pos_label,
    ax=axs[1],
    name="GBDT",
    plot_chance_level=True,
)
axs[1].plot(
    scoring["fpr"](model, X_test, y_test),
    scoring["tpr"](model, X_test, y_test),
    marker="o",
    markersize=10,
    color="tab:blue",
    label="Default cut-off point at a probability of 0.5",
)
axs[1].set_title("ROC curve")
axs[1].legend()
_ = fig.suptitle("Evaluation of the vanilla GBDT model")

Evaluation of the vanilla GBDT model, Precision-Recall curve, ROC curve

Напомним, что эти кривые дают представление о статистической производительности прогнозной модели для различных пороговых точек. Для кривой Precision-Recall сообщаемыми метриками являются точность и полнота, а для ROC-кривой — TPR (та же, что и полнота) и FPR.

Здесь различные точки отсечения соответствуют разным уровням оценок апостериорной вероятности в диапазоне от 0 до 1. По умолчанию, model.predict использует точку отсечения при оценке вероятности 0.5. Метрики для такой точки отсечения приведены с синей точкой на кривых: это соответствует статистической производительности модели при использовании model.predict.

Однако мы помним, что первоначальной целью было минимизировать стоимость (или максимизировать выгоду), как определено бизнес-метрикой. Мы можем вычислить значение бизнес- метрики:

print(f"Business defined metric: {scoring['credit_gain'](model, X_test, y_test)}")

Business defined metric: -232

На этом этапе мы не знаем, может ли другой порог привести к большему выигрышу. Чтобы найти оптимальный, нужно вычислить соотношение затрат и выгод, используя бизнес-метрику для всех возможных точек отсечения, и выбрать лучшую. Эта стратегия может быть довольно утомительной для реализации вручную, но TunedThresholdClassifierCV класс здесь, чтобы помочь нам. Он автоматически вычисляет соотношение затрат и выгод для всех возможных точек отсечения и оптимизирует для scoring.

Настройка точки отсечения#

Мы используем TunedThresholdClassifierCV для настройки порогового значения. Нам нужно предоставить бизнес-метрику для оптимизации, а также положительный класс. Внутренне оптимальное пороговое значение выбирается так, чтобы максимизировать бизнес-метрику с помощью перекрестной проверки. По умолчанию используется 5-кратная стратифицированная перекрестная проверка.

from sklearn.model_selection import TunedThresholdClassifierCV

tuned_model = TunedThresholdClassifierCV(
    estimator=model,
    scoring=scoring["credit_gain"],
    store_cv_results=True,  # necessary to inspect all results
)
tuned_model.fit(X_train, y_train)
print(f"{tuned_model.best_threshold_=:0.2f}")

tuned_model.best_threshold_=0.02

Мы строим кривые ROC и Precision-Recall для базовой модели и настроенной модели. Также мы строим точки отсечения, которые будут использоваться каждой моделью. Поскольку мы повторно используем тот же код позже, мы определяем функцию, которая генерирует графики.

def plot_roc_pr_curves(vanilla_model, tuned_model, *, title):
    fig, axs = plt.subplots(nrows=1, ncols=3, figsize=(21, 6))

    linestyles = ("dashed", "dotted")
    markerstyles = ("o", ">")
    colors = ("tab:blue", "tab:orange")
    names = ("Vanilla GBDT", "Tuned GBDT")
    for idx, (est, linestyle, marker, color, name) in enumerate(
        zip((vanilla_model, tuned_model), linestyles, markerstyles, colors, names)
    ):
        decision_threshold = getattr(est, "best_threshold_", 0.5)
        PrecisionRecallDisplay.from_estimator(
            est,
            X_test,
            y_test,
            pos_label=pos_label,
            linestyle=linestyle,
            color=color,
            ax=axs[0],
            name=name,
        )
        axs[0].plot(
            scoring["recall"](est, X_test, y_test),
            scoring["precision"](est, X_test, y_test),
            marker,
            markersize=10,
            color=color,
            label=f"Cut-off point at probability of {decision_threshold:.2f}",
        )
        RocCurveDisplay.from_estimator(
            est,
            X_test,
            y_test,
            pos_label=pos_label,
            curve_kwargs=dict(linestyle=linestyle, color=color),
            ax=axs[1],
            name=name,
            plot_chance_level=idx == 1,
        )
        axs[1].plot(
            scoring["fpr"](est, X_test, y_test),
            scoring["tpr"](est, X_test, y_test),
            marker,
            markersize=10,
            color=color,
            label=f"Cut-off point at probability of {decision_threshold:.2f}",
        )

    axs[0].set_title("Precision-Recall curve")
    axs[0].legend()
    axs[1].set_title("ROC curve")
    axs[1].legend()

    axs[2].plot(
        tuned_model.cv_results_["thresholds"],
        tuned_model.cv_results_["scores"],
        color="tab:orange",
    )
    axs[2].plot(
        tuned_model.best_threshold_,
        tuned_model.best_score_,
        "o",
        markersize=10,
        color="tab:orange",
        label="Optimal cut-off point for the business metric",
    )
    axs[2].legend()
    axs[2].set_xlabel("Decision threshold (probability)")
    axs[2].set_ylabel("Objective score (using cost-matrix)")
    axs[2].set_title("Objective score as a function of the decision threshold")
    fig.suptitle(title)

title = "Comparison of the cut-off point for the vanilla and tuned GBDT model"
plot_roc_pr_curves(model, tuned_model, title=title)

Comparison of the cut-off point for the vanilla and tuned GBDT model, Precision-Recall curve, ROC curve, Objective score as a function of the decision threshold

Первое замечание заключается в том, что оба классификатора имеют точно такие же ROC и Precision-Recall кривые. Это ожидаемо, потому что по умолчанию классификатор обучается на одних и тех же тренировочных данных. В следующем разделе мы более подробно обсудим доступные опции относительно переобучения модели и перекрестной проверки.

Второе замечание заключается в том, что точки отсечения базовой и настроенной моделей различны. Чтобы понять, почему настроенная модель выбрала эту точку отсечения, мы можем посмотреть на правый график, который отображает целевую оценку, точно соответствующую нашей бизнес-метрике. Мы видим, что оптимальный порог соответствует максимуму целевой оценки. Этот максимум достигается при пороге принятия решений значительно ниже 0.5: настроенная модель имеет гораздо более высокую полноту за счёт значительно более низкой точности: настроенная модель гораздо охотнее предсказывает метку класса "плохой" для большей доли индивидуумов.

Теперь мы можем проверить, приводит ли выбор этой точки отсечения к лучшей оценке на тестовом наборе:

print(f"Business defined metric: {scoring['credit_gain'](tuned_model, X_test, y_test)}")

Business defined metric: -134

Мы наблюдаем, что настройка порога принятия решения почти удваивает наши бизнес-выгоды.

Соображения относительно переобучения модели и перекрестной проверки#

В приведенном выше эксперименте мы использовали настройки по умолчанию для TunedThresholdClassifierCV. В частности, точка отсечения настраивается с использованием 5-кратной стратифицированной перекрестной проверки. Также, базовая прогностическая модель переобучается на всех обучающих данных после выбора точки отсечения.

Эти две стратегии могут быть изменены путем предоставления refit и cv параметры. Например, можно предоставить обученный estimator и установить cv="prefit", в этом случае точка отсечения находится на всем наборе данных, предоставленном во время обучения. Также, базовый классификатор не переобучается установкой refit=False. Здесь мы можем попробовать провести такой эксперимент.

model.fit(X_train, y_train)
tuned_model.set_params(cv="prefit", refit=False).fit(X_train, y_train)
print(f"{tuned_model.best_threshold_=:0.2f}")

tuned_model.best_threshold_=0.28

Затем мы оцениваем нашу модель тем же подходом, что и ранее:

title = "Tuned GBDT model without refitting and using the entire dataset"
plot_roc_pr_curves(model, tuned_model, title=title)

Tuned GBDT model without refitting and using the entire dataset, Precision-Recall curve, ROC curve, Objective score as a function of the decision threshold

Мы наблюдаем, что оптимальная точка отсечения отличается от найденной в предыдущем эксперименте. Если посмотреть на график справа, мы видим, что бизнес-выгода имеет большое плато почти оптимальной нулевой выгоды для большого диапазона порогов решений. Это поведение симптоматично для переобучения. Поскольку мы отключили перекрестную проверку, мы настроили точку отсечения на том же наборе, на котором обучалась модель, и это причина наблюдаемого переобучения.

Поэтому эту опцию следует использовать с осторожностью. Необходимо убедиться, что данные, предоставленные во время подгонки к TunedThresholdClassifierCV не совпадает с данными, использованными для обучения базового классификатора. Это может иногда происходить, когда идея состоит просто в настройке прогнозной модели на совершенно новом валидационном наборе без затратной полной переобучения.

Когда перекрестная проверка слишком затратна, потенциальной альтернативой является использование одного разделения на обучающую и тестовую выборки, указав число с плавающей точкой в диапазоне [0, 1] в cv параметр. Он разделяет данные на обучающую и тестовую выборки. Давайте рассмотрим эту опцию:

tuned_model.set_params(cv=0.75).fit(X_train, y_train)

TunedThresholdClassifierCV(cv=0.75,
                           estimator=HistGradientBoostingClassifier(random_state=0),
                           refit=False,
                           scoring=make_scorer(credit_gain_score, response_method='predict', neg_label=good, pos_label=bad),
                           store_cv_results=True)

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

title = "Tuned GBDT model without refitting and using the entire dataset"
plot_roc_pr_curves(model, tuned_model, title=title)

Что касается точки отсечения, мы наблюдаем, что оптимум аналогичен случаю многократной повторной перекрестной проверки. Однако учтите, что единичное разбиение не учитывает изменчивость процесса обучения/прогнозирования, поэтому мы не можем знать, есть ли дисперсия в точке отсечения. Повторная перекрестная проверка усредняет этот эффект.

Еще одно наблюдение касается кривых ROC и Precision-Recall настроенной модели. Как и ожидалось, эти кривые отличаются от кривых базовой модели, учитывая, что мы обучали базовый классификатор на подмножестве данных, предоставленных во время обучения, и оставили проверочный набор для настройки точки отсечения.

Обучение с учетом стоимости, когда выгоды и затраты не постоянны#

Как указано в [2], выгоды и затраты обычно не постоянны в реальных задачах. В этом разделе мы используем пример, аналогичный приведенному в [2] для задачи обнаружения мошенничества в записях транзакций по кредитным картам.

Набор данных кредитных карт#

credit_card = fetch_openml(data_id=1597, as_frame=True, parser="pandas")
credit_card.frame.info()

RangeIndex: 284807 entries, 0 to 284806
Data columns (total 30 columns):
 #   Column  Non-Null Count   Dtype
---  ------  --------------   -----
 V1      284807 non-null  float64
 V2      284807 non-null  float64
 V3      284807 non-null  float64
 V4      284807 non-null  float64
 V5      284807 non-null  float64
 V6      284807 non-null  float64
 V7      284807 non-null  float64
 V8      284807 non-null  float64
 V9      284807 non-null  float64
 V10     284807 non-null  float64
V11     284807 non-null  float64
V12     284807 non-null  float64
V13     284807 non-null  float64
V14     284807 non-null  float64
V15     284807 non-null  float64
V16     284807 non-null  float64
V17     284807 non-null  float64
V18     284807 non-null  float64
V19     284807 non-null  float64
V20     284807 non-null  float64
V21     284807 non-null  float64
V22     284807 non-null  float64
V23     284807 non-null  float64
V24     284807 non-null  float64
V25     284807 non-null  float64
V26     284807 non-null  float64
V27     284807 non-null  float64
V28     284807 non-null  float64
Amount  284807 non-null  float64
Class   284807 non-null  category
dtypes: category(1), float64(29)
memory usage: 63.3 MB

Набор данных содержит информацию о записях кредитных карт, среди которых некоторые являются мошенническими, а другие — законными. Цель состоит в том, чтобы предсказать, является ли запись кредитной карты мошеннической или нет.

columns_to_drop = ["Class"]
data = credit_card.frame.drop(columns=columns_to_drop)
target = credit_card.frame["Class"].astype(int)

Сначала мы проверяем распределение классов в наборах данных.

target.value_counts(normalize=True)

Class
0    0.998273
1    0.001727
Name: proportion, dtype: float64

Набор данных сильно несбалансирован, при этом мошеннические транзакции составляют всего 0,17% данных. Поскольку мы заинтересованы в обучении модели машинного обучения, мы также должны убедиться, что у нас достаточно образцов в миноритарном классе для обучения модели.

target.value_counts()

Class
0    284315
1       492
Name: count, dtype: int64

Мы наблюдаем, что у нас около 500 выборок, что находится на нижней границе количества выборок, необходимых для обучения модели машинного обучения. В дополнение к распределению целевой переменной мы проверяем распределение количества мошеннических транзакций.

fraud = target == 1
amount_fraud = data["Amount"][fraud]
_, ax = plt.subplots()
ax.hist(amount_fraud, bins=30)
ax.set_title("Amount of fraud transaction")
_ = ax.set_xlabel("Amount (€)")

Решение проблемы с бизнес-метрикой#

Теперь создадим бизнес-метрику, которая зависит от суммы каждой транзакции. Мы определяем матрицу затрат аналогично [2]. Принятие легитимной транзакции дает выигрыш в размере 2% от суммы транзакции. Однако принятие мошеннической транзакции приводит к потере суммы транзакции. Как указано в [2], выигрыш и потери, связанные с отказами (от мошеннических и легитимных транзакций), не тривиальны для определения. Здесь мы определяем, что отказ от легитимной транзакции оценивается как потеря 5€, а отказ от мошеннической транзакции оценивается как выигрыш 50€. Поэтому мы определяем следующую функцию для вычисления общей выгоды от данного решения:

def business_metric(y_true, y_pred, amount):
    mask_true_positive = (y_true == 1) & (y_pred == 1)
    mask_true_negative = (y_true == 0) & (y_pred == 0)
    mask_false_positive = (y_true == 0) & (y_pred == 1)
    mask_false_negative = (y_true == 1) & (y_pred == 0)
    fraudulent_refuse = mask_true_positive.sum() * 50
    fraudulent_accept = -amount[mask_false_negative].sum()
    legitimate_refuse = mask_false_positive.sum() * -5
    legitimate_accept = (amount[mask_true_negative] * 0.02).sum()
    return fraudulent_refuse + fraudulent_accept + legitimate_refuse + legitimate_accept

Из этой бизнес-метрики мы создаём scikit-learn scorer, который для обученного классификатора и тестового набора вычисляет бизнес-метрику. В этом отношении мы используем make_scorer фабрика. Переменная amount является дополнительными метаданными, которые нужно передать оценщику, и мы должны использовать маршрутизация метаданных чтобы учесть эту информацию.

sklearn.set_config(enable_metadata_routing=True)
business_scorer = make_scorer(business_metric).set_score_request(amount=True)

Таким образом, на этом этапе мы наблюдаем, что сумма транзакции используется дважды: один раз как признак для обучения нашей прогнозной модели и один раз как метаданные для вычисления бизнес-метрики и, следовательно, статистической производительности нашей модели. При использовании в качестве признака нам требуется только столбец в data который содержит сумму каждой транзакции. Чтобы использовать эту информацию как метаданные, нам нужна внешняя переменная, которую мы можем передать в скорер или модель, которая внутренне направляет эти метаданные в скорер. Давайте создадим эту переменную.

amount = credit_card.frame["Amount"].to_numpy()

from sklearn.model_selection import train_test_split

data_train, data_test, target_train, target_test, amount_train, amount_test = (
    train_test_split(
        data, target, amount, stratify=target, test_size=0.5, random_state=42
    )
)

Сначала мы оцениваем некоторые базовые политики в качестве эталона. Напомним, что класс «0» — это законный класс, а класс «1» — мошеннический класс.

from sklearn.dummy import DummyClassifier

always_accept_policy = DummyClassifier(strategy="constant", constant=0)
always_accept_policy.fit(data_train, target_train)
benefit = business_scorer(
    always_accept_policy, data_test, target_test, amount=amount_test
)
print(f"Benefit of the 'always accept' policy: {benefit:,.2f}€")

Benefit of the 'always accept' policy: 221,445.07€

Политика, которая считает все транзакции легитимными, принесла бы прибыль около 220 000€. Мы проводим такую же оценку для классификатора, который предсказывает все транзакции как мошеннические.

always_reject_policy = DummyClassifier(strategy="constant", constant=1)
always_reject_policy.fit(data_train, target_train)
benefit = business_scorer(
    always_reject_policy, data_test, target_test, amount=amount_test
)
print(f"Benefit of the 'always reject' policy: {benefit:,.2f}€")

Benefit of the 'always reject' policy: -698,490.00€

Такая политика повлечёт катастрофические потери: около 670 000€. Это ожидаемо, поскольку подавляющее большинство транзакций являются законными, и политика отклонит их с нетривиальными затратами.

Прогнозирующая модель, которая адаптирует решения о принятии/отклонении для каждой транзакции, в идеале должна позволять нам получать прибыль, превышающую 220 000€ лучшей из наших постоянных базовых политик.

Мы начинаем с модели логистической регрессии с порогом принятия решений по умолчанию 0.5. Здесь мы настраиваем гиперпараметр C логистической регрессии с правильным правилом оценки (логарифмической потерей), чтобы гарантировать, что вероятностные предсказания модели, возвращаемые её predict_proba метод являются максимально точными независимо от выбора значения порога принятия решения.

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

logistic_regression = make_pipeline(StandardScaler(), LogisticRegression())
param_grid = {"logisticregression__C": np.logspace(-6, 6, 13)}
model = GridSearchCV(logistic_regression, param_grid, scoring="neg_log_loss").fit(
    data_train, target_train
)
model

GridSearchCV(estimator=Pipeline(steps=[('standardscaler', StandardScaler()),
                                       ('logisticregression',
                                        LogisticRegression())]),
             param_grid={'logisticregression__C': array([1.e-06, 1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01,
       1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06])},
             scoring='neg_log_loss')

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

print(
    "Benefit of logistic regression with default threshold: "
    f"{business_scorer(model, data_test, target_test, amount=amount_test):,.2f}€"
)

Benefit of logistic regression with default threshold: 244,919.87€

Бизнес-метрика показывает, что наша прогнозная модель с порогом решения по умолчанию уже превосходит базовый уровень с точки зрения прибыли, и уже было бы выгодно использовать ее для принятия или отклонения транзакций вместо принятия всех транзакций.

Настройка порога принятия решения#

Теперь вопрос: оптимальна ли наша модель для типа решения, которое мы хотим принять? До сих пор мы не оптимизировали порог принятия решения. Мы используем TunedThresholdClassifierCV для оптимизации решения с учетом нашего бизнес-скоринга. Чтобы избежать вложенной кросс-валидации, мы будем использовать лучший оценщик, найденный в ходе предыдущего поиска по сетке.

tuned_model = TunedThresholdClassifierCV(
    estimator=model.best_estimator_,
    scoring=business_scorer,
    thresholds=100,
    n_jobs=2,
)

Поскольку наш бизнес-скоринг требует сумму каждой транзакции, нам необходимо передать эту информацию в fit метод. Метод TunedThresholdClassifierCV отвечает за автоматическую передачу этих метаданных нижележащему скореру.

tuned_model.fit(data_train, target_train, amount=amount_train)

TunedThresholdClassifierCV(estimator=Pipeline(steps=[('standardscaler',
                                                      StandardScaler()),
                                                     ('logisticregression',
                                                      LogisticRegression(C=np.float64(100.0)))]),
                           n_jobs=2,
                           scoring=make_scorer(business_metric, response_method='predict'))

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Мы наблюдаем, что настроенный порог принятия решения сильно отличается от стандартного 0.5:

print(f"Tuned decision threshold: {tuned_model.best_threshold_:.2f}")

Tuned decision threshold: 0.03

print(
    "Benefit of logistic regression with a tuned threshold: "
    f"{business_scorer(tuned_model, data_test, target_test, amount=amount_test):,.2f}€"
)

Benefit of logistic regression with a tuned threshold: 249,433.39€

Мы наблюдаем, что настройка порога принятия решений увеличивает ожидаемую прибыль при развёртывании нашей модели — как указано бизнес-метрикой. Поэтому ценно, когда это возможно, оптимизировать порог принятия решений относительно бизнес-метрики.

Ручная установка порога принятия решений вместо его настройки#

В предыдущем примере мы использовали TunedThresholdClassifierCV чтобы найти оптимальный порог принятия решения. Однако в некоторых случаях у нас может быть предварительное знание о рассматриваемой проблеме, и мы можем быть готовы установить порог принятия решения вручную.

Класс FixedThresholdClassifier позволяет нам вручную установить порог принятия решения. Во время предсказания он ведет себя как предыдущая настроенная модель, но поиск не выполняется в процессе обучения. Обратите внимание, что здесь мы используем FrozenEstimator для обертывания прогнозной модели, чтобы избежать повторного обучения.

Здесь мы повторно используем порог принятия решения, найденный в предыдущем разделе, чтобы создать новую модель и проверить, что она дает те же результаты.

from sklearn.frozen import FrozenEstimator
from sklearn.model_selection import FixedThresholdClassifier

model_fixed_threshold = FixedThresholdClassifier(
    estimator=FrozenEstimator(model), threshold=tuned_model.best_threshold_
)

business_score = business_scorer(
    model_fixed_threshold, data_test, target_test, amount=amount_test
)
print(f"Benefit of logistic regression with a tuned threshold:  {business_score:,.2f}€")

Benefit of logistic regression with a tuned threshold:  249,433.39€

Мы видим, что получили точно такие же результаты, но процесс подгонки был намного быстрее, поскольку мы не выполняли поиск гиперпараметров.

Наконец, оценка (средней) бизнес-метрики сама по себе может быть ненадежной, в частности, когда количество точек данных в миноритарном классе очень мало. Любое влияние на бизнес, оцененное с помощью перекрестной проверки бизнес-метрики на исторических данных (офлайн-оценка), в идеале должно подтверждаться A/B-тестированием на живых данных (онлайн-оценка). Однако обратите внимание, что A/B-тестирование моделей выходит за рамки самой библиотеки scikit-learn.

В конце мы отключаем флаг конфигурации для маршрутизации метаданных:

.. GENERATED FROM PYTHON SOURCE LINES 694-695

sklearn.set_config(enable_metadata_routing=False)

Общее время выполнения скрипта: (0 минут 33.020 секунд)

Связанные примеры

Пост-фактумная настройка точки отсечения функции принятия решений

Основные новости выпуска scikit-learn 1.5

Precision-Recall

Пользовательская стратегия повторного обучения для поиска по сетке с кросс-валидацией

Галерея, созданная Sphinx-Gallery

	потеря loss: {'log_loss'}, по умолчанию='log_loss' Функция потерь для использования в процессе бустинга. Для задач бинарной классификации 'log_loss' также известна как логистическая потеря, биномиальное отклонение или бинарная перекрестная энтропия. Внутренне модель обучает одно дерево за итерацию бустинга и использует логистическую сигмоидальную функцию (expit) как обратная функция связи для вычисления предсказанной вероятности положительного класса. Для задач многоклассовой классификации 'log_loss' также известен как мультиномиальный отклонение или категориальная перекрестная энтропия. Внутренне модель обучает одно дерево на итерацией бустинга и для каждого класса использует функцию softmax в качестве обратной связи функция для вычисления предсказанных вероятностей классов.	'log_loss'
	learning_rate learning_rate: float, по умолчанию=0.1 Скорость обучения, также известная как сжатие. Используется как мультипликативный коэффициент для значений листьев. Используйте ``1`` для отсутствия сжатие.	0.1
	max_iter max_iter: int, по умолчанию=100 Максимальное количество итераций процесса бустинга, т.е. максимальное количество деревьев для бинарной классификации. Для многоклассовой классификации, `n_classes` деревьев строятся за итерацию.	100
	max_leaf_nodes max_leaf_nodes: int или None, по умолчанию=31 Максимальное количество листьев для каждого дерева. Должно быть строго больше чем 1. Если None, максимального предела нет.	31
	max_depth max_depth: int или None, по умолчанию=None Максимальная глубина каждого дерева. Глубина дерева — это количество ребра для перехода от корня к самому глубокому листу. Глубина по умолчанию не ограничена.	None
	min_samples_leaf min_samples_leaf: int, по умолчанию=20 Минимальное количество образцов на лист. Для небольших наборов данных с менее чем чем несколько сотен образцов, рекомендуется уменьшить это значение поскольку строились бы только очень мелкие деревья.	20
	l2_regularization l2_regularization: float, по умолчанию=0 Параметр регуляризации L2, штрафующий листья с малыми гессианами. Используйте ``0`` для отсутствия регуляризации (по умолчанию).	0.0
	max_features max_features: float, default=1.0 Доля случайно выбранных признаков в каждом разделении узла. Это форма регуляризации: меньшие значения делают деревья слабее обучающихся моделей и может предотвратить переобучение. Если присутствуют ограничения взаимодействия из `interaction_cst`, разрешены только признаки учитываются для субдискретизации. .. versionadded:: 1.4	1.0
	max_bins max_bins: int, default=255 Максимальное количество бинов для использования с ненулевыми значениями. До обучения, каждый признак входного массива `X` разбивается на бины в целочисленные бины, что позволяет значительно ускорить этап обучения. Признаки с небольшим количеством уникальных значений могут использовать меньше чем ``max_bins`` бинов. В дополнение к ``max_bins`` бинам, еще один бин всегда зарезервировано для пропущенных значений. Не должно быть больше 255.	255
	categorical_features categorical_features: array-like из {bool, int, str} формы (n_features) или формы (n_categorical_features,), по умолчанию='from_dtype' Указывает категориальные признаки. - None : ни один признак не будет считаться категориальным. - массив булевых значений: булева маска, указывающая категориальные признаки. - целочисленный массивоподобный : целочисленные индексы, указывающие категориальные признаков. - str array-like: имена категориальных признаков (предполагается, что обучающие данные имеют имена признаков). - `"from_dtype"`: столбцы датафрейма с типом данных "category" являются считаются категориальными признаками. Входные данные должны быть объектом предоставляя метод ``__dataframe__``, такой как pandas или polars DataFrames для использования этой функции. Для каждой категориальной характеристики должно быть не более `max_bins` уникальных категории. Отрицательные значения для категориальных признаков, закодированных как числовые dtypes обрабатываются как пропущенные значения. Все категориальные значения преобразуются в числа с плавающей точкой. Это означает, что категориальные значения значения 1.0 и 1 рассматриваются как одна и та же категория. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 0.24 .. versionchanged:: 1.2 Добавлена поддержка имён признаков. .. versionchanged:: 1.4 Добавлена опция `"from_dtype"`. .. versionchanged:: 1.6 Значение по умолчанию изменилось с `None` на `"from_dtype"`.	'from_dtype'
	monotonic_cst monotonic_cst: array-like из int формы (n_features) или dict, по умолчанию=None Монотонное ограничение, накладываемое на каждый признак, задается с помощью следующие целочисленные значения: - 1: монотонное увеличение - 0: без ограничений - -1: монотонное убывание Если это словарь со строковыми ключами, сопоставьте признак с монотонными ограничениями по имени. Если передан массив, признаки сопоставляются с ограничениями по позиции. См. :ref:`monotonic_cst_features_names` для примера использования. Ограничения действительны только для бинарной классификации и выполняются над вероятностью положительного класса. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 0.23 .. versionchanged:: 1.2 Принимает словарь ограничений с именами признаков в качестве ключей.	None
	interaction_cst interaction_cst: {"pairwise", "no_interactions"} или последовательность списков/кортежей/множеств int, по умолчанию=None Задайте ограничения взаимодействия, наборы признаков, которые могут взаимодействуют друг с другом в разбиениях дочерних узлов. Каждый элемент указывает набор индексов признаков, которые разрешены взаимодействовать друг с другом. Если признаков больше, чем указаны в этих ограничениях, они рассматриваются как если бы они были указан как дополнительный набор. Строки "pairwise" и "no_interactions" являются сокращениями для разрешая только попарные взаимодействия или их отсутствие соответственно. Например, при 5 признаках в общей сложности, `interaction_cst=[{0, 1}]` эквивалентно `interaction_cst=[{0, 1}, {2, 3, 4}]`, и указывает, что каждая ветвь дерева будет либо только разделять по признакам 0 и 1 или только по признакам 2, 3 и 4. См. :ref:`этот пример` о том, как использовать `interaction_cst`. .. versionadded:: 1.2	None
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль. Для валидности результатов, оценщик должен быть переобучен на тех же данных. См. :term:`Глоссарий `.	False
	early_stopping early_stopping: 'auto' или bool, по умолчанию='auto' Если 'auto', ранняя остановка включается, если размер выборки больше 10000 или если `X_val` и `y_val` переданы в `fit`. Если True, ранняя остановка включено, в противном случае ранняя остановка отключена. .. versionadded:: 0.23	'auto'
	оценка scoring: str или callable или None, по умолчанию='loss' Метод оценки для ранней остановки. Используется только если `early_stopping` включено. Опции: - str: см. :ref:`scoring_string_names` для вариантов. - вызываемый объект: вызываемый объект оценки (например, функция) с сигнатурой ``scorer(estimator, X, y)``. См. :ref:`scoring_callable` для подробностей. - `None`: :ref:`accuracy ` используется. - 'loss': ранняя остановка проверяется относительно значения потерь.	'loss'
	validation_fraction validation_fraction: int или float или None, default=0.1 Доля (или абсолютный размер) обучающих данных, которые следует отложить как валидационные данные для ранней остановки. Если None, ранняя остановка выполняется на обучающие данные. Значение игнорируется, если ранняя остановка не выполняется, например, `early_stopping=False`, или если `X_val` и `y_val` переданы в fit.	0.1
	n_iter_no_change n_iter_no_change: int, default=10 Используется для определения момента "ранней остановки". Процесс обучения остановка, когда ни один из последних ``n_iter_no_change`` результатов не улучшается чем ``n_iter_no_change - 1``-я с конца, до некоторого допуск. Используется только при досрочной остановке.	10
	tol tol: float, default=1e-7 Абсолютный допуск, используемый при сравнении оценок. Чем выше Чем выше допуск, тем выше вероятность ранней остановки: больший допуск означает, что последующим итерациям будет сложнее быть считается улучшением по сравнению с эталонной оценкой.	1e-07
	verbose verbose: int, по умолчанию=0 Уровень подробности вывода. Если не ноль, выводит некоторую информацию о процесс обучения. ``1`` выводит только сводную информацию, ``2`` выводит информацию на итерация.	0
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Псевдослучайный генератор чисел для управления субдискретизацией в процесс бинирования и разделение данных на обучающую/валидационную выборку, если используется ранняя остановка включен. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	0
	class_weight class_weight: dict или 'balanced', по умолчанию=None Веса, связанные с классами в форме `{class_label: weight}`. Если не указано, предполагается, что все классы имеют вес один. Режим "balanced" использует значения y для автоматической настройки веса, обратно пропорциональные частотам классов во входных данных как `n_samples / (n_classes * np.bincount(y))`. Обратите внимание, что эти веса будут умножены на sample_weight (переданный через метод fit) если указан `sample_weight`. .. versionadded:: 1.2	None

	estimator оценщик: экземпляр оценщика Классификатор, обученный или нет, для которого мы хотим оптимизировать порог принятия решений, используемый во время `predict`.	HistGradientB...andom_state=0)
	оценка scoring: str или callable, по умолчанию="balanced_accuracy" Целевая метрика для оптимизации. Может быть одной из: - str: строка, связанная с функцией оценки для бинарной классификации, см. :ref:`scoring_string_names` для вариантов. - вызываемый объект: вызываемый объект оценки (например, функция) с сигнатурой ``scorer(estimator, X, y)``. См. :ref:`scoring_callable` для подробностей.	make_scorer(c...pos_label=bad)
	response_method response_method: {"auto", "decision_function", "predict_proba"}, default="auto" Методы классификатора `estimator`, соответствующие функция принятия решений, для которой мы хотим найти порог. Это может быть: * если `"auto"`, он попытается вызвать для каждого классификатора, `"predict_proba"` или `"decision_function"` в таком порядке. * в противном случае, один из `"predict_proba"` или `"decision_function"`. Если метод не реализован классификатором, будет вызвано ошибка.	'auto'
	пороги thresholds: int или array-like, по умолчанию=100 Количество порогов решений для использования при дискретизации выхода классификатор `method`. Передайте массивоподобный объект для ручного указания порогов для использования.	100
	cv cv: int, float, генератор кросс-валидации, итерируемый объект или "prefit", по умолчанию=None Определяет стратегию разделения перекрестной проверки для обучения классификатора. Возможные значения для cv: * `None`, чтобы использовать стандартную 5-кратную стратифицированную K-кратную перекрестную проверку; * Целое число, чтобы указать количество фолдов в стратифицированной k-кратной перекрестной проверке; * Число с плавающей точкой, чтобы указать одно перемешивающее разбиение. Число с плавающей точкой должно должно быть в (0, 1) и представлять размер валидационного набора; * Объект, который будет использоваться как генератор перекрёстной проверки; * Итерируемый объект, возвращающий разделения на обучающую и тестовую выборки; * `"prefit"`, чтобы обойти перекрестную проверку. См. :ref:`Руководство пользователя ` для различных стратегии перекрестной проверки, которые можно использовать здесь. .. предупреждение:: Использование `cv="prefit"` и передача того же набора данных для подгонки `estimator` дает неверный результат, когда и настройка порогового значения подвержена нежелательному переобучению. Вы можете см. :ref:`TunedThresholdClassifierCV_no_cv` для примера. Эта опция должна использоваться только когда набор, используемый для обучения `estimator`, отличается от того, который используется для настройки точки отсечения (путем вызова :meth:`TunedThresholdClassifierCV.fit`).	0.75
	refit refit: bool, default=True Следует ли переобучать классификатор на всём тренировочном наборе после порог принятия решения был найден. Обратите внимание, что принудительное установление `refit=False` при кросс-валидации с более чем чем одно разделение вызовет ошибку. Аналогично, `refit=True` в использование вместе с `cv="prefit"` вызовет ошибку.	False
	n_jobs n_jobs: int, default=None Количество задач для параллельного выполнения. Когда `cv` представляет собой стратегия перекрёстной проверки, подгонка и оценка на каждом разделе данных выполняется параллельно. ``None`` означает 1, если не в :obj:`joblib.parallel_backend` контекст. ``-1`` означает использование всех процессоры. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет случайностью перекрестной проверки, когда `cv` является float. См. :term:`Глоссарий `.	None
	store_cv_results store_cv_results: bool, default=False Сохранять ли все баллы и пороги, вычисленные во время перекрестной проверки процесс.	True

	потеря loss: {'log_loss'}, по умолчанию='log_loss' Функция потерь для использования в процессе бустинга. Для задач бинарной классификации 'log_loss' также известна как логистическая потеря, биномиальное отклонение или бинарная перекрестная энтропия. Внутренне модель обучает одно дерево за итерацию бустинга и использует логистическую сигмоидальную функцию (expit) как обратная функция связи для вычисления предсказанной вероятности положительного класса. Для задач многоклассовой классификации 'log_loss' также известен как мультиномиальный отклонение или категориальная перекрестная энтропия. Внутренне модель обучает одно дерево на итерацией бустинга и для каждого класса использует функцию softmax в качестве обратной связи функция для вычисления предсказанных вероятностей классов.	'log_loss'
	learning_rate learning_rate: float, по умолчанию=0.1 Скорость обучения, также известная как сжатие. Используется как мультипликативный коэффициент для значений листьев. Используйте ``1`` для отсутствия сжатие.	0.1
	max_iter max_iter: int, по умолчанию=100 Максимальное количество итераций процесса бустинга, т.е. максимальное количество деревьев для бинарной классификации. Для многоклассовой классификации, `n_classes` деревьев строятся за итерацию.	100
	max_leaf_nodes max_leaf_nodes: int или None, по умолчанию=31 Максимальное количество листьев для каждого дерева. Должно быть строго больше чем 1. Если None, максимального предела нет.	31
	max_depth max_depth: int или None, по умолчанию=None Максимальная глубина каждого дерева. Глубина дерева — это количество ребра для перехода от корня к самому глубокому листу. Глубина по умолчанию не ограничена.	None
	min_samples_leaf min_samples_leaf: int, по умолчанию=20 Минимальное количество образцов на лист. Для небольших наборов данных с менее чем чем несколько сотен образцов, рекомендуется уменьшить это значение поскольку строились бы только очень мелкие деревья.	20
	l2_regularization l2_regularization: float, по умолчанию=0 Параметр регуляризации L2, штрафующий листья с малыми гессианами. Используйте ``0`` для отсутствия регуляризации (по умолчанию).	0.0
	max_features max_features: float, default=1.0 Доля случайно выбранных признаков в каждом разделении узла. Это форма регуляризации: меньшие значения делают деревья слабее обучающихся моделей и может предотвратить переобучение. Если присутствуют ограничения взаимодействия из `interaction_cst`, разрешены только признаки учитываются для субдискретизации. .. versionadded:: 1.4	1.0
	max_bins max_bins: int, default=255 Максимальное количество бинов для использования с ненулевыми значениями. До обучения, каждый признак входного массива `X` разбивается на бины в целочисленные бины, что позволяет значительно ускорить этап обучения. Признаки с небольшим количеством уникальных значений могут использовать меньше чем ``max_bins`` бинов. В дополнение к ``max_bins`` бинам, еще один бин всегда зарезервировано для пропущенных значений. Не должно быть больше 255.	255
	categorical_features categorical_features: array-like из {bool, int, str} формы (n_features) или формы (n_categorical_features,), по умолчанию='from_dtype' Указывает категориальные признаки. - None : ни один признак не будет считаться категориальным. - массив булевых значений: булева маска, указывающая категориальные признаки. - целочисленный массивоподобный : целочисленные индексы, указывающие категориальные признаков. - str array-like: имена категориальных признаков (предполагается, что обучающие данные имеют имена признаков). - `"from_dtype"`: столбцы датафрейма с типом данных "category" являются считаются категориальными признаками. Входные данные должны быть объектом предоставляя метод ``__dataframe__``, такой как pandas или polars DataFrames для использования этой функции. Для каждой категориальной характеристики должно быть не более `max_bins` уникальных категории. Отрицательные значения для категориальных признаков, закодированных как числовые dtypes обрабатываются как пропущенные значения. Все категориальные значения преобразуются в числа с плавающей точкой. Это означает, что категориальные значения значения 1.0 и 1 рассматриваются как одна и та же категория. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 0.24 .. versionchanged:: 1.2 Добавлена поддержка имён признаков. .. versionchanged:: 1.4 Добавлена опция `"from_dtype"`. .. versionchanged:: 1.6 Значение по умолчанию изменилось с `None` на `"from_dtype"`.	'from_dtype'
	monotonic_cst monotonic_cst: array-like из int формы (n_features) или dict, по умолчанию=None Монотонное ограничение, накладываемое на каждый признак, задается с помощью следующие целочисленные значения: - 1: монотонное увеличение - 0: без ограничений - -1: монотонное убывание Если это словарь со строковыми ключами, сопоставьте признак с монотонными ограничениями по имени. Если передан массив, признаки сопоставляются с ограничениями по позиции. См. :ref:`monotonic_cst_features_names` для примера использования. Ограничения действительны только для бинарной классификации и выполняются над вероятностью положительного класса. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 0.23 .. versionchanged:: 1.2 Принимает словарь ограничений с именами признаков в качестве ключей.	None
	interaction_cst interaction_cst: {"pairwise", "no_interactions"} или последовательность списков/кортежей/множеств int, по умолчанию=None Задайте ограничения взаимодействия, наборы признаков, которые могут взаимодействуют друг с другом в разбиениях дочерних узлов. Каждый элемент указывает набор индексов признаков, которые разрешены взаимодействовать друг с другом. Если признаков больше, чем указаны в этих ограничениях, они рассматриваются как если бы они были указан как дополнительный набор. Строки "pairwise" и "no_interactions" являются сокращениями для разрешая только попарные взаимодействия или их отсутствие соответственно. Например, при 5 признаках в общей сложности, `interaction_cst=[{0, 1}]` эквивалентно `interaction_cst=[{0, 1}, {2, 3, 4}]`, и указывает, что каждая ветвь дерева будет либо только разделять по признакам 0 и 1 или только по признакам 2, 3 и 4. См. :ref:`этот пример` о том, как использовать `interaction_cst`. .. versionadded:: 1.2	None
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль. Для валидности результатов, оценщик должен быть переобучен на тех же данных. См. :term:`Глоссарий `.	False
	early_stopping early_stopping: 'auto' или bool, по умолчанию='auto' Если 'auto', ранняя остановка включается, если размер выборки больше 10000 или если `X_val` и `y_val` переданы в `fit`. Если True, ранняя остановка включено, в противном случае ранняя остановка отключена. .. versionadded:: 0.23	'auto'
	оценка scoring: str или callable или None, по умолчанию='loss' Метод оценки для ранней остановки. Используется только если `early_stopping` включено. Опции: - str: см. :ref:`scoring_string_names` для вариантов. - вызываемый объект: вызываемый объект оценки (например, функция) с сигнатурой ``scorer(estimator, X, y)``. См. :ref:`scoring_callable` для подробностей. - `None`: :ref:`accuracy ` используется. - 'loss': ранняя остановка проверяется относительно значения потерь.	'loss'
	validation_fraction validation_fraction: int или float или None, default=0.1 Доля (или абсолютный размер) обучающих данных, которые следует отложить как валидационные данные для ранней остановки. Если None, ранняя остановка выполняется на обучающие данные. Значение игнорируется, если ранняя остановка не выполняется, например, `early_stopping=False`, или если `X_val` и `y_val` переданы в fit.	0.1
	n_iter_no_change n_iter_no_change: int, default=10 Используется для определения момента "ранней остановки". Процесс обучения остановка, когда ни один из последних ``n_iter_no_change`` результатов не улучшается чем ``n_iter_no_change - 1``-я с конца, до некоторого допуск. Используется только при досрочной остановке.	10
	tol tol: float, default=1e-7 Абсолютный допуск, используемый при сравнении оценок. Чем выше Чем выше допуск, тем выше вероятность ранней остановки: больший допуск означает, что последующим итерациям будет сложнее быть считается улучшением по сравнению с эталонной оценкой.	1e-07
	verbose verbose: int, по умолчанию=0 Уровень подробности вывода. Если не ноль, выводит некоторую информацию о процесс обучения. ``1`` выводит только сводную информацию, ``2`` выводит информацию на итерация.	0
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Псевдослучайный генератор чисел для управления субдискретизацией в процесс бинирования и разделение данных на обучающую/валидационную выборку, если используется ранняя остановка включен. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	0
	class_weight class_weight: dict или 'balanced', по умолчанию=None Веса, связанные с классами в форме `{class_label: weight}`. Если не указано, предполагается, что все классы имеют вес один. Режим "balanced" использует значения y для автоматической настройки веса, обратно пропорциональные частотам классов во входных данных как `n_samples / (n_classes * np.bincount(y))`. Обратите внимание, что эти веса будут умножены на sample_weight (переданный через метод fit) если указан `sample_weight`. .. versionadded:: 1.2	None

	estimator оценщик: объект оценщика Предполагается, что это реализует интерфейс оценщика scikit-learn. Либо оценщик должен предоставлять функцию ``score``, или ``scoring`` должны быть переданы.	Pipeline(step...egression())])
	param_grid param_grid: словарь или список словарей Словарь с именами параметров (`str`) в качестве ключей и списками настройки параметров для перебора в качестве значений или список таких словарями, в этом случае сетки, охватываемые каждым словарем в списке исследуются. Это позволяет осуществлять поиск по любой последовательности наборов параметров.	{'logisticregression__C': array([1.e-06...e+05, 1.e+06])}
	оценка scoring: str, callable, list, tuple или dict, по умолчанию=None Стратегия оценки производительности кросс-валидированной модели на тестовый набор. Если `scoring` представляет собой единичную оценку, можно использовать: - одиночная строка (см. :ref:`scoring_string_names`); - вызываемый объект (см. :ref:`scoring_callable`), который возвращает одно значение; - `None`, `estimator`'s :ref:`критерий оценки по умолчанию ` используется. Если `scoring` представляет несколько оценок, можно использовать: - список или кортеж уникальных строк; - вызываемый объект, возвращающий словарь, где ключи — это метрика имена и значения — это оценки метрик; - словарь с именами метрик в качестве ключей и вызываемыми объектами в качестве значений. См. :ref:`multimetric_grid_search` для примера.	'neg_log_loss'
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации. .. versionchanged:: v0.20 `n_jobs` значение по умолчанию изменено с 1 на None	None
	refit refit: bool, str или callable, по умолчанию=True Переобучение оценщика с использованием наилучших найденных параметров на всем набора данных. Для оценки по нескольким метрикам это должно быть `str`, обозначающий scorer, который будет использоваться для поиска наилучших параметров для повторного обучения оценщик в конце. Когда существуют соображения, отличные от максимальной оценки в выбора лучшего оценщика, ``refit`` может быть установлен в функцию, которая возвращает выбранный ``best_index_`` по ``cv_results_``. В этом случае случае, ``best_estimator_`` и ``best_params_`` будут установлены в соответствии с возвращенным ``best_index_``, в то время как ``best_score_`` атрибут будет недоступен. Переобученный оценщик доступен в ``best_estimator_`` атрибут и позволяет использовать ``predict`` непосредственно на этом экземпляр ``GridSearchCV``. Также для оценки по нескольким метрикам атрибуты ``best_index_``, ``best_score_`` и ``best_params_`` будут доступны только если ``refit`` установлен, и все они будут определены относительно этого конкретного scorer. См. параметр ``scoring`` для получения дополнительной информации о нескольких метриках оценка. См. :ref:`sphx_glr_auto_examples_model_selection_plot_grid_search_digits.py` чтобы увидеть, как разработать пользовательскую стратегию выбора с использованием вызываемого объекта через `refit`. См. :ref:`этот пример ` для примера использования ``refit=callable`` для балансировки модели сложность и кросс-валидированный балл. .. versionchanged:: 0.20 Добавлена поддержка callable.	True
	cv cv: int, генератор перекрестной проверки или итерируемый объект, по умолчанию=None Определяет стратегию разделения для кросс-валидации. Возможные значения для cv: - None, чтобы использовать стандартную 5-кратную перекрёстную проверку, - целое число, чтобы указать количество фолдов в `(Stratified)KFold`, - :term:`CV splitter`, - Итерируемый объект, возвращающий (обучающая, тестовая) разбиения в виде массивов индексов. Для целочисленных/None входов, если оценщик является классификатором и ``y`` либо бинарная, либо многоклассовая, используется :class:`StratifiedKFold`. Во всех в других случаях используется :class:`KFold`. Эти разделители создаются с `shuffle=False`, чтобы разбиения были одинаковыми при всех вызовах. См. :ref:`Руководство пользователя ` для различных стратегии перекрестной проверки, которые можно использовать здесь. .. versionchanged:: 0.22 Значение по умолчанию ``cv``, если None, изменено с 3-кратной на 5-кратную перекрестную проверку.	None
	verbose verbose: int Управляет подробностью вывода: чем выше, тем больше сообщений. - >1 : время вычисления для каждого фолда и кандидата параметра отображается; - >2 : оценка также отображается; - >3 : также отображаются индексы фолда и кандидатных параметров вместе со временем начала вычислений.	0
	pre_dispatch pre_dispatch: int или str, по умолчанию='2n_jobs' Управляет количеством задач, отправляемых во время параллельного выполнение. Уменьшение этого числа может быть полезно, чтобы избежать взрывное увеличение потребления памяти при отправке большего количества задач чем могут обработать процессоры. Этот параметр может быть: - None, в этом случае все задачи немедленно создаются и запускаются. Используйте это для легких и быстро выполняемых задач, чтобы избежать задержек из-за выполнения по требованию создание заданий - Целое число, указывающее точное общее количество создаваемых задач - Строка, задающая выражение как функцию от n_jobs, например '2n_jobs'	'2*n_jobs'
	error_score error_score: 'raise' или числовое значение, по умолчанию=np.nan Значение, присваиваемое оценке при возникновении ошибки в обучении оценщика. Если установлено значение 'raise', ошибка вызывается. Если задано числовое значение, Вызывается предупреждение FitFailedWarning. Этот параметр не влияет на повторную подгонку шаг, который всегда будет вызывать ошибку.	nan
	return_train_score return_train_score: bool, default=False Если ``False``, атрибут ``cv_results_`` не будет включать обучающие . Наличие разных классов моделей с соответствующими именами упрощает пользователям поиск этих регрессионных моделей. Во-вторых, если бы все 5 упомянутых линейных моделей были объединены в один класс, были бы параметры с множеством опций, такие как Вычисление обучающих оценок используется для получения представления о том, как различные настройки параметров влияют на компромисс между переобучением и недообучением. Однако вычисление оценок на обучающем наборе может быть вычислительно дорого и не является строго необходимым для выбора параметров, которые дают наилучшую обобщающую производительность. .. versionadded:: 0.19 SpectralClustering Значение по умолчанию изменено с ``True`` на ``False``	False

	штраф penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Укажите норму штрафа: - `None`: штраф не добавляется; - `'l2'`: добавляет штрафной член L2 и является выбором по умолчанию; - `'l1'`: добавить штрафной член L1; - `'elasticnet'`: добавляются как L1, так и L2 штрафные члены. .. предупреждение:: Некоторые штрафы могут не работать с некоторыми решателями. См. параметр `solver` ниже, чтобы узнать совместимость между штрафом и решатель. .. versionadded:: 0.19 штраф l1 с решателем SAGA (разрешающий 'multinomial' + L1) .. устарело:: 1.8 `penalty` устарел в версии 1.8 и будет удален в 1.10. Используйте `l1_ratio` вместо этого. `l1_ratio=0` для `penalty='l2'`, `l1_ratio=1` для `penalty='l1'` и `l1_ratio`, установленный в любое число с плавающей запятой от 0 до 1 для `'penalty='elasticnet'`.	'устаревший'
	C C: float, default=1.0 Обратная величина силы регуляризации; должно быть положительным числом с плавающей точкой. Как и в машинах опорных векторов, меньшие значения указывают на более сильное регуляризация. `C=np.inf` приводит к нештрафуемой логистической регрессии. Для визуального примера эффекта настройки параметра `C` с L1-штрафом, см.: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	np.float64(100.0)
	l1_ratio l1_ratio: float, default=0.0 Параметр смешивания Elastic-Net, где `0 <= l1_ratio <= 1`. Установка `l1_ratio=1` даёт чистое L1-штрафование, установка `l1_ratio=0` — чистое L2-штрафование. Любое значение между 0 и 1 дает штраф Elastic-Net вида `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. предупреждение:: Некоторые значения `l1_ratio`, т.е. некоторые штрафы, могут не работать с некоторыми решатели. См. параметр `solver` ниже, чтобы узнать совместимость между штраф и решатель. .. versionchanged:: 1.8 Значение по умолчанию изменено с None на 0.0. .. устарело:: 1.8 `None` устарел и будет удален в версии 1.10. Всегда используйте `l1_ratio` для указания типа штрафа.	0.0
	dual dual: bool, по умолчанию=False Двойственная (ограниченная) или прямая (регуляризованная, см. также :ref:`это уравнение `) формулировка. Двойственная формулировка реализован только для штрафа l2 с решателем liblinear. Предпочтительнее `dual=False` когда n_samples > n_features.	False
	tol tol: float, default=1e-4 Допуск для критериев остановки.	0.0001
	fit_intercept fit_intercept: bool, по умолчанию=True Указывает, должна ли быть добавлена константа (также называемая смещением или перехватом) добавлено в функцию принятия решений.	True
	intercept_scaling intercept_scaling: float, по умолчанию=1 Полезно только при использовании решателя `liblinear` и `self.fit_intercept` установлен в `True`. В этом случае `x` становится `[x, self.intercept_scaling]`, т.е. "синтетический" признак с постоянным значением, равным `intercept_scaling` добавляется к вектору экземпляра. Интерсепт становится ``intercept_scaling * synthetic_feature_weight``. .. примечание:: Вес синтетического признака подчиняется L1 или L2 регуляризация, как и все остальные признаки. Чтобы уменьшить влияние регуляризации на вес синтетического признака (и, следовательно, на intercept) `intercept_scaling` должен быть увеличен.	1
	class_weight class_weight: dict или 'balanced', по умолчанию=None Веса, связанные с классами, в форме ``{class_label: weight}``. Если не указано, предполагается, что все классы имеют вес один. Режим "balanced" использует значения y для автоматической настройки веса, обратно пропорциональные частотам классов во входных данных как ``n_samples / (n_classes * np.bincount(y))``. Обратите внимание, что эти веса будут умножены на sample_weight (переданный через метод fit), если указан sample_weight. .. versionadded:: 0.17 результаты	None
	random_state random_state: int, RandomState instance, default=None Используется, когда ``solver`` == 'sag', 'saga' или 'liblinear' для перемешивания данные. См.: термин `Glossary ` для деталей.	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, по умолчанию='lbfgs' Алгоритм для использования в задаче оптимизации. По умолчанию 'lbfgs'. Для выбора решателя вы можете рассмотреть следующие аспекты: - 'lbfgs' - хороший решатель по умолчанию, так как он достаточно хорошо работает для широкого класс проблем. - Для :term:`многоклассовых` задач (`n_classes >= 3`), все решатели, кроме 'liblinear' минимизирует полную мультиномиальную потерю, 'liblinear' вызовет ошибка. - 'newton-cholesky' является хорошим выбором для `n_samples` >> `n_features * n_classes`, особенно при one-hot кодировании категориальные признаки с редкими категориями. Учтите, что использование памяти этого решателя имеет квадратичную зависимость от `n_features * n_classes` поскольку он явно вычисляет полную матрицу Гессе. - Для небольших наборов данных 'liblinear' является хорошим выбором, тогда как 'sag' и 'saga' быстрее для больших; - 'liblinear' по умолчанию может обрабатывать только бинарную классификацию. Чтобы применить схему один-против-всех для многоклассовой настройки можно обернуть с помощью :class:`~sklearn.multiclass.OneVsRestClassifier`. .. предупреждение:: Выбор алгоритма зависит от выбранного штрафа (`l1_ratio=0` для L2-штрафа, `l1_ratio=1` для L1-штрафа и `0 < l1_ratio < 1` для Elastic-Net) и на (мультиномиальной) многоклассовой поддержке: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 да 'liblinear' l1_ratio=1 или l1_ratio=0 нет 'newton-cg' l1_ratio=0 да 'newton-cholesky' l1_ratio=0 да 'sag' l1_ratio=0 да 'saga' 0<=l1_ratio<=1 да ================= ======================== ====================== .. примечание:: 'sag' и 'saga' быстрая сходимость гарантируется только для признаков с примерно одинаковым масштабом. Вы можете предобработать данные с помощью скейлер из :mod:`sklearn.preprocessing`. .. см. также:: См. :ref:`Руководство пользователя ` для дополнительной информации информация о :class:`LogisticRegression` и, в частности, о :ref:`Таблица ` обобщение поддержки решателя/штрафа. .. versionadded:: 0.17 Решатель стохастического среднего градиента (SAG). Поддержка мультиномиального распределения в версия 0.18. .. versionadded:: 0.19 SAGA solver. .. versionchanged:: 0.22 Стандартный решатель изменился с 'liblinear' на 'lbfgs' в версии 0.22. .. versionadded:: 1.2 newton-cholesky решатель. Поддержка мультиномиальной версии в версии 1.6.	'lbfgs'
	max_iter max_iter: int, по умолчанию=100 Максимальное количество итераций, выполняемых решателями для сходимости.	100
	verbose verbose: int, по умолчанию=0 Для решателей liblinear и lbfgs установите verbose в любое положительное число для уровня детализации вывода.	0
	warm_start warm_start: bool, default=False При установке в True повторно использовать решение предыдущего вызова fit в качестве инициализация, в противном случае просто удалить предыдущее решение. Бесполезно для решателя liblinear. См.: термин `the Glossary `. .. versionadded:: 0.17 warm_start для поддержки решателей lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Не оказывает никакого эффекта. .. устарело:: 1.8 `n_jobs` устарел в версии 1.8 и будет удален в 1.10.	None

	copy copy: bool, default=True Если False, пытается избежать копирования и выполняет масштабирование на месте. Это не гарантирует всегда работать на месте; например, если данные не массив NumPy или разреженная матрица CSR scipy.sparse, копия все еще может быть возвращается.	True
	with_mean with_mean: bool, default=True Если True, центрировать данные перед масштабированием. Это не работает (и вызовет исключение) при попытке на разреженные матрицы, потому что их центрирование требует построения плотной матрица, которая в типичных случаях использования, вероятно, слишком велика для размещения в памяти.	True
	with_std with_std: bool, default=True Если True, масштабировать данные до единичной дисперсии (или, что эквивалентно, единичное стандартное отклонение).	True

	estimator оценщик: экземпляр оценщика Классификатор, обученный или нет, для которого мы хотим оптимизировать порог принятия решений, используемый во время `predict`.	Pipeline(step...t64(100.0)))])
	оценка scoring: str или callable, по умолчанию="balanced_accuracy" Целевая метрика для оптимизации. Может быть одной из: - str: строка, связанная с функцией оценки для бинарной классификации, см. :ref:`scoring_string_names` для вариантов. - вызываемый объект: вызываемый объект оценки (например, функция) с сигнатурой ``scorer(estimator, X, y)``. См. :ref:`scoring_callable` для подробностей.	make_scorer(b...hod='predict')
	response_method response_method: {"auto", "decision_function", "predict_proba"}, default="auto" Методы классификатора `estimator`, соответствующие функция принятия решений, для которой мы хотим найти порог. Это может быть: * если `"auto"`, он попытается вызвать для каждого классификатора, `"predict_proba"` или `"decision_function"` в таком порядке. * в противном случае, один из `"predict_proba"` или `"decision_function"`. Если метод не реализован классификатором, будет вызвано ошибка.	'auto'
	пороги thresholds: int или array-like, по умолчанию=100 Количество порогов решений для использования при дискретизации выхода классификатор `method`. Передайте массивоподобный объект для ручного указания порогов для использования.	100
	cv cv: int, float, генератор кросс-валидации, итерируемый объект или "prefit", по умолчанию=None Определяет стратегию разделения перекрестной проверки для обучения классификатора. Возможные значения для cv: * `None`, чтобы использовать стандартную 5-кратную стратифицированную K-кратную перекрестную проверку; * Целое число, чтобы указать количество фолдов в стратифицированной k-кратной перекрестной проверке; * Число с плавающей точкой, чтобы указать одно перемешивающее разбиение. Число с плавающей точкой должно должно быть в (0, 1) и представлять размер валидационного набора; * Объект, который будет использоваться как генератор перекрёстной проверки; * Итерируемый объект, возвращающий разделения на обучающую и тестовую выборки; * `"prefit"`, чтобы обойти перекрестную проверку. См. :ref:`Руководство пользователя ` для различных стратегии перекрестной проверки, которые можно использовать здесь. .. предупреждение:: Использование `cv="prefit"` и передача того же набора данных для подгонки `estimator` дает неверный результат, когда и настройка порогового значения подвержена нежелательному переобучению. Вы можете см. :ref:`TunedThresholdClassifierCV_no_cv` для примера. Эта опция должна использоваться только когда набор, используемый для обучения `estimator`, отличается от того, который используется для настройки точки отсечения (путем вызова :meth:`TunedThresholdClassifierCV.fit`).	None
	refit refit: bool, default=True Следует ли переобучать классификатор на всём тренировочном наборе после порог принятия решения был найден. Обратите внимание, что принудительное установление `refit=False` при кросс-валидации с более чем чем одно разделение вызовет ошибку. Аналогично, `refit=True` в использование вместе с `cv="prefit"` вызовет ошибку.	True
	n_jobs n_jobs: int, default=None Количество задач для параллельного выполнения. Когда `cv` представляет собой стратегия перекрёстной проверки, подгонка и оценка на каждом разделе данных выполняется параллельно. ``None`` означает 1, если не в :obj:`joblib.parallel_backend` контекст. ``-1`` означает использование всех процессоры. См. :term:`Глоссарий ` для получения дополнительной информации.	2
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет случайностью перекрестной проверки, когда `cv` является float. См. :term:`Глоссарий `.	None
	store_cv_results store_cv_results: bool, default=False Сохранять ли все баллы и пороги, вычисленные во время перекрестной проверки процесс.	False

Последующая настройка порога принятия решений для обучения с учетом стоимости#

Обучение с учетом затрат с постоянными выгодами и издержками#

Набор данных "Statlog" по кредитам в Германии#

Метрики оценки#

Базовая прогнозная модель#

Настройка точки отсечения#

Соображения относительно переобучения модели и перекрестной проверки#

Обучение с учетом стоимости, когда выгоды и затраты не постоянны#

Набор данных кредитных карт#

Решение проблемы с бизнес-метрикой#

Настройка порога принятия решения#

Ручная установка порога принятия решений вместо его настройки#

Эта страница