Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Пост-фактумная настройка точки отсечения функции принятия решений#

После обучения бинарного классификатора predict метод выводит предсказания меток классов, соответствующие пороговой обработке либо decision_function или predict_proba вывод. Порог по умолчанию определяется как оценка апостериорной вероятности 0.5 или оценка решения 0.0. Однако эта стратегия по умолчанию может быть не оптимальной для конкретной задачи.

Этот пример показывает, как использовать TunedThresholdClassifierCV для настройки порога принятия решений в зависимости от интересующей метрики.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Набор данных по диабету#

Чтобы проиллюстрировать настройку порога принятия решений, мы будем использовать набор данных по диабету. Этот набор данных доступен на OpenML: https://www.openml.org/d/37. Мы используем fetch_openml функция для получения этого набора данных.

from sklearn.datasets import fetch_openml

diabetes = fetch_openml(data_id=37, as_frame=True, parser="pandas")
data, target = diabetes.data, diabetes.target

Мы смотрим на целевую переменную, чтобы понять тип задачи, с которой мы имеем дело.

target.value_counts()

class
tested_negative    500
tested_positive    268
Name: count, dtype: int64

Мы видим, что имеем дело с задачей бинарной классификации. Поскольку метки не закодированы как 0 и 1, мы явно указываем, что рассматриваем класс с меткой “tested_negative” как отрицательный класс (который также является наиболее частым), а класс с меткой “tested_positive” как положительный класс:

neg_label, pos_label = target.value_counts().index

Мы также можем наблюдать, что эта бинарная задача слегка несбалансирована, где у нас примерно в два раза больше образцов из отрицательного класса, чем из положительного. При оценке мы должны учитывать этот аспект для интерпретации результатов.

Наш базовый классификатор#

Мы определяем базовую прогнозную модель, состоящую из масштабатора и классификатора логистической регрессии.

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

model = make_pipeline(StandardScaler(), LogisticRegression())
model

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('logisticregression', LogisticRegression())])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Мы оцениваем нашу модель с помощью перекрестной проверки. Мы используем точность и сбалансированную точность для отчета о производительности нашей модели. Сбалансированная точность — это метрика, менее чувствительная к дисбалансу классов, что позволит нам оценить показатель точности в перспективе.

Кросс-валидация позволяет изучить дисперсию порога решения по разным разбиениям данных. Однако набор данных довольно мал, и использование более 5 фолдов для оценки дисперсии было бы вредным. Поэтому мы используем RepeatedStratifiedKFold где мы применяем несколько повторений 5-кратной перекрестной проверки.

import pandas as pd

from sklearn.model_selection import RepeatedStratifiedKFold, cross_validate

scoring = ["accuracy", "balanced_accuracy"]
cv_scores = [
    "train_accuracy",
    "test_accuracy",
    "train_balanced_accuracy",
    "test_balanced_accuracy",
]
cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=10, random_state=42)
cv_results_vanilla_model = pd.DataFrame(
    cross_validate(
        model,
        data,
        target,
        scoring=scoring,
        cv=cv,
        return_train_score=True,
        return_estimator=True,
    )
)
cv_results_vanilla_model[cv_scores].aggregate(["mean", "std"]).T

	mean	std
train_accuracy	0.779751	0.007822
точность_теста	0.770926	0.030585
train_balanced_accuracy	0.732913	0.009788
test_balanced_accuracy	0.723665	0.035914

Наша прогнозная модель успешно улавливает взаимосвязь между данными и целевой переменной. Оценки на обучении и тестировании близки друг к другу, что означает, что наша прогнозная модель не переобучается. Мы также можем наблюдать, что сбалансированная точность ниже обычной точности из-за ранее упомянутого дисбаланса классов.

Для этого классификатора мы оставляем порог принятия решения, используемый для преобразования вероятности положительного класса в предсказание класса, равным значению по умолчанию: 0.5. Однако этот порог может быть не оптимальным. Если наша цель — максимизировать сбалансированную точность, мы должны выбрать другой порог, который максимизирует эту метрику.

The TunedThresholdClassifierCV мета-оценщик позволяет настроить порог принятия решений классификатора для заданной метрики интереса.

Настройка порога принятия решения#

Мы создаем TunedThresholdClassifierCV и настроить его для максимизации сбалансированной точности. Мы оцениваем модель, используя ту же стратегию перекрестной проверки, что и ранее.

from sklearn.model_selection import TunedThresholdClassifierCV

tuned_model = TunedThresholdClassifierCV(estimator=model, scoring="balanced_accuracy")
cv_results_tuned_model = pd.DataFrame(
    cross_validate(
        tuned_model,
        data,
        target,
        scoring=scoring,
        cv=cv,
        return_train_score=True,
        return_estimator=True,
    )
)
cv_results_tuned_model[cv_scores].aggregate(["mean", "std"]).T

	mean	std
train_accuracy	0.752470	0.015579
точность_теста	0.739950	0.036592
train_balanced_accuracy	0.757915	0.009747
test_balanced_accuracy	0.744029	0.035445

По сравнению с базовой моделью мы наблюдаем увеличение сбалансированной точности. Конечно, это происходит за счет более низкой общей точности. Это означает, что наша модель теперь более чувствительна к положительному классу, но делает больше ошибок на отрицательном классе.

Однако важно отметить, что эта настроенная прогностическая модель внутренне является той же моделью, что и базовая модель: они имеют одинаковые подобранные коэффициенты.

import matplotlib.pyplot as plt

vanilla_model_coef = pd.DataFrame(
    [est[-1].coef_.ravel() for est in cv_results_vanilla_model["estimator"]],
    columns=diabetes.feature_names,
)
tuned_model_coef = pd.DataFrame(
    [est.estimator_[-1].coef_.ravel() for est in cv_results_tuned_model["estimator"]],
    columns=diabetes.feature_names,
)

fig, ax = plt.subplots(ncols=2, figsize=(12, 4), sharex=True, sharey=True)
vanilla_model_coef.boxplot(ax=ax[0])
ax[0].set_ylabel("Coefficient value")
ax[0].set_title("Vanilla model")
tuned_model_coef.boxplot(ax=ax[1])
ax[1].set_title("Tuned model")
_ = fig.suptitle("Coefficients of the predictive models")

Coefficients of the predictive models, Vanilla model, Tuned model

Только порог принятия решения каждой модели изменялся во время перекрёстной проверки.

decision_threshold = pd.Series(
    [est.best_threshold_ for est in cv_results_tuned_model["estimator"]],
)
ax = decision_threshold.plot.kde()
ax.axvline(
    decision_threshold.mean(),
    color="k",
    linestyle="--",
    label=f"Mean decision threshold: {decision_threshold.mean():.2f}",
)
ax.set_xlabel("Decision threshold")
ax.legend(loc="upper right")
_ = ax.set_title(
    "Distribution of the decision threshold \nacross different cross-validation folds"
)

Distribution of the decision threshold across different cross-validation folds

В среднем, порог принятия решения около 0.32 максимизирует сбалансированную точность, что отличается от стандартного порога принятия решения 0.5. Таким образом, настройка порога принятия решения особенно важна, когда выход прогнозной модели используется для принятия решений. Кроме того, метрика, используемая для настройки порога принятия решения, должна быть выбрана тщательно. Здесь мы использовали сбалансированную точность, но она может быть не самой подходящей метрикой для данной задачи. Выбор «правильной» метрики обычно зависит от проблемы и может требовать некоторых знаний предметной области. См. пример под названием, Последующая настройка порога принятия решений для обучения с учетом стоимости, для получения дополнительной информации.

Общее время выполнения скрипта: (0 минут 35.350 секунд)

Связанные примеры

Последующая настройка порога принятия решений для обучения с учетом стоимости

Основные новости выпуска scikit-learn 1.5

Влияние изменения порога для самообучения

Примеры использования FrozenEstimator

Галерея, созданная Sphinx-Gallery

	шаги steps: список кортежей Список кортежей (имя шага, оценщик), которые должны быть соединены в цепочку последовательный порядок. Для совместимости с API scikit-learn, все шаги должен определять `fit`. Все не последние шаги также должны определять `transform`. См. :ref:`Комбинирование оценщиков ` для получения дополнительной информации.	[('standardscaler', ...), ('logisticregression', ...)]
	transform_input transform_input: list of str, default=None Имена параметров :term:`metadata`, которые должны быть преобразованы конвейер перед передачей его шагу, который его потребляет. Это позволяет преобразовывать некоторые входные аргументы для ``fit`` (кроме ``X``) для преобразования шагами конвейера до шага, который требует их. Требование определяется через :ref:`маршрутизацию метаданных `. Например, это можно использовать для передачи набора валидации через конвейер. Вы можете установить это только если включена маршрутизация метаданных, что вы можно включить, используя ``sklearn.set_config(enable_metadata_routing=True)``. .. versionadded:: 1.6	None
	память memory: строка или объект с интерфейсом joblib.Memory, по умолчанию=None Используется для кэширования обученных трансформеров конвейера. Последний шаг никогда не будет кэшироваться, даже если это трансформер. По умолчанию, никакие кэширование выполняется. Если задана строка, это путь к директория кэширования. Включение кэширования запускает клонирование преобразователей перед обучением. Следовательно, экземпляр трансформатора, переданный в конвейер не может быть проверен напрямую. Используйте атрибут `named_steps` или ``steps`` для проверки оценщиков внутри конвейера. Кэширование трансформеры выгодны, когда подгонка занимает много времени. См. :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` для примера о том, как включить кэширование.	None
	verbose verbose: bool, default=False Если True, затраченное время на обучение каждого шага будет выводиться по мере его выполнения. завершено.	False

	штраф penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Укажите норму штрафа: - `None`: штраф не добавляется; - `'l2'`: добавляет штрафной член L2 и является выбором по умолчанию; - `'l1'`: добавить штрафной член L1; - `'elasticnet'`: добавляются как L1, так и L2 штрафные члены. .. предупреждение:: Некоторые штрафы могут не работать с некоторыми решателями. См. параметр `solver` ниже, чтобы узнать совместимость между штрафом и решатель. .. versionadded:: 0.19 штраф l1 с решателем SAGA (разрешающий 'multinomial' + L1) .. устарело:: 1.8 `penalty` устарел в версии 1.8 и будет удален в 1.10. Используйте `l1_ratio` вместо этого. `l1_ratio=0` для `penalty='l2'`, `l1_ratio=1` для `penalty='l1'` и `l1_ratio`, установленный в любое число с плавающей запятой от 0 до 1 для `'penalty='elasticnet'`.	'устаревший'
	C C: float, default=1.0 Обратная величина силы регуляризации; должно быть положительным числом с плавающей точкой. Как и в машинах опорных векторов, меньшие значения указывают на более сильное регуляризация. `C=np.inf` приводит к нештрафуемой логистической регрессии. Для визуального примера эффекта настройки параметра `C` с L1-штрафом, см.: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	1.0
	l1_ratio l1_ratio: float, default=0.0 Параметр смешивания Elastic-Net, где `0 <= l1_ratio <= 1`. Установка `l1_ratio=1` даёт чистое L1-штрафование, установка `l1_ratio=0` — чистое L2-штрафование. Любое значение между 0 и 1 дает штраф Elastic-Net вида `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. предупреждение:: Некоторые значения `l1_ratio`, т.е. некоторые штрафы, могут не работать с некоторыми решатели. См. параметр `solver` ниже, чтобы узнать совместимость между штраф и решатель. .. versionchanged:: 1.8 Значение по умолчанию изменено с None на 0.0. .. устарело:: 1.8 `None` устарел и будет удален в версии 1.10. Всегда используйте `l1_ratio` для указания типа штрафа.	0.0
	dual dual: bool, по умолчанию=False Двойственная (ограниченная) или прямая (регуляризованная, см. также :ref:`это уравнение `) формулировка. Двойственная формулировка реализован только для штрафа l2 с решателем liblinear. Предпочтительнее `dual=False` когда n_samples > n_features.	False
	tol tol: float, default=1e-4 Допуск для критериев остановки.	0.0001
	fit_intercept fit_intercept: bool, по умолчанию=True Указывает, должна ли быть добавлена константа (также называемая смещением или перехватом) добавлено в функцию принятия решений.	True
	intercept_scaling intercept_scaling: float, по умолчанию=1 Полезно только при использовании решателя `liblinear` и `self.fit_intercept` установлен в `True`. В этом случае `x` становится `[x, self.intercept_scaling]`, т.е. "синтетический" признак с постоянным значением, равным `intercept_scaling` добавляется к вектору экземпляра. Интерсепт становится ``intercept_scaling * synthetic_feature_weight``. .. примечание:: Вес синтетического признака подчиняется L1 или L2 регуляризация, как и все остальные признаки. Чтобы уменьшить влияние регуляризации на вес синтетического признака (и, следовательно, на intercept) `intercept_scaling` должен быть увеличен.	1
	class_weight class_weight: dict или 'balanced', по умолчанию=None Веса, связанные с классами, в форме ``{class_label: weight}``. Если не указано, предполагается, что все классы имеют вес один. Режим "balanced" использует значения y для автоматической настройки веса, обратно пропорциональные частотам классов во входных данных как ``n_samples / (n_classes * np.bincount(y))``. Обратите внимание, что эти веса будут умножены на sample_weight (переданный через метод fit), если указан sample_weight. .. versionadded:: 0.17 результаты	None
	random_state random_state: int, RandomState instance, default=None Используется, когда ``solver`` == 'sag', 'saga' или 'liblinear' для перемешивания данные. См.: термин `Glossary ` для деталей.	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, по умолчанию='lbfgs' Алгоритм для использования в задаче оптимизации. По умолчанию 'lbfgs'. Для выбора решателя вы можете рассмотреть следующие аспекты: - 'lbfgs' - хороший решатель по умолчанию, так как он достаточно хорошо работает для широкого класс проблем. - Для :term:`многоклассовых` задач (`n_classes >= 3`), все решатели, кроме 'liblinear' минимизирует полную мультиномиальную потерю, 'liblinear' вызовет ошибка. - 'newton-cholesky' является хорошим выбором для `n_samples` >> `n_features * n_classes`, особенно при one-hot кодировании категориальные признаки с редкими категориями. Учтите, что использование памяти этого решателя имеет квадратичную зависимость от `n_features * n_classes` поскольку он явно вычисляет полную матрицу Гессе. - Для небольших наборов данных 'liblinear' является хорошим выбором, тогда как 'sag' и 'saga' быстрее для больших; - 'liblinear' по умолчанию может обрабатывать только бинарную классификацию. Чтобы применить схему один-против-всех для многоклассовой настройки можно обернуть с помощью :class:`~sklearn.multiclass.OneVsRestClassifier`. .. предупреждение:: Выбор алгоритма зависит от выбранного штрафа (`l1_ratio=0` для L2-штрафа, `l1_ratio=1` для L1-штрафа и `0 < l1_ratio < 1` для Elastic-Net) и на (мультиномиальной) многоклассовой поддержке: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 да 'liblinear' l1_ratio=1 или l1_ratio=0 нет 'newton-cg' l1_ratio=0 да 'newton-cholesky' l1_ratio=0 да 'sag' l1_ratio=0 да 'saga' 0<=l1_ratio<=1 да ================= ======================== ====================== .. примечание:: 'sag' и 'saga' быстрая сходимость гарантируется только для признаков с примерно одинаковым масштабом. Вы можете предобработать данные с помощью скейлер из :mod:`sklearn.preprocessing`. .. см. также:: См. :ref:`Руководство пользователя ` для дополнительной информации информация о :class:`LogisticRegression` и, в частности, о :ref:`Таблица ` обобщение поддержки решателя/штрафа. .. versionadded:: 0.17 Решатель стохастического среднего градиента (SAG). Поддержка мультиномиального распределения в версия 0.18. .. versionadded:: 0.19 SAGA solver. .. versionchanged:: 0.22 Стандартный решатель изменился с 'liblinear' на 'lbfgs' в версии 0.22. .. versionadded:: 1.2 newton-cholesky решатель. Поддержка мультиномиальной версии в версии 1.6.	'lbfgs'
	max_iter max_iter: int, по умолчанию=100 Максимальное количество итераций, выполняемых решателями для сходимости.	100
	verbose verbose: int, по умолчанию=0 Для решателей liblinear и lbfgs установите verbose в любое положительное число для уровня детализации вывода.	0
	warm_start warm_start: bool, default=False При установке в True повторно использовать решение предыдущего вызова fit в качестве инициализация, в противном случае просто удалить предыдущее решение. Бесполезно для решателя liblinear. См.: термин `the Glossary `. .. versionadded:: 0.17 warm_start для поддержки решателей lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Не оказывает никакого эффекта. .. устарело:: 1.8 `n_jobs` устарел в версии 1.8 и будет удален в 1.10.	None

	copy copy: bool, default=True Если False, пытается избежать копирования и выполняет масштабирование на месте. Это не гарантирует всегда работать на месте; например, если данные не массив NumPy или разреженная матрица CSR scipy.sparse, копия все еще может быть возвращается.	True
	with_mean with_mean: bool, default=True Если True, центрировать данные перед масштабированием. Это не работает (и вызовет исключение) при попытке на разреженные матрицы, потому что их центрирование требует построения плотной матрица, которая в типичных случаях использования, вероятно, слишком велика для размещения в памяти.	True
	with_std with_std: bool, default=True Если True, масштабировать данные до единичной дисперсии (или, что эквивалентно, единичное стандартное отклонение).	True

Пост-фактумная настройка точки отсечения функции принятия решений#

Набор данных по диабету#

Наш базовый классификатор#

Настройка порога принятия решения#

Эта страница