Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Визуализации с объектами Display#

В этом примере мы создадим объекты отображения, ConfusionMatrixDisplay, RocCurveDisplay, и PrecisionRecallDisplay непосредственно из их соответствующих метрик. Это является альтернативой использованию их соответствующих функций построения графиков, когда прогнозы модели уже вычислены или их вычисление дорого. Обратите внимание, что это продвинутое использование, и в целом мы рекомендуем использовать их соответствующие функции построения графиков.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Загрузить данные и обучить модель#

Для этого примера мы загружаем набор данных центра службы переливания крови из OpenML. Это задача бинарной классификации, где целевая переменная - пожертвовал ли человек кровь. Затем данные разделяются на обучающую и тестовую выборки, и логистическая регрессия обучается на обучающей выборке.

from sklearn.datasets import fetch_openml
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

X, y = fetch_openml(data_id=1464, return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y)

clf = make_pipeline(StandardScaler(), LogisticRegression(random_state=0))
clf.fit(X_train, y_train)

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('logisticregression', LogisticRegression(random_state=0))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Создать `ConfusionMatrixDisplay`#

С помощью обученной модели мы вычисляем предсказания модели на тестовом наборе данных. Эти предсказания используются для вычисления матрицы ошибок, которая строится с помощью ConfusionMatrixDisplay

from sklearn.metrics import ConfusionMatrixDisplay, confusion_matrix

y_pred = clf.predict(X_test)
cm = confusion_matrix(y_test, y_pred)

cm_display = ConfusionMatrixDisplay(cm).plot()

Создать `RocCurveDisplay`#

Кривая ROC требует либо вероятностей, либо не пороговых значений решений от оценщика. Поскольку логистическая регрессия предоставляет функцию решения, мы будем использовать ее для построения кривой ROC:

from sklearn.metrics import RocCurveDisplay, roc_curve

y_score = clf.decision_function(X_test)

fpr, tpr, _ = roc_curve(y_test, y_score, pos_label=clf.classes_[1])
roc_display = RocCurveDisplay(fpr=fpr, tpr=tpr).plot()

Создать `PrecisionRecallDisplay`#

Аналогично, кривая точности-полноты может быть построена с использованием y_score из предыдущих разделов.

from sklearn.metrics import PrecisionRecallDisplay, precision_recall_curve

prec, recall, _ = precision_recall_curve(y_test, y_score, pos_label=clf.classes_[1])
pr_display = PrecisionRecallDisplay(precision=prec, recall=recall).plot()

Объединение объектов отображения в один график#

Объекты отображения хранят вычисленные значения, которые были переданы в качестве аргументов. Это позволяет легко комбинировать визуализации с использованием API matplotlib. В следующем примере мы размещаем отображения рядом друг с другом в ряду.

import matplotlib.pyplot as plt

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 8))

roc_display.plot(ax=ax1)
pr_display.plot(ax=ax2)
plt.show()

Общее время выполнения скрипта: (0 минут 0.259 секунд)

Связанные примеры

Precision-Recall

Кривая ROC с API визуализации

Многоклассовая рабочая характеристика приемника (ROC)

Последующая настройка порога принятия решений для обучения с учетом стоимости

Галерея, созданная Sphinx-Gallery

	шаги steps: список кортежей Список кортежей (имя шага, оценщик), которые должны быть соединены в цепочку последовательный порядок. Для совместимости с API scikit-learn, все шаги должен определять `fit`. Все не последние шаги также должны определять `transform`. См. :ref:`Комбинирование оценщиков ` для получения дополнительной информации.	[('standardscaler', ...), ('logisticregression', ...)]
	transform_input transform_input: list of str, default=None Имена параметров :term:`metadata`, которые должны быть преобразованы конвейер перед передачей его шагу, который его потребляет. Это позволяет преобразовывать некоторые входные аргументы для ``fit`` (кроме ``X``) для преобразования шагами конвейера до шага, который требует их. Требование определяется через :ref:`маршрутизацию метаданных `. Например, это можно использовать для передачи набора валидации через конвейер. Вы можете установить это только если включена маршрутизация метаданных, что вы можно включить, используя ``sklearn.set_config(enable_metadata_routing=True)``. .. versionadded:: 1.6	None
	память memory: строка или объект с интерфейсом joblib.Memory, по умолчанию=None Используется для кэширования обученных трансформеров конвейера. Последний шаг никогда не будет кэшироваться, даже если это трансформер. По умолчанию, никакие кэширование выполняется. Если задана строка, это путь к директория кэширования. Включение кэширования запускает клонирование преобразователей перед обучением. Следовательно, экземпляр трансформатора, переданный в конвейер не может быть проверен напрямую. Используйте атрибут `named_steps` или ``steps`` для проверки оценщиков внутри конвейера. Кэширование трансформеры выгодны, когда подгонка занимает много времени. См. :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` для примера о том, как включить кэширование.	None
	verbose verbose: bool, default=False Если True, затраченное время на обучение каждого шага будет выводиться по мере его выполнения. завершено.	False

	штраф penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Укажите норму штрафа: - `None`: штраф не добавляется; - `'l2'`: добавляет штрафной член L2 и является выбором по умолчанию; - `'l1'`: добавить штрафной член L1; - `'elasticnet'`: добавляются как L1, так и L2 штрафные члены. .. предупреждение:: Некоторые штрафы могут не работать с некоторыми решателями. См. параметр `solver` ниже, чтобы узнать совместимость между штрафом и решатель. .. versionadded:: 0.19 штраф l1 с решателем SAGA (разрешающий 'multinomial' + L1) .. устарело:: 1.8 `penalty` устарел в версии 1.8 и будет удален в 1.10. Используйте `l1_ratio` вместо этого. `l1_ratio=0` для `penalty='l2'`, `l1_ratio=1` для `penalty='l1'` и `l1_ratio`, установленный в любое число с плавающей запятой от 0 до 1 для `'penalty='elasticnet'`.	'устаревший'
	C C: float, default=1.0 Обратная величина силы регуляризации; должно быть положительным числом с плавающей точкой. Как и в машинах опорных векторов, меньшие значения указывают на более сильное регуляризация. `C=np.inf` приводит к нештрафуемой логистической регрессии. Для визуального примера эффекта настройки параметра `C` с L1-штрафом, см.: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	1.0
	l1_ratio l1_ratio: float, default=0.0 Параметр смешивания Elastic-Net, где `0 <= l1_ratio <= 1`. Установка `l1_ratio=1` даёт чистое L1-штрафование, установка `l1_ratio=0` — чистое L2-штрафование. Любое значение между 0 и 1 дает штраф Elastic-Net вида `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. предупреждение:: Некоторые значения `l1_ratio`, т.е. некоторые штрафы, могут не работать с некоторыми решатели. См. параметр `solver` ниже, чтобы узнать совместимость между штраф и решатель. .. versionchanged:: 1.8 Значение по умолчанию изменено с None на 0.0. .. устарело:: 1.8 `None` устарел и будет удален в версии 1.10. Всегда используйте `l1_ratio` для указания типа штрафа.	0.0
	dual dual: bool, по умолчанию=False Двойственная (ограниченная) или прямая (регуляризованная, см. также :ref:`это уравнение `) формулировка. Двойственная формулировка реализован только для штрафа l2 с решателем liblinear. Предпочтительнее `dual=False` когда n_samples > n_features.	False
	tol tol: float, default=1e-4 Допуск для критериев остановки.	0.0001
	fit_intercept fit_intercept: bool, по умолчанию=True Указывает, должна ли быть добавлена константа (также называемая смещением или перехватом) добавлено в функцию принятия решений.	True
	intercept_scaling intercept_scaling: float, по умолчанию=1 Полезно только при использовании решателя `liblinear` и `self.fit_intercept` установлен в `True`. В этом случае `x` становится `[x, self.intercept_scaling]`, т.е. "синтетический" признак с постоянным значением, равным `intercept_scaling` добавляется к вектору экземпляра. Интерсепт становится ``intercept_scaling * synthetic_feature_weight``. .. примечание:: Вес синтетического признака подчиняется L1 или L2 регуляризация, как и все остальные признаки. Чтобы уменьшить влияние регуляризации на вес синтетического признака (и, следовательно, на intercept) `intercept_scaling` должен быть увеличен.	1
	class_weight class_weight: dict или 'balanced', по умолчанию=None Веса, связанные с классами, в форме ``{class_label: weight}``. Если не указано, предполагается, что все классы имеют вес один. Режим "balanced" использует значения y для автоматической настройки веса, обратно пропорциональные частотам классов во входных данных как ``n_samples / (n_classes * np.bincount(y))``. Обратите внимание, что эти веса будут умножены на sample_weight (переданный через метод fit), если указан sample_weight. .. versionadded:: 0.17 результаты	None
	random_state random_state: int, RandomState instance, default=None Используется, когда ``solver`` == 'sag', 'saga' или 'liblinear' для перемешивания данные. См.: термин `Glossary ` для деталей.	0
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, по умолчанию='lbfgs' Алгоритм для использования в задаче оптимизации. По умолчанию 'lbfgs'. Для выбора решателя вы можете рассмотреть следующие аспекты: - 'lbfgs' - хороший решатель по умолчанию, так как он достаточно хорошо работает для широкого класс проблем. - Для :term:`многоклассовых` задач (`n_classes >= 3`), все решатели, кроме 'liblinear' минимизирует полную мультиномиальную потерю, 'liblinear' вызовет ошибка. - 'newton-cholesky' является хорошим выбором для `n_samples` >> `n_features * n_classes`, особенно при one-hot кодировании категориальные признаки с редкими категориями. Учтите, что использование памяти этого решателя имеет квадратичную зависимость от `n_features * n_classes` поскольку он явно вычисляет полную матрицу Гессе. - Для небольших наборов данных 'liblinear' является хорошим выбором, тогда как 'sag' и 'saga' быстрее для больших; - 'liblinear' по умолчанию может обрабатывать только бинарную классификацию. Чтобы применить схему один-против-всех для многоклассовой настройки можно обернуть с помощью :class:`~sklearn.multiclass.OneVsRestClassifier`. .. предупреждение:: Выбор алгоритма зависит от выбранного штрафа (`l1_ratio=0` для L2-штрафа, `l1_ratio=1` для L1-штрафа и `0 < l1_ratio < 1` для Elastic-Net) и на (мультиномиальной) многоклассовой поддержке: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 да 'liblinear' l1_ratio=1 или l1_ratio=0 нет 'newton-cg' l1_ratio=0 да 'newton-cholesky' l1_ratio=0 да 'sag' l1_ratio=0 да 'saga' 0<=l1_ratio<=1 да ================= ======================== ====================== .. примечание:: 'sag' и 'saga' быстрая сходимость гарантируется только для признаков с примерно одинаковым масштабом. Вы можете предобработать данные с помощью скейлер из :mod:`sklearn.preprocessing`. .. см. также:: См. :ref:`Руководство пользователя ` для дополнительной информации информация о :class:`LogisticRegression` и, в частности, о :ref:`Таблица ` обобщение поддержки решателя/штрафа. .. versionadded:: 0.17 Решатель стохастического среднего градиента (SAG). Поддержка мультиномиального распределения в версия 0.18. .. versionadded:: 0.19 SAGA solver. .. versionchanged:: 0.22 Стандартный решатель изменился с 'liblinear' на 'lbfgs' в версии 0.22. .. versionadded:: 1.2 newton-cholesky решатель. Поддержка мультиномиальной версии в версии 1.6.	'lbfgs'
	max_iter max_iter: int, по умолчанию=100 Максимальное количество итераций, выполняемых решателями для сходимости.	100
	verbose verbose: int, по умолчанию=0 Для решателей liblinear и lbfgs установите verbose в любое положительное число для уровня детализации вывода.	0
	warm_start warm_start: bool, default=False При установке в True повторно использовать решение предыдущего вызова fit в качестве инициализация, в противном случае просто удалить предыдущее решение. Бесполезно для решателя liblinear. См.: термин `the Glossary `. .. versionadded:: 0.17 warm_start для поддержки решателей lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Не оказывает никакого эффекта. .. устарело:: 1.8 `n_jobs` устарел в версии 1.8 и будет удален в 1.10.	None

	copy copy: bool, default=True Если False, пытается избежать копирования и выполняет масштабирование на месте. Это не гарантирует всегда работать на месте; например, если данные не массив NumPy или разреженная матрица CSR scipy.sparse, копия все еще может быть возвращается.	True
	with_mean with_mean: bool, default=True Если True, центрировать данные перед масштабированием. Это не работает (и вызовет исключение) при попытке на разреженные матрицы, потому что их центрирование требует построения плотной матрица, которая в типичных случаях использования, вероятно, слишком велика для размещения в памяти.	True
	with_std with_std: bool, default=True Если True, масштабировать данные до единичной дисперсии (или, что эквивалентно, единичное стандартное отклонение).	True

Визуализации с объектами Display#

Загрузить данные и обучить модель#

Создать ConfusionMatrixDisplay#

Создать RocCurveDisplay#

Создать PrecisionRecallDisplay#

Объединение объектов отображения в один график#

Эта страница

Создать `ConfusionMatrixDisplay`#

Создать `RocCurveDisplay`#

Создать `PrecisionRecallDisplay`#