Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Монотонные ограничения#

Этот пример иллюстрирует влияние монотонных ограничений на градиентный бустинговый оценщик.

Мы строим искусственный набор данных, где целевое значение в целом положительно коррелирует с первым признаком (с некоторыми случайными и неслучайными вариациями), и в целом отрицательно коррелирует со вторым признаком.

Путем наложения ограничения монотонного возрастания или монотонного убывания соответственно на признаки в процессе обучения, оценщик способен правильно следовать общему тренду вместо того, чтобы подвергаться вариациям.

Этот пример был вдохновлён Документация XGBoost.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

import matplotlib.pyplot as plt
import numpy as np

from sklearn.ensemble import HistGradientBoostingRegressor
from sklearn.inspection import PartialDependenceDisplay

rng = np.random.RandomState(0)

n_samples = 1000
f_0 = rng.rand(n_samples)
f_1 = rng.rand(n_samples)
X = np.c_[f_0, f_1]
noise = rng.normal(loc=0.0, scale=0.01, size=n_samples)

# y is positively correlated with f_0, and negatively correlated with f_1
y = 5 * f_0 + np.sin(10 * np.pi * f_0) - 5 * f_1 - np.cos(10 * np.pi * f_1) + noise

Обучите первую модель на этом наборе данных без ограничений.

gbdt_no_cst = HistGradientBoostingRegressor()
gbdt_no_cst.fit(X, y)

HistGradientBoostingRegressor()

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Обучите вторую модель на этом наборе данных с ограничениями монотонного увеличения (1) и монотонного уменьшения (-1) соответственно.

gbdt_with_monotonic_cst = HistGradientBoostingRegressor(monotonic_cst=[1, -1])
gbdt_with_monotonic_cst.fit(X, y)

HistGradientBoostingRegressor(monotonic_cst=[1, -1])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Давайте отобразим частичную зависимость предсказаний от двух признаков.

fig, ax = plt.subplots()
disp = PartialDependenceDisplay.from_estimator(
    gbdt_no_cst,
    X,
    features=[0, 1],
    feature_names=(
        "First feature",
        "Second feature",
    ),
    line_kw={"linewidth": 4, "label": "unconstrained", "color": "tab:blue"},
    ax=ax,
)
PartialDependenceDisplay.from_estimator(
    gbdt_with_monotonic_cst,
    X,
    features=[0, 1],
    line_kw={"linewidth": 4, "label": "constrained", "color": "tab:orange"},
    ax=disp.axes_,
)

for f_idx in (0, 1):
    disp.axes_[0, f_idx].plot(
        X[:, f_idx], y, "o", alpha=0.3, zorder=-1, color="tab:green"
    )
    disp.axes_[0, f_idx].set_ylim(-6, 6)

plt.legend()
fig.suptitle("Monotonic constraints effect on partial dependences")
plt.show()

Monotonic constraints effect on partial dependences

Мы видим, что прогнозы неограниченной модели улавливают колебания данных, в то время как ограниченная модель следует общему тренду и игнорирует локальные вариации.

Использование имен признаков для указания монотонных ограничений#

Обратите внимание, что если обучающие данные имеют имена признаков, можно указать монотонные ограничения, передав словарь:

import pandas as pd

X_df = pd.DataFrame(X, columns=["f_0", "f_1"])

gbdt_with_monotonic_cst_df = HistGradientBoostingRegressor(
    monotonic_cst={"f_0": 1, "f_1": -1}
).fit(X_df, y)

np.allclose(
    gbdt_with_monotonic_cst_df.predict(X_df), gbdt_with_monotonic_cst.predict(X)
)

True

Общее время выполнения скрипта: (0 минут 0.570 секунд)

Связанные примеры

Основные новости выпуска scikit-learn 0.23

Основные нововведения выпуска scikit-learn 1.4

Признаки в деревьях с градиентным бустингом на гистограммах

Расширенное построение графиков с частичной зависимостью

Галерея, созданная Sphinx-Gallery

	потеря loss: {'squared_error', 'absolute_error', 'gamma', 'poisson', 'quantile'}, default='squared_error' Функция потерь, используемая в процессе бустинга. Обратите внимание, что Фактически реализуют потери "squared error", "gamma" и "poisson" "половина квадратичных потерь", "половина девиансы гамма" и "половина пуассона deviance" для упрощения вычисления градиента. Кроме того, "gamma" и "poisson" потери внутренне используют логарифмическую связь, "gamma" требует ``y > 0``, а "poisson" требует ``y >= 0``. "quantile" использует потерю пинбола. .. versionchanged:: 0.23 Добавлена опция 'poisson'. .. versionchanged:: 1.1 Добавлена опция 'quantile'. .. versionchanged:: 1.3 Добавлена опция 'gamma'.	'squared_error'
	квантиль quantile: float, default=None Если loss равно "quantile", этот параметр указывает, какой квантиль оценивать и должен быть между 0 и 1.	None
	learning_rate learning_rate: float, по умолчанию=0.1 Скорость обучения, также известная как сжатие. Используется как мультипликативный коэффициент для значений листьев. Используйте ``1`` для отсутствия сжатие.	0.1
	max_iter max_iter: int, по умолчанию=100 Максимальное количество итераций процесса бустинга, т.е. максимальное количество деревьев.	100
	max_leaf_nodes max_leaf_nodes: int или None, по умолчанию=31 Максимальное количество листьев для каждого дерева. Должно быть строго больше чем 1. Если None, максимального предела нет.	31
	max_depth max_depth: int или None, по умолчанию=None Максимальная глубина каждого дерева. Глубина дерева — это количество ребра для перехода от корня к самому глубокому листу. Глубина по умолчанию не ограничена.	None
	min_samples_leaf min_samples_leaf: int, по умолчанию=20 Минимальное количество образцов на лист. Для небольших наборов данных с менее чем чем несколько сотен образцов, рекомендуется уменьшить это значение поскольку строились бы только очень мелкие деревья.	20
	l2_regularization l2_regularization: float, по умолчанию=0 Параметр регуляризации L2, штрафующий листья с малыми гессианами. Используйте ``0`` для отсутствия регуляризации (по умолчанию).	0.0
	max_features max_features: float, default=1.0 Доля случайно выбранных признаков в каждом разделении узла. Это форма регуляризации: меньшие значения делают деревья слабее обучающихся моделей и может предотвратить переобучение. Если присутствуют ограничения взаимодействия из `interaction_cst`, разрешены только признаки учитываются для субдискретизации. .. versionadded:: 1.4	1.0
	max_bins max_bins: int, default=255 Максимальное количество бинов для использования с ненулевыми значениями. До обучения, каждый признак входного массива `X` разбивается на бины в целочисленные бины, что позволяет значительно ускорить этап обучения. Признаки с небольшим количеством уникальных значений могут использовать меньше чем ``max_bins`` бинов. В дополнение к ``max_bins`` бинам, еще один бин всегда зарезервировано для пропущенных значений. Не должно быть больше 255.	255
	categorical_features categorical_features: array-like из {bool, int, str} формы (n_features) или формы (n_categorical_features,), по умолчанию='from_dtype' Указывает категориальные признаки. - None : ни один признак не будет считаться категориальным. - массив булевых значений: булева маска, указывающая категориальные признаки. - целочисленный массивоподобный : целочисленные индексы, указывающие категориальные признаков. - str array-like: имена категориальных признаков (предполагается, что обучающие данные имеют имена признаков). - `"from_dtype"`: столбцы датафрейма с типом данных "category" являются считаются категориальными признаками. Входные данные должны быть объектом предоставляя метод ``__dataframe__``, такой как pandas или polars DataFrames для использования этой функции. Для каждой категориальной характеристики должно быть не более `max_bins` уникальных категории. Отрицательные значения для категориальных признаков, закодированных как числовые dtypes обрабатываются как пропущенные значения. Все категориальные значения преобразуются в числа с плавающей точкой. Это означает, что категориальные значения значения 1.0 и 1 рассматриваются как одна и та же категория. Подробнее в :ref:`Руководстве пользователя ` и :ref:`sphx_glr_auto_examples_ensemble_plot_gradient_boosting_categorical.py`. .. versionadded:: 0.24 .. versionchanged:: 1.2 Добавлена поддержка имён признаков. .. versionchanged:: 1.4 Добавлена опция `"from_dtype"`. .. versionchanged:: 1.6 Значение по умолчанию изменилось с `None` на `"from_dtype"`.	'from_dtype'
	monotonic_cst monotonic_cst: array-like из int формы (n_features) или dict, по умолчанию=None Монотонное ограничение, накладываемое на каждый признак, задается с помощью следующие целочисленные значения: - 1: монотонное увеличение - 0: без ограничений - -1: монотонное убывание Если это словарь со строковыми ключами, сопоставьте признак с монотонными ограничениями по имени. Если передан массив, признаки сопоставляются с ограничениями по позиции. См. :ref:`monotonic_cst_features_names` для примера использования. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 0.23 .. versionchanged:: 1.2 Принимает словарь ограничений с именами признаков в качестве ключей.	None
	interaction_cst interaction_cst: {"pairwise", "no_interactions"} или последовательность списков/кортежей/множеств int, по умолчанию=None Задайте ограничения взаимодействия, наборы признаков, которые могут взаимодействуют друг с другом в разбиениях дочерних узлов. Каждый элемент указывает набор индексов признаков, которые разрешены взаимодействовать друг с другом. Если признаков больше, чем указаны в этих ограничениях, они рассматриваются как если бы они были указан как дополнительный набор. Строки "pairwise" и "no_interactions" являются сокращениями для разрешая только попарные взаимодействия или их отсутствие соответственно. Например, при 5 признаках в общей сложности, `interaction_cst=[{0, 1}]` эквивалентно `interaction_cst=[{0, 1}, {2, 3, 4}]`, и указывает, что каждая ветвь дерева будет либо только разделять по признакам 0 и 1 или только по признакам 2, 3 и 4. См. :ref:`этот пример` о том, как использовать `interaction_cst`. .. versionadded:: 1.2	None
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль. Для валидности результатов, оценщик должен быть переобучен на тех же данных. См. :term:`Глоссарий `.	False
	early_stopping early_stopping: 'auto' или bool, по умолчанию='auto' Если 'auto', ранняя остановка включается, если размер выборки больше 10000 или если `X_val` и `y_val` переданы в `fit`. Если True, ранняя остановка включено, в противном случае ранняя остановка отключена. .. versionadded:: 0.23	'auto'
	оценка scoring: str или callable или None, по умолчанию='loss' Метод оценки для ранней остановки. Используется только если `early_stopping` включено. Опции: - str: см. :ref:`scoring_string_names` для вариантов. - вызываемый объект: вызываемый объект оценки (например, функция) с сигнатурой ``scorer(estimator, X, y)``. См. :ref:`scoring_callable` для подробностей. - `None`: :ref:`коэффициент детерминации ` (:math:`R^2`) используется. - 'loss': ранняя остановка проверяется относительно значения потерь.	'loss'
	validation_fraction validation_fraction: int или float или None, default=0.1 Доля (или абсолютный размер) обучающих данных, которые следует отложить как валидационные данные для ранней остановки. Если None, ранняя остановка выполняется на обучающие данные. Значение игнорируется, если ранняя остановка не выполняется, например, `early_stopping=False`, или если `X_val` и `y_val` переданы в fit.	0.1
	n_iter_no_change n_iter_no_change: int, default=10 Используется для определения момента "ранней остановки". Процесс обучения остановка, когда ни один из последних ``n_iter_no_change`` результатов не улучшается чем ``n_iter_no_change - 1``-я с конца, до некоторого допуск. Используется только при досрочной остановке.	10
	tol tol: float, default=1e-7 Абсолютный допуск, используемый при сравнении оценок во время ранней остановки. Чем выше допуск, тем более вероятна ранняя остановка: более высокая толерантность означает, что последующим будет сложнее итераций, чтобы считаться улучшением по сравнению с эталонным результатом.	1e-07
	verbose verbose: int, по умолчанию=0 Уровень подробности вывода. Если не ноль, выводит некоторую информацию о процесс обучения. ``1`` выводит только сводную информацию, ``2`` выводит информацию на итерация.	0
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Псевдослучайный генератор чисел для управления субдискретизацией в процесс бинирования и разделение данных на обучающую/валидационную выборку, если используется ранняя остановка включен. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	None

	потеря loss: {'squared_error', 'absolute_error', 'gamma', 'poisson', 'quantile'}, default='squared_error' Функция потерь, используемая в процессе бустинга. Обратите внимание, что Фактически реализуют потери "squared error", "gamma" и "poisson" "половина квадратичных потерь", "половина девиансы гамма" и "половина пуассона deviance" для упрощения вычисления градиента. Кроме того, "gamma" и "poisson" потери внутренне используют логарифмическую связь, "gamma" требует ``y > 0``, а "poisson" требует ``y >= 0``. "quantile" использует потерю пинбола. .. versionchanged:: 0.23 Добавлена опция 'poisson'. .. versionchanged:: 1.1 Добавлена опция 'quantile'. .. versionchanged:: 1.3 Добавлена опция 'gamma'.	'squared_error'
	квантиль quantile: float, default=None Если loss равно "quantile", этот параметр указывает, какой квантиль оценивать и должен быть между 0 и 1.	None
	learning_rate learning_rate: float, по умолчанию=0.1 Скорость обучения, также известная как сжатие. Используется как мультипликативный коэффициент для значений листьев. Используйте ``1`` для отсутствия сжатие.	0.1
	max_iter max_iter: int, по умолчанию=100 Максимальное количество итераций процесса бустинга, т.е. максимальное количество деревьев.	100
	max_leaf_nodes max_leaf_nodes: int или None, по умолчанию=31 Максимальное количество листьев для каждого дерева. Должно быть строго больше чем 1. Если None, максимального предела нет.	31
	max_depth max_depth: int или None, по умолчанию=None Максимальная глубина каждого дерева. Глубина дерева — это количество ребра для перехода от корня к самому глубокому листу. Глубина по умолчанию не ограничена.	None
	min_samples_leaf min_samples_leaf: int, по умолчанию=20 Минимальное количество образцов на лист. Для небольших наборов данных с менее чем чем несколько сотен образцов, рекомендуется уменьшить это значение поскольку строились бы только очень мелкие деревья.	20
	l2_regularization l2_regularization: float, по умолчанию=0 Параметр регуляризации L2, штрафующий листья с малыми гессианами. Используйте ``0`` для отсутствия регуляризации (по умолчанию).	0.0
	max_features max_features: float, default=1.0 Доля случайно выбранных признаков в каждом разделении узла. Это форма регуляризации: меньшие значения делают деревья слабее обучающихся моделей и может предотвратить переобучение. Если присутствуют ограничения взаимодействия из `interaction_cst`, разрешены только признаки учитываются для субдискретизации. .. versionadded:: 1.4	1.0
	max_bins max_bins: int, default=255 Максимальное количество бинов для использования с ненулевыми значениями. До обучения, каждый признак входного массива `X` разбивается на бины в целочисленные бины, что позволяет значительно ускорить этап обучения. Признаки с небольшим количеством уникальных значений могут использовать меньше чем ``max_bins`` бинов. В дополнение к ``max_bins`` бинам, еще один бин всегда зарезервировано для пропущенных значений. Не должно быть больше 255.	255
	categorical_features categorical_features: array-like из {bool, int, str} формы (n_features) или формы (n_categorical_features,), по умолчанию='from_dtype' Указывает категориальные признаки. - None : ни один признак не будет считаться категориальным. - массив булевых значений: булева маска, указывающая категориальные признаки. - целочисленный массивоподобный : целочисленные индексы, указывающие категориальные признаков. - str array-like: имена категориальных признаков (предполагается, что обучающие данные имеют имена признаков). - `"from_dtype"`: столбцы датафрейма с типом данных "category" являются считаются категориальными признаками. Входные данные должны быть объектом предоставляя метод ``__dataframe__``, такой как pandas или polars DataFrames для использования этой функции. Для каждой категориальной характеристики должно быть не более `max_bins` уникальных категории. Отрицательные значения для категориальных признаков, закодированных как числовые dtypes обрабатываются как пропущенные значения. Все категориальные значения преобразуются в числа с плавающей точкой. Это означает, что категориальные значения значения 1.0 и 1 рассматриваются как одна и та же категория. Подробнее в :ref:`Руководстве пользователя ` и :ref:`sphx_glr_auto_examples_ensemble_plot_gradient_boosting_categorical.py`. .. versionadded:: 0.24 .. versionchanged:: 1.2 Добавлена поддержка имён признаков. .. versionchanged:: 1.4 Добавлена опция `"from_dtype"`. .. versionchanged:: 1.6 Значение по умолчанию изменилось с `None` на `"from_dtype"`.	'from_dtype'
	monotonic_cst monotonic_cst: array-like из int формы (n_features) или dict, по умолчанию=None Монотонное ограничение, накладываемое на каждый признак, задается с помощью следующие целочисленные значения: - 1: монотонное увеличение - 0: без ограничений - -1: монотонное убывание Если это словарь со строковыми ключами, сопоставьте признак с монотонными ограничениями по имени. Если передан массив, признаки сопоставляются с ограничениями по позиции. См. :ref:`monotonic_cst_features_names` для примера использования. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 0.23 .. versionchanged:: 1.2 Принимает словарь ограничений с именами признаков в качестве ключей.	[1, -1]
	interaction_cst interaction_cst: {"pairwise", "no_interactions"} или последовательность списков/кортежей/множеств int, по умолчанию=None Задайте ограничения взаимодействия, наборы признаков, которые могут взаимодействуют друг с другом в разбиениях дочерних узлов. Каждый элемент указывает набор индексов признаков, которые разрешены взаимодействовать друг с другом. Если признаков больше, чем указаны в этих ограничениях, они рассматриваются как если бы они были указан как дополнительный набор. Строки "pairwise" и "no_interactions" являются сокращениями для разрешая только попарные взаимодействия или их отсутствие соответственно. Например, при 5 признаках в общей сложности, `interaction_cst=[{0, 1}]` эквивалентно `interaction_cst=[{0, 1}, {2, 3, 4}]`, и указывает, что каждая ветвь дерева будет либо только разделять по признакам 0 и 1 или только по признакам 2, 3 и 4. См. :ref:`этот пример` о том, как использовать `interaction_cst`. .. versionadded:: 1.2	None
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль. Для валидности результатов, оценщик должен быть переобучен на тех же данных. См. :term:`Глоссарий `.	False
	early_stopping early_stopping: 'auto' или bool, по умолчанию='auto' Если 'auto', ранняя остановка включается, если размер выборки больше 10000 или если `X_val` и `y_val` переданы в `fit`. Если True, ранняя остановка включено, в противном случае ранняя остановка отключена. .. versionadded:: 0.23	'auto'
	оценка scoring: str или callable или None, по умолчанию='loss' Метод оценки для ранней остановки. Используется только если `early_stopping` включено. Опции: - str: см. :ref:`scoring_string_names` для вариантов. - вызываемый объект: вызываемый объект оценки (например, функция) с сигнатурой ``scorer(estimator, X, y)``. См. :ref:`scoring_callable` для подробностей. - `None`: :ref:`коэффициент детерминации ` (:math:`R^2`) используется. - 'loss': ранняя остановка проверяется относительно значения потерь.	'loss'
	validation_fraction validation_fraction: int или float или None, default=0.1 Доля (или абсолютный размер) обучающих данных, которые следует отложить как валидационные данные для ранней остановки. Если None, ранняя остановка выполняется на обучающие данные. Значение игнорируется, если ранняя остановка не выполняется, например, `early_stopping=False`, или если `X_val` и `y_val` переданы в fit.	0.1
	n_iter_no_change n_iter_no_change: int, default=10 Используется для определения момента "ранней остановки". Процесс обучения остановка, когда ни один из последних ``n_iter_no_change`` результатов не улучшается чем ``n_iter_no_change - 1``-я с конца, до некоторого допуск. Используется только при досрочной остановке.	10
	tol tol: float, default=1e-7 Абсолютный допуск, используемый при сравнении оценок во время ранней остановки. Чем выше допуск, тем более вероятна ранняя остановка: более высокая толерантность означает, что последующим будет сложнее итераций, чтобы считаться улучшением по сравнению с эталонным результатом.	1e-07
	verbose verbose: int, по умолчанию=0 Уровень подробности вывода. Если не ноль, выводит некоторую информацию о процесс обучения. ``1`` выводит только сводную информацию, ``2`` выводит информацию на итерация.	0
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Псевдослучайный генератор чисел для управления субдискретизацией в процесс бинирования и разделение данных на обучающую/валидационную выборку, если используется ранняя остановка включен. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	None

Монотонные ограничения#

Использование имен признаков для указания монотонных ограничений#

Эта страница