Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Построить индивидуальные и голосующие регрессионные предсказания#

Голосующий регрессор — это мета-оценщик ансамбля, который обучает несколько базовых регрессоров, каждый на всем наборе данных. Затем он усредняет индивидуальные прогнозы для формирования итогового прогноза. Мы будем использовать три разных регрессора для прогнозирования данных: GradientBoostingRegressor, RandomForestRegressor, и LinearRegression). Затем вышеуказанные 3 регрессора будут использоваться для VotingRegressor.

Наконец, мы построим график предсказаний, сделанных всеми моделями, для сравнения.

Мы будем работать с набором данных по диабету, который состоит из 10 признаков, собранных из когорты пациентов с диабетом. Целевая переменная — количественная мера прогрессирования заболевания через год после базового измерения.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

import matplotlib.pyplot as plt

from sklearn.datasets import load_diabetes
from sklearn.ensemble import (
    GradientBoostingRegressor,
    RandomForestRegressor,
    VotingRegressor,
)
from sklearn.linear_model import LinearRegression

Обучение классификаторов#

Сначала мы загрузим набор данных по диабету и инициируем градиентный бустинг регрессора, случайный лес регрессора и линейную регрессию. Затем мы используем 3 регрессора для построения голосующего регрессора:

X, y = load_diabetes(return_X_y=True)

# Train classifiers
reg1 = GradientBoostingRegressor(random_state=1)
reg2 = RandomForestRegressor(random_state=1)
reg3 = LinearRegression()

reg1.fit(X, y)
reg2.fit(X, y)
reg3.fit(X, y)

ereg = VotingRegressor([("gb", reg1), ("rf", reg2), ("lr", reg3)])
ereg.fit(X, y)

VotingRegressor(estimators=[('gb', GradientBoostingRegressor(random_state=1)),
                            ('rf', RandomForestRegressor(random_state=1)),
                            ('lr', LinearRegression())])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Прогнозирование#

Теперь мы используем каждый из регрессоров для получения первых 20 предсказаний.

xt = X[:20]

pred1 = reg1.predict(xt)
pred2 = reg2.predict(xt)
pred3 = reg3.predict(xt)
pred4 = ereg.predict(xt)

Построить график результатов#

Наконец, мы визуализируем 20 предсказаний. Красные звёзды показывают среднее предсказание, сделанное VotingRegressor.

plt.figure()
plt.plot(pred1, "gd", label="GradientBoostingRegressor")
plt.plot(pred2, "b^", label="RandomForestRegressor")
plt.plot(pred3, "ys", label="LinearRegression")
plt.plot(pred4, "r*", ms=10, label="VotingRegressor")

plt.tick_params(axis="x", which="both", bottom=False, top=False, labelbottom=False)
plt.ylabel("predicted")
plt.xlabel("training samples")
plt.legend(loc="best")
plt.title("Regressor predictions and their average")

plt.show()

Общее время выполнения скрипта: (0 минут 0.828 секунды)

Связанные примеры

Объедините предикторы с помощью стекинга

Регрессия решающего дерева с AdaBoost

Градиентный бустинг для регрессии

Сравнение случайных лесов и мета-оценщика с множественным выходом

Галерея, созданная Sphinx-Gallery

	оценщики оценщики: список кортежей (str, estimator) Вызов метода ``fit`` на ``VotingRegressor`` приведет к обучению клонов тех исходных оценщиков, которые будут сохранены в атрибуте класса ``self.estimators_``. Оценщик может быть установлен в ``'drop'`` с помощью :meth:`set_params`. SpectralClustering ``'drop'`` принимается. Использование None было устаревшим в 0.22 и поддержка была удалена в 0.24.	[('gb', ...), ('rf', ...), ...]
	веса weights: array-like формы (n_regressors,), по умолчанию=None Последовательность весов (`float` или `int`) для взвешивания вхождений предсказанные значения перед усреднением. Использует равномерные веса, если `None`.	None
	n_jobs n_jobs: int, default=None Количество заданий для параллельного выполнения в ``fit``. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	verbose verbose: bool, default=False Если True, затраченное на обучение время будет выводиться по мере завершено. .. versionadded:: 0.23	False

	потеря loss: {'squared_error', 'absolute_error', 'huber', 'quantile'}, по умолчанию='squared_error' Функция потерь для оптимизации. 'squared_error' относится к квадрату ошибка для регрессии. 'absolute_error' относится к абсолютной ошибке регрессии и является устойчивой функцией потерь. 'huber' - это комбинация двух. 'quantile' позволяет выполнять квантильную регрессию (используйте `alpha` для указания квантиля. См. :ref:`sphx_glr_auto_examples_ensemble_plot_gradient_boosting_quantile.py` для примера, демонстрирующего квантильную регрессию для создания интервалы предсказания с `loss='quantile'`.	'squared_error'
	learning_rate learning_rate: float, по умолчанию=0.1 Скорость обучения уменьшает вклад каждого дерева на `learning_rate`. Существует компромисс между learning_rate и n_estimators. Значения должны быть в диапазоне `[0.0, inf)`.	0.1
	n_estimators n_estimators: int, default=100 Количество этапов бустинга для выполнения. Градиентный бустинг довольно устойчив к переобучению, поэтому большое количество обычно приводит к лучшей производительности. Значения должны быть в диапазоне `[1, бесконечность)`.	100
	subsample subsample: float, default=1.0 Доля образцов, используемых для подгонки отдельных базовых обучающихся. Если меньше 1.0, это приводит к стохастическому градиентному Бустинг. Параметр `subsample` взаимодействует с параметром `n_estimators`. Выбор `subsample < 1.0` приводит к снижению дисперсии и увеличение смещения. Значения должны находиться в диапазоне `(0.0, 1.0]`.	1.0
	критерий criterion: {'friedman_mse', 'squared_error'}, default='friedman_mse' Функция для измерения качества разделения. Поддерживаемые критерии: "friedman_mse" для средней квадратичной ошибки с оценкой улучшения по Friedman, "squared_error" для среднеквадратичной ошибки. Значение по умолчанию "friedman_mse" обычно является лучшим, так как может обеспечить более приближение в некоторых случаях. .. versionadded:: 0.18	'friedman_mse'
	min_samples_split min_samples_split: int или float, по умолчанию=2 Минимальное количество образцов, необходимое для разделения внутреннего узла: - Если int, значения должны быть в диапазоне `[2, inf)`. - Если float, значения должны быть в диапазоне `(0.0, 1.0]` и `min_samples_split` будет `ceil(min_samples_split * n_samples)`. .. versionchanged:: 0.18 Добавлены дробные значения.	2
	min_samples_leaf min_samples_leaf: int или float, default=1 Минимальное количество образцов, требуемое для узла листа. Точка разделения на любой глубине будет рассматриваться только если она оставляет хотя бы не менее ``min_samples_leaf`` обучающих выборок в каждой из левой и правые ветви. Это может сгладить модель, особенно в регрессии. - Если int, значения должны быть в диапазоне `[1, inf)`. - Если float, значения должны быть в диапазоне `(0.0, 1.0)` и `min_samples_leaf` будет `ceil(min_samples_leaf * n_samples)`. .. versionchanged:: 0.18 Добавлены дробные значения.	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, по умолчанию=0.0 Минимальная взвешенная доля от общей суммы весов (всех входных образцов), требуемых для нахождения в листовом узле. Образцы имеют равный вес, когда sample_weight не предоставлен. Значения должны находиться в диапазоне `[0.0, 0.5]`.	0.0
	max_depth max_depth: int или None, по умолчанию=3 Максимальная глубина отдельных регрессионных оценщиков. Максимальная глубина ограничивает количество узлов в дереве. Настройте этот параметр для наилучшей производительности; оптимальное значение зависит от взаимодействия входных переменных. Если None, то узлы расширяются до тех пор, пока все листья чисты или пока все листья содержат менее min_samples_split выборок. Если int, значения должны быть в диапазоне `[1, inf)`.	3
	min_impurity_decrease min_impurity_decrease: float, default=0.0 Узел будет разделен, если это разделение вызывает уменьшение неоднородности больше или равно этому значению. Значения должны быть в диапазоне `[0.0, inf)`. Уравнение взвешенного уменьшения примесей выглядит следующим образом:: N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) где ``N`` — общее количество образцов, ``N_t`` — количество образцов в текущем узле, ``N_t_L`` - количество образцов в левый дочерний узел, и ``N_t_R`` — количество образцов в правом дочернем узле. ``N``, ``N_t``, ``N_t_R`` и ``N_t_L`` все относятся к взвешенной сумме, если передан ``sample_weight``. .. versionadded:: 0.19	0.0
	init init: estimator или 'zero', default=None Объект-оценщик, используемый для вычисления начальных предсказаний. ``init`` должен предоставлять :term:`fit` и :term:`predict`. Если 'zero', начальные сырые предсказания установлены в ноль. По умолчанию ``DummyEstimator`` используется, предсказывая либо среднее целевое значение (для loss='squared_error'), или квантиль для других функций потерь.	None
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет случайным сидом, передаваемым каждому оценщику Tree на каждом итерация бустинга. Кроме того, он управляет случайной перестановкой признаков при каждое разделение (подробнее см. в примечаниях). Он также управляет случайным разделением обучающих данных для получения набор валидации, если `n_iter_no_change` не равен None. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	1
	max_features max_features: {'sqrt', 'log2'}, int или float, по умолчанию=None Количество признаков, которые следует учитывать при поиске наилучшего разделения: - Если int, значения должны быть в диапазоне `[1, inf)`. - Если float, значения должны быть в диапазоне `(0.0, 1.0]`, и признаки considered at each split will be `max(1, int(max_features * n_features_in_))`. - Если "sqrt", то `max_features=sqrt(n_features)`. - Если "log2", то `max_features=log2(n_features)`. - Если None, то `max_features=n_features`. Выбор `max_features < n_features` приводит к снижению дисперсии и увеличение смещения. Примечание: поиск разделения не останавливается, пока хотя бы один найдено допустимое разделение выборок узла, даже если это требует эффективно проверять более чем ``max_features`` признаков.	None
	alpha alpha: float, default=0.9 Альфа-квантиль функции потерь Хубера и квантиль Функция потерь. Только если ``loss='huber'`` или ``loss='quantile'``. Значения должны быть в диапазоне `(0.0, 1.0)`.	0.9
	verbose verbose: int, по умолчанию=0 Включить подробный вывод. Если 1, то выводится прогресс и производительность время от времени (чем больше деревьев, тем ниже частота). Если больше больше 1, то выводит прогресс и производительность для каждого дерева. Значения должны быть в диапазоне `[0, inf)`.	0
	max_leaf_nodes max_leaf_nodes: int, по умолчанию=None Выращивайте деревья с ``max_leaf_nodes`` в порядке лучшего-первого. Лучшие узлы определяются как относительное снижение нечистоты. Значения должны быть в диапазоне `[2, inf)`. Если None, то неограниченное количество листовых узлов.	None
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавить больше оценщиков в ансамбль, в противном случае просто удалить предыдущее решение. См. :term:`Глоссарий `.	False
	validation_fraction validation_fraction: float, по умолчанию=0.1 Доля обучающих данных, выделяемая в качестве проверочного набора для ранняя остановка. Значения должны быть в диапазоне `(0.0, 1.0)`. Используется только если ``n_iter_no_change`` установлен в целое число. .. versionadded:: 0.20	0.1
	n_iter_no_change n_iter_no_change: int, по умолчанию=None ``n_iter_no_change`` используется для определения, будет ли применяться ранняя остановка для завершения обучения, когда оценка валидации не улучшается. По по умолчанию установлено в None для отключения ранней остановки. Если установлено в число, он отложит ``validation_fraction`` часть обучающих данные в качестве валидации и прекращать обучение, когда валидационная оценка не улучшение во всех предыдущих ``n_iter_no_change`` количествах итераций. Значения должны быть в диапазоне `[1, бесконечность)`. См. :ref:`sphx_glr_auto_examples_ensemble_plot_gradient_boosting_early_stopping.py`. .. versionadded:: 0.20	None
	tol tol: float, default=1e-4 Допуск для ранней остановки. Когда потери не улучшаются по крайней мере на tol за ``n_iter_no_change`` итераций (если установлено в число), обучение останавливается. Значения должны быть в диапазоне `[0.0, inf)`. .. versionadded:: 0.20	0.0001
	ccp_alpha ccp_alpha: неотрицательное число с плавающей точкой, по умолчанию=0.0 Параметр сложности, используемый для минимальной стоимостно-сложностной обрезки. поддерево с наибольшей стоимостью сложности, которое меньше чем будет выбран `ccp_alpha`. По умолчанию обрезка не выполняется. Значения должны быть в диапазоне `[0.0, inf)`. См. :ref:`minimal_cost_complexity_pruning` для подробностей. См. :ref:`sphx_glr_auto_examples_tree_plot_cost_complexity_pruning.py` для примера такой обрезки. .. versionadded:: 0.22	0.0

	n_estimators n_estimators: int, default=100 Количество деревьев в лесу. .. versionchanged:: 0.22 Значение по умолчанию для ``n_estimators`` изменилось с 10 на 100 в 0.22.	100
	критерий criterion: {"squared_error", "absolute_error", "friedman_mse", "poisson"}, default="squared_error" Функция для измерения качества разделения. Поддерживаемые критерии это "squared_error" для среднеквадратичной ошибки, которая равна снижение дисперсии как критерий отбора признаков и минимизация L2 потерь с использованием среднего значения каждого конечного узла, "friedman_mse", который использует среднеквадратичная ошибка с улучшенным показателем Фридмана для потенциального разделения, "absolute_error" для средней абсолютной ошибки, которая минимизирует потерю L1, используя медиану каждого терминального узла, и "poisson", который использует уменьшение девиансы Пуассона для нахождения разбиений. Обучение с использованием "absolute_error" значительно медленнее чем при использовании "squared_error". .. versionadded:: 0.18 Критерий средней абсолютной ошибки (MAE). .. versionadded:: 1.0 Критерий Пуассона.	'squared_error'
	max_depth max_depth: int, default=None Максимальная глубина дерева. Если None, то узлы расширяются до тех пор, пока все листья чисты или пока все листья содержат менее min_samples_split выборок.	None
	min_samples_split min_samples_split: int или float, по умолчанию=2 Минимальное количество образцов, необходимое для разделения внутреннего узла: - Если int, то рассматривать `min_samples_split` как минимальное количество. - Если float, то `min_samples_split` является дробью и `ceil(min_samples_split * n_samples)` являются минимальными количество образцов для каждого разбиения. .. versionchanged:: 0.18 Добавлены дробные значения.	2
	min_samples_leaf min_samples_leaf: int или float, default=1 Минимальное количество образцов, требуемое для узла листа. Точка разделения на любой глубине будет рассматриваться только если она оставляет хотя бы не менее ``min_samples_leaf`` обучающих выборок в каждой из левой и правые ветви. Это может сгладить модель, особенно в регрессии. - Если int, то рассматривайте `min_samples_leaf` как минимальное количество. - Если float, то `min_samples_leaf` является долей и `ceil(min_samples_leaf * n_samples)` являются минимальными количество выборок для каждого узла. .. versionchanged:: 0.18 Добавлены дробные значения.	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, по умолчанию=0.0 Минимальная взвешенная доля от общей суммы весов (всех входных образцов), требуемых для нахождения в листовом узле. Образцы имеют равный вес, когда sample_weight не предоставлен.	0.0
	max_features max_features: {"sqrt", "log2", None}, int или float, по умолчанию=1.0 Количество признаков, которые следует учитывать при поиске наилучшего разделения: - Если int, то рассматривать `max_features` признаков на каждом разбиении. - Если float, то `max_features` является дробью и На каждом шаге рассматриваются `max(1, int(max_features * n_features_in_))` признаков разделение. - Если "sqrt", то `max_features=sqrt(n_features)`. - Если "log2", то `max_features=log2(n_features)`. - Если None или 1.0, то `max_features=n_features`. .. примечание:: Значение по умолчанию 1.0 эквивалентно бэггированным деревьям и более случайность может быть достигнута путем установки меньших значений, например 0.3. .. versionchanged:: 1.1 Значение по умолчанию для `max_features` изменилось с `"auto"` на 1.0. Примечание: поиск разделения не останавливается, пока хотя бы один найдено допустимое разделение выборок узла, даже если это требует эффективно проверять более чем ``max_features`` признаков.	1.0
	max_leaf_nodes max_leaf_nodes: int, по умолчанию=None Выращивайте деревья с ``max_leaf_nodes`` в порядке лучшего-первого. Лучшие узлы определяются как относительное снижение нечистоты. Если None, то неограниченное количество листовых узлов.	None
	min_impurity_decrease min_impurity_decrease: float, default=0.0 Узел будет разделен, если это разделение вызывает уменьшение неоднородности больше или равно этому значению. Уравнение взвешенного уменьшения примесей выглядит следующим образом:: N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) где ``N`` — общее количество образцов, ``N_t`` — количество образцов в текущем узле, ``N_t_L`` - количество образцов в левый дочерний узел, и ``N_t_R`` — количество образцов в правом дочернем узле. ``N``, ``N_t``, ``N_t_R`` и ``N_t_L`` все относятся к взвешенной сумме, если передан ``sample_weight``. .. versionadded:: 0.19	0.0
	bootstrap bootstrap: bool, default=True Используются ли бутстрап-выборки при построении деревьев. Если False, весь набор данных используется для построения каждого дерева.	True
	oob_score oob_score: bool или callable, default=False Использовать ли выборки out-of-bag для оценки обобщающей способности. По умолчанию используется :func:`~sklearn.metrics.r2_score`. Предоставьте вызываемый объект с сигнатурой `metric(y_true, y_pred)` для использования пользовательская метрика. Доступно только если `bootstrap=True`. Для иллюстрации оценки ошибки вне пакета (OOB) см. пример :ref:`sphx_glr_auto_examples_ensemble_plot_ensemble_oob.py`.	False
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. :meth:`fit`, :meth:`predict`, :meth:`decision_path` и :meth:`apply` все параллелизованы по деревьев. ``None`` означает 1, если не в :obj:`joblib.parallel_backend` контекст. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет как случайностью бутстрэппинга выборок, используемых при построении деревьев (если ``bootstrap=True``) и выборке признаки для рассмотрения при поиске наилучшего разделения в каждом узле (если ``max_features < n_features``). См. :term:`Глоссарий ` для деталей.	1
	verbose verbose: int, по умолчанию=0 Управляет подробностью вывода при обучении и предсказании.	0
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль, в противном случае просто обучите весь новый лес. См. :term:`Глоссарий ` и :ref:`tree_ensemble_warm_start` для деталей.	False
	ccp_alpha ccp_alpha: неотрицательное число с плавающей точкой, по умолчанию=0.0 Параметр сложности, используемый для минимальной стоимостно-сложностной обрезки. поддерево с наибольшей стоимостью сложности, которое меньше чем Будет выбран параметр ``ccp_alpha``. По умолчанию обрезка не выполняется. См. :ref:`minimal_cost_complexity_pruning` для подробностей. См. :ref:`sphx_glr_auto_examples_tree_plot_cost_complexity_pruning.py` для примера такой обрезки. .. versionadded:: 0.22	0.0
	max_samples max_samples: int или float, default=None Если bootstrap равен True, количество выборок для извлечения из X для обучения каждого базового оценщика. - Если None (по умолчанию), то выбирается `X.shape[0]` образцов. - Если int, то извлекается `max_samples` выборок. - Если float, то берётся `max(round(n_samples * max_samples), 1)` образцов. Таким образом, `max_samples` должен быть в интервале `(0.0, 1.0]`. .. versionadded:: 0.22	None
	monotonic_cst monotonic_cst: array-like из int формы (n_features), по умолчанию=None Указывает ограничение монотонности, применяемое к каждому признаку. - 1: монотонно возрастающий - 0: без ограничений - -1: монотонно убывающая Если monotonic_cst равен None, ограничения не применяются. Ограничения монотонности не поддерживаются для: - многомерные регрессии (т.е. когда `n_outputs_ > 1`), - регрессии, обученные на данных с пропущенными значениями. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 1.4	None

	fit_intercept fit_intercept: bool, по умолчанию=True Вычислять ли свободный член для этой модели. Если установлено в False, перехват не будет использоваться в вычислениях (т.е. данные предполагаются центрированными).	True
	copy_X copy_X: bool, default=True Если True, X будет скопирован; иначе, он может быть перезаписан.	True
	tol tol: float, по умолчанию=1e-6 Точность решения (`coef_`) определяется параметром `tol`, который задает другой критерий сходимости для решателя `lsqr`. `tol` устанавливается как `atol` и `btol` в :func:`scipy.sparse.linalg.lsqr`, когда обучение на разреженных обучающих данных. Этот параметр не имеет эффекта при обучении на плотных данных. .. versionadded:: 1.7	1e-06
	n_jobs n_jobs: int, default=None Количество заданий для вычислений. Это предоставит только ускорение в случае достаточно больших задач, то есть если сначала `n_targets > 1` и во-вторых, если `X` разрежен или если установлен `positive` в `True`. ``None`` означает 1, если только не в :obj:`joblib.parallel_backend` контекст. ``-1`` означает использование всех процессоры. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	положительный positive: bool, default=False При установке в ``True`` принудительно делает коэффициенты положительными. Это опция поддерживается только для плотных массивов. Для сравнения линейной регрессионной модели с положительными ограничениями на коэффициенты регрессии и линейную регрессию без таких ограничений, см. :ref:`sphx_glr_auto_examples_linear_model_plot_nnls.py`. .. versionadded:: 0.24	False

Построить индивидуальные и голосующие регрессионные предсказания#

Обучение классификаторов#

Прогнозирование#

Построить график результатов#

Эта страница