Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Объедините предикторы с помощью стекинга#

Стекинг относится к методу объединения оценщиков. В этой стратегии некоторые оценщики индивидуально обучаются на некоторых тренировочных данных, в то время как финальный оценщик обучается с использованием сложенных предсказаний этих базовых оценщиков.

В этом примере мы иллюстрируем случай использования, когда различные регрессоры объединяются вместе, и финальный линейный штрафной регрессор используется для вывода прогноза. Мы сравниваем производительность каждого отдельного регрессора со стратегией стекинга. Стекинг немного улучшает общую производительность.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Загрузите набор данных#

Мы будем использовать Данные по жилью в Эймсе набор данных, который был впервые составлен Дином Де Коком и стал более известен после использования в соревновании Kaggle. Это набор из 1460 жилых домов в Эймсе, Айова, каждый из которых описан 80 признаками. Мы будем использовать его для прогнозирования конечной логарифмической цены домов. В этом примере мы будем использовать только 20 наиболее интересных признаков, выбранных с помощью GradientBoostingRegressor(), и ограничим количество записей (здесь мы не будем вдаваться в подробности о том, как выбирать наиболее интересные признаки).

Набор данных о жилье в Эймсе не поставляется с scikit-learn, поэтому мы загрузим его из OpenML.

import numpy as np

from sklearn.datasets import fetch_openml
from sklearn.utils import shuffle


def load_ames_housing():
    df = fetch_openml(name="house_prices", as_frame=True)
    X = df.data
    y = df.target

    features = [
        "YrSold",
        "HeatingQC",
        "Street",
        "YearRemodAdd",
        "Heating",
        "MasVnrType",
        "BsmtUnfSF",
        "Foundation",
        "MasVnrArea",
        "MSSubClass",
        "ExterQual",
        "Condition2",
        "GarageCars",
        "GarageType",
        "OverallQual",
        "TotalBsmtSF",
        "BsmtFinSF1",
        "HouseStyle",
        "MiscFeature",
        "MoSold",
    ]

    X = X.loc[:, features]
    X, y = shuffle(X, y, random_state=0)

    X = X.iloc[:600]
    y = y.iloc[:600]
    return X, np.log(y)


X, y = load_ames_housing()

Стек предикторов на одном наборе данных#

Иногда утомительно найти модель, которая лучше всего будет работать на данном наборе данных. Stacking предоставляет альтернативу, объединяя выходы нескольких обучаемых моделей, без необходимости выбирать конкретную модель. Производительность stacking обычно близка к лучшей модели, а иногда может превзойти прогнозную производительность каждой отдельной модели.

Здесь мы объединяем 3 обучающихся (линейный и нелинейные) и используем гребневый регрессор для объединения их выходов вместе.

Примечание

Хотя мы создадим новые конвейеры с процессорами, которые мы написали в предыдущем разделе для 3 обучаемых моделей, финальный оценщик RidgeCV() не требует предварительной обработки данных, так как будет получать уже предобработанный выход от 3 обучаемых моделей.

from sklearn.linear_model import LassoCV

lasso_pipeline = make_pipeline(linear_preprocessor, LassoCV())
lasso_pipeline

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('pipeline',
                                                  Pipeline(steps=[('standardscaler',
                                                                   StandardScaler()),
                                                                  ('simpleimputer',
                                                                   SimpleImputer(add_indicator=True))]),
                                                  ),
                                                 ('onehotencoder',
                                                  OneHotEncoder(handle_unknown='ignore'),
                                                  )])),
                ('lassocv', LassoCV())])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

from sklearn.ensemble import RandomForestRegressor

rf_pipeline = make_pipeline(tree_preprocessor, RandomForestRegressor(random_state=42))
rf_pipeline

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('simpleimputer',
                                                  SimpleImputer(add_indicator=True),
                                                  ),
                                                 ('ordinalencoder',
                                                  OrdinalEncoder(encoded_missing_value=-2,
                                                                 handle_unknown='use_encoded_value',
                                                                 unknown_value=-1),
                                                  )])),
                ('randomforestregressor',
                 RandomForestRegressor(random_state=42))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

from sklearn.ensemble import HistGradientBoostingRegressor

gbdt_pipeline = make_pipeline(
    tree_preprocessor, HistGradientBoostingRegressor(random_state=0)
)
gbdt_pipeline

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('simpleimputer',
                                                  SimpleImputer(add_indicator=True),
                                                  ),
                                                 ('ordinalencoder',
                                                  OrdinalEncoder(encoded_missing_value=-2,
                                                                 handle_unknown='use_encoded_value',
                                                                 unknown_value=-1),
                                                  )])),
                ('histgradientboostingregressor',
                 HistGradientBoostingRegressor(random_state=0))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

from sklearn.ensemble import StackingRegressor
from sklearn.linear_model import RidgeCV

estimators = [
    ("Random Forest", rf_pipeline),
    ("Lasso", lasso_pipeline),
    ("Gradient Boosting", gbdt_pipeline),
]

stacking_regressor = StackingRegressor(estimators=estimators, final_estimator=RidgeCV())
stacking_regressor

Измерение и построение результатов#

Теперь мы можем использовать набор данных Ames Housing для прогнозирования. Мы проверяем производительность каждого отдельного предиктора, а также стека регрессоров.

import time

import matplotlib.pyplot as plt

from sklearn.metrics import PredictionErrorDisplay
from sklearn.model_selection import cross_val_predict, cross_validate

fig, axs = plt.subplots(2, 2, figsize=(9, 7))
axs = np.ravel(axs)

for ax, (name, est) in zip(
    axs, estimators + [("Stacking Regressor", stacking_regressor)]
):
    scorers = {"R2": "r2", "MAE": "neg_mean_absolute_error"}

    start_time = time.time()
    scores = cross_validate(
        est, X, y, scoring=list(scorers.values()), n_jobs=-1, verbose=0
    )
    elapsed_time = time.time() - start_time

    y_pred = cross_val_predict(est, X, y, n_jobs=-1, verbose=0)
    scores = {
        key: (
            f"{np.abs(np.mean(scores[f'test_{value}'])):.2f} +- "
            f"{np.std(scores[f'test_{value}']):.2f}"
        )
        for key, value in scorers.items()
    }

    display = PredictionErrorDisplay.from_predictions(
        y_true=y,
        y_pred=y_pred,
        kind="actual_vs_predicted",
        ax=ax,
        scatter_kwargs={"alpha": 0.2, "color": "tab:blue"},
        line_kwargs={"color": "tab:red"},
    )
    ax.set_title(f"{name}\nEvaluation in {elapsed_time:.2f} seconds")

    for name, score in scores.items():
        ax.plot([], [], " ", label=f"{name}: {score}")
    ax.legend(loc="upper left")

plt.suptitle("Single predictors versus stacked predictors")
plt.tight_layout()
plt.subplots_adjust(top=0.9)
plt.show()

Single predictors versus stacked predictors, Random Forest Evaluation in 1.15 seconds, Lasso Evaluation in 0.25 seconds, Gradient Boosting Evaluation in 0.48 seconds, Stacking Regressor Evaluation in 9.45 seconds

Стекированный регрессор объединит сильные стороны различных регрессоров. Однако мы также видим, что обучение стекированного регрессора требует значительно больше вычислительных ресурсов.

Общее время выполнения скрипта: (0 минут 22.386 секунд)

Связанные примеры

Построить индивидуальные и голосующие регрессионные предсказания

Отображение оценщиков и сложных конвейеров

Поддержка категориальных признаков в градиентном бустинге

Регрессия решающего дерева с AdaBoost

Галерея, созданная Sphinx-Gallery

	преобразователи transformers: список кортежей Список кортежей (имя, transformer, столбцы), определяющих объекты трансформеров, которые должны быть применены к подмножествам данных. name : str Как и в Pipeline и FeatureUnion, это позволяет преобразователю и его параметры могут быть установлены с помощью ``set_params`` и найдены в сетке поиск. transformer: {'drop', 'passthrough'} или estimator Оценщик должен поддерживать :term:`fit` и :term:`transform`. Специальные строки 'drop' и 'passthrough' принимаются как хорошо, чтобы указать, удалить столбцы или пропустить их непреобразованные, соответственно. столбцы : str, массив строк, int, массив int, массив bool, срез или вызываемый объект Индексирует данные по второй оси. Целые числа интерпретируются как позиционные столбцы, в то время как строки могут ссылаться на столбцы DataFrame по имени. Скалярная строка или целое число должны использоваться там, где ``transformer`` ожидает, что X будет одномерным array-like (вектором), иначе в преобразователь будет передан двумерный массив. Вызываемый объект получает входные данные `X` и может возвращать любой из выше. Чтобы выбрать несколько столбцов по имени или типу данных, можно использовать :obj:`make_column_selector`.	[('simpleimputer', ...), ('ordinalencoder', ...)]
	остаток остаток: {'drop', 'passthrough'} или оценщик, по умолчанию='drop' По умолчанию только указанные столбцы в `transformers` являются преобразованы и объединены в выходных данных, а не указанные столбцы удаляются. (по умолчанию ``'drop'``). Указав ``remainder='passthrough'``, все оставшиеся столбцы, которые не были указаны в `transformers`, но присутствуют в переданных данных к `fit` будут автоматически переданы. Это подмножество столбцов объединяется с выходом преобразователей. Для датафреймов, дополнительные столбцы, не встречавшиеся во время `fit`, будут исключены из вывода `transform`. Установив ``remainder`` в качестве оценщика, оставшиеся неуказанные столбцы будут использовать оценщик ``remainder``. оценщик должен поддерживать :term:`fit` и :term:`transform`. Обратите внимание, что использование этой функции требует, чтобы столбцы DataFrame входные данные в :term:`fit` и :term:`transform` имеют одинаковый порядок.	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 Если выход разных преобразователей содержит разреженные матрицы, они будут сложены в разреженную матрицу, если общая плотность составляет ниже этого значения. Используйте ``sparse_threshold=0``, чтобы всегда возвращать плотный. Когда преобразованный вывод состоит из всех плотных данных, результат будет плотным, и этот ключевой параметр будет проигнорирован.	0.3
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	transformer_weights transformer_weights: dict, по умолчанию=None Мультипликативные веса для признаков на трансформер. Выходные данные преобразователь умножается на эти веса. Ключи — это имена преобразователей, значения весов.	None
	verbose verbose: bool, default=False Если True, затраченное время на подгонку каждого трансформатора будет печатается по завершении.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str или Callable[[str, str], str], default=True - Если True, :meth:`ColumnTransformer.get_feature_names_out` добавит префикс все имена признаков с именем преобразователя, который их сгенерировал признак. Эквивалентно установке `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Если False, :meth:`ColumnTransformer.get_feature_names_out` не будет добавляет префикс к любым именам признаков и вызовет ошибку, если имена признаков отсутствуют уникальные. - Если ``Callable[[str, str], str]``, :meth:`ColumnTransformer.get_feature_names_out` переименует все признаки используя имя преобразователя. Первый аргумент вызываемого объекта - это имя трансформера и второй аргумент — имя признака. Возвращаемый строка будет новым именем признака. - Если ``str``, это должна быть строка, готовая к форматированию. Данная строка будет должны форматироваться с использованием двух имен полей: ``transformer_name`` и ``feature_name``. например, ``"{feature_name}__{transformer_name}"``. См. метод :meth:`str.format` из стандартной библиотеки для получения дополнительной информации. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` может быть вызываемым объектом или строкой для форматирования.	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Этот параметр не оказывает влияния. .. примечание:: Если вы не обращаетесь к списку столбцов для оставшихся столбцов в атрибуте `transformers_` после обучения, вам не нужно устанавливать этот параметр. .. versionadded:: 1.5 .. versionchanged:: 1.7 Значение по умолчанию для `force_int_remainder_cols` изменится с с `True` на `False` в версии 1.7. .. устарело:: 1.7 `force_int_remainder_cols` устарел и будет удалён в версии 1.9.	'устаревший'

	missing_values параметры, которые максимизируют логарифмическую маргинальную вероятность. Первый запуск Заполнитель для пропущенных значений. Все вхождения `missing_values` будут импутированы. Для датафреймов pandas с целочисленные типы данных с поддержкой NULL и пропущенными значениями, `missing_values` может быть установлен либо в `np.nan`, либо в `pd.NA`.	nan
	стратегия strategy: str или Callable, по умолчанию='mean' Стратегия импутации. - Если "mean", то заменять пропущенные значения, используя среднее вдоль каждый столбец. Может использоваться только с числовыми данными. - Если "median", то заменить пропущенные значения с использованием медианы вдоль каждый столбец. Может использоваться только с числовыми данными. - Если "most_frequent", то заменить пропуски наиболее частым значение вдоль каждого столбца. Может использоваться со строками или числовыми данными. Если существует более одного такого значения, возвращается только наименьшее. - Если "constant", то заменяет пропущенные значения на fill_value. Может быть используется со строками или числовыми данными. - Если экземпляр Callable, то заменить пропущенные значения с помощью скалярная статистика, возвращаемая при выполнении вызываемого объекта над плотным одномерным Массив, содержащий отсутствующие значения каждого столбца. .. versionadded:: 0.20 strategy="constant" для фиксированной импутации значений. .. versionadded:: 1.5 strategy=callable для пользовательской импутации значений.	'mean'
	fill_value fill_value: строка или числовое значение, по умолчанию=None Когда strategy == "constant", `fill_value` используется для замены всех вхождения missing_values. Для строковых или объектных типов данных, `fill_value` должен быть строкой. Если `None`, `fill_value` будет 0 при импутации числовых данные и "missing_value" для строковых или объектных типов данных.	None
	copy copy: bool, default=True Если True, будет создана копия X. Если False, импутация будет может быть выполнено на месте, когда это возможно. Обратите внимание, что в следующих случаях, новая копия всегда будет создаваться, даже если `copy=False`: - Если `X` не является массивом значений с плавающей точкой; - Если `X` закодирован как матрица CSR; - Если `add_indicator=True`.	True
	add_indicator add_indicator: bool, по умолчанию=False Если True, трансформация :class:`MissingIndicator` будет добавлена к выходу трансформации импьютера. Это позволяет прогнозной оценке для учета пропусков, несмотря на импутацию. Если признак не имеет пропущенные значения во время обучения, признак не появится в индикатор пропущенных значений, даже если есть пропущенные значения в преобразование/время тестирования.	True
	keep_empty_features keep_empty_features: bool, default=False Если True, признаки, которые состоят исключительно из пропущенных значений, когда `fit` вызываются, возвращаются в результатах, когда вызывается `transform`. Импутированное значение всегда `0`, кроме случая `strategy="constant"` в этом случае вместо него будет использоваться `fill_value`. .. versionadded:: 1.2	False

	категории категории: 'auto' или список массивоподобных объектов, по умолчанию='auto' Категории (уникальные значения) для каждого признака: - 'auto' : Автоматически определять категории из обучающих данных. - список: ``categories[i]`` содержит категории, ожидаемые в i-м столбец. Переданные категории не должны смешивать строки и числа значений и должны быть отсортированы в случае числовых значений. Используемые категории можно найти в атрибуте ``categories_``.	'auto'
	dtype dtype: number type, default=np.float64 Желаемый тип данных выходных данных.
	handle_unknown handle_unknown: {'error', 'use_encoded_value'}, default='error' Когда установлено значение 'error', будет вызвана ошибка в случае неизвестного категориальный признак присутствует во время transform. Когда установлено в 'use_encoded_value', закодированное значение неизвестных категорий будет установлено в значение, заданное для параметра `unknown_value`. В :meth:`inverse_transform`, неизвестная категория будет обозначена как None. .. versionadded:: 0.24	'use_encoded_value'
	unknown_value unknown_value: int или np.nan, по умолчанию=None Когда параметр handle_unknown установлен в 'use_encoded_value', это параметр обязателен и установит закодированное значение неизвестного категории. Он должен отличаться от значений, используемых для кодирования любой из категории в `fit`. Если установлено в np.nan, параметр `dtype` должен должен быть типом данных float. .. versionadded:: 0.24	-1
	encoded_missing_value encoded_missing_value: int или np.nan, по умолчанию=np.nan Закодированное значение отсутствующих категорий. Если установлено в `np.nan`, то `dtype` параметр должен иметь тип данных float. .. versionadded:: 1.1	-2
	min_frequency min_frequency: int или float, по умолчанию=None Определяет минимальную частоту, ниже которой категория будет считается редким. - Если `int`, категории с меньшей мощностью будут считаться редко. - Если `float`, категории с меньшей мощностью, чем `min_frequency * n_samples` будет считаться нечастым. .. versionadded:: 1.3 Подробнее в :ref:`Руководстве пользователя `.	None
	max_categories max_categories: int, default=None Задаёт верхний предел количества выходных категорий для каждого входного особенность при рассмотрении редких категорий. Если есть редкие категории, `max_categories` включает категорию, представляющую редкие категории вместе с частыми категориями. Если `None`, нет ограничения на количество выходных признаков. `max_categories` не учитывают пропущенные или неизвестные категории. Установка `unknown_value` или `encoded_missing_value` в целое число будет увеличивать количество уникальных целочисленных кодов на один каждый раз. Это может привести к кодам целых чисел вплоть до `max_categories + 2`. .. versionadded:: 1.3 Подробнее в :ref:`Руководстве пользователя `.	None

	преобразователи transformers: список кортежей Список кортежей (имя, transformer, столбцы), определяющих объекты трансформеров, которые должны быть применены к подмножествам данных. name : str Как и в Pipeline и FeatureUnion, это позволяет преобразователю и его параметры могут быть установлены с помощью ``set_params`` и найдены в сетке поиск. transformer: {'drop', 'passthrough'} или estimator Оценщик должен поддерживать :term:`fit` и :term:`transform`. Специальные строки 'drop' и 'passthrough' принимаются как хорошо, чтобы указать, удалить столбцы или пропустить их непреобразованные, соответственно. столбцы : str, массив строк, int, массив int, массив bool, срез или вызываемый объект Индексирует данные по второй оси. Целые числа интерпретируются как позиционные столбцы, в то время как строки могут ссылаться на столбцы DataFrame по имени. Скалярная строка или целое число должны использоваться там, где ``transformer`` ожидает, что X будет одномерным array-like (вектором), иначе в преобразователь будет передан двумерный массив. Вызываемый объект получает входные данные `X` и может возвращать любой из выше. Чтобы выбрать несколько столбцов по имени или типу данных, можно использовать :obj:`make_column_selector`.	[('pipeline', ...), ('onehotencoder', ...)]
	остаток остаток: {'drop', 'passthrough'} или оценщик, по умолчанию='drop' По умолчанию только указанные столбцы в `transformers` являются преобразованы и объединены в выходных данных, а не указанные столбцы удаляются. (по умолчанию ``'drop'``). Указав ``remainder='passthrough'``, все оставшиеся столбцы, которые не были указаны в `transformers`, но присутствуют в переданных данных к `fit` будут автоматически переданы. Это подмножество столбцов объединяется с выходом преобразователей. Для датафреймов, дополнительные столбцы, не встречавшиеся во время `fit`, будут исключены из вывода `transform`. Установив ``remainder`` в качестве оценщика, оставшиеся неуказанные столбцы будут использовать оценщик ``remainder``. оценщик должен поддерживать :term:`fit` и :term:`transform`. Обратите внимание, что использование этой функции требует, чтобы столбцы DataFrame входные данные в :term:`fit` и :term:`transform` имеют одинаковый порядок.	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 Если выход разных преобразователей содержит разреженные матрицы, они будут сложены в разреженную матрицу, если общая плотность составляет ниже этого значения. Используйте ``sparse_threshold=0``, чтобы всегда возвращать плотный. Когда преобразованный вывод состоит из всех плотных данных, результат будет плотным, и этот ключевой параметр будет проигнорирован.	0.3
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	transformer_weights transformer_weights: dict, по умолчанию=None Мультипликативные веса для признаков на трансформер. Выходные данные преобразователь умножается на эти веса. Ключи — это имена преобразователей, значения весов.	None
	verbose verbose: bool, default=False Если True, затраченное время на подгонку каждого трансформатора будет печатается по завершении.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str или Callable[[str, str], str], default=True - Если True, :meth:`ColumnTransformer.get_feature_names_out` добавит префикс все имена признаков с именем преобразователя, который их сгенерировал признак. Эквивалентно установке `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Если False, :meth:`ColumnTransformer.get_feature_names_out` не будет добавляет префикс к любым именам признаков и вызовет ошибку, если имена признаков отсутствуют уникальные. - Если ``Callable[[str, str], str]``, :meth:`ColumnTransformer.get_feature_names_out` переименует все признаки используя имя преобразователя. Первый аргумент вызываемого объекта - это имя трансформера и второй аргумент — имя признака. Возвращаемый строка будет новым именем признака. - Если ``str``, это должна быть строка, готовая к форматированию. Данная строка будет должны форматироваться с использованием двух имен полей: ``transformer_name`` и ``feature_name``. например, ``"{feature_name}__{transformer_name}"``. См. метод :meth:`str.format` из стандартной библиотеки для получения дополнительной информации. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` может быть вызываемым объектом или строкой для форматирования.	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Этот параметр не оказывает влияния. .. примечание:: Если вы не обращаетесь к списку столбцов для оставшихся столбцов в атрибуте `transformers_` после обучения, вам не нужно устанавливать этот параметр. .. versionadded:: 1.5 .. versionchanged:: 1.7 Значение по умолчанию для `force_int_remainder_cols` изменится с с `True` на `False` в версии 1.7. .. устарело:: 1.7 `force_int_remainder_cols` устарел и будет удалён в версии 1.9.	'устаревший'

	missing_values параметры, которые максимизируют логарифмическую маргинальную вероятность. Первый запуск Заполнитель для пропущенных значений. Все вхождения `missing_values` будут импутированы. Для датафреймов pandas с целочисленные типы данных с поддержкой NULL и пропущенными значениями, `missing_values` может быть установлен либо в `np.nan`, либо в `pd.NA`.	nan
	стратегия strategy: str или Callable, по умолчанию='mean' Стратегия импутации. - Если "mean", то заменять пропущенные значения, используя среднее вдоль каждый столбец. Может использоваться только с числовыми данными. - Если "median", то заменить пропущенные значения с использованием медианы вдоль каждый столбец. Может использоваться только с числовыми данными. - Если "most_frequent", то заменить пропуски наиболее частым значение вдоль каждого столбца. Может использоваться со строками или числовыми данными. Если существует более одного такого значения, возвращается только наименьшее. - Если "constant", то заменяет пропущенные значения на fill_value. Может быть используется со строками или числовыми данными. - Если экземпляр Callable, то заменить пропущенные значения с помощью скалярная статистика, возвращаемая при выполнении вызываемого объекта над плотным одномерным Массив, содержащий отсутствующие значения каждого столбца. .. versionadded:: 0.20 strategy="constant" для фиксированной импутации значений. .. versionadded:: 1.5 strategy=callable для пользовательской импутации значений.	'mean'
	fill_value fill_value: строка или числовое значение, по умолчанию=None Когда strategy == "constant", `fill_value` используется для замены всех вхождения missing_values. Для строковых или объектных типов данных, `fill_value` должен быть строкой. Если `None`, `fill_value` будет 0 при импутации числовых данные и "missing_value" для строковых или объектных типов данных.	None
	copy copy: bool, default=True Если True, будет создана копия X. Если False, импутация будет может быть выполнено на месте, когда это возможно. Обратите внимание, что в следующих случаях, новая копия всегда будет создаваться, даже если `copy=False`: - Если `X` не является массивом значений с плавающей точкой; - Если `X` закодирован как матрица CSR; - Если `add_indicator=True`.	True
	add_indicator add_indicator: bool, по умолчанию=False Если True, трансформация :class:`MissingIndicator` будет добавлена к выходу трансформации импьютера. Это позволяет прогнозной оценке для учета пропусков, несмотря на импутацию. Если признак не имеет пропущенные значения во время обучения, признак не появится в индикатор пропущенных значений, даже если есть пропущенные значения в преобразование/время тестирования.	True
	keep_empty_features keep_empty_features: bool, default=False Если True, признаки, которые состоят исключительно из пропущенных значений, когда `fit` вызываются, возвращаются в результатах, когда вызывается `transform`. Импутированное значение всегда `0`, кроме случая `strategy="constant"` в этом случае вместо него будет использоваться `fill_value`. .. versionadded:: 1.2	False

Объедините предикторы с помощью стекинга#

Загрузите набор данных#

Создать конвейер для предобработки данных#

Стек предикторов на одном наборе данных#

Измерение и построение результатов#

Эта страница

	copy copy: bool, default=True Если False, пытается избежать копирования и выполняет масштабирование на месте. Это не гарантирует всегда работать на месте; например, если данные не массив NumPy или разреженная матрица CSR scipy.sparse, копия все еще может быть возвращается.	True
	with_mean with_mean: bool, default=True Если True, центрировать данные перед масштабированием. Это не работает (и вызовет исключение) при попытке на разреженные матрицы, потому что их центрирование требует построения плотной матрица, которая в типичных случаях использования, вероятно, слишком велика для размещения в памяти.	True
	with_std with_std: bool, default=True Если True, масштабировать данные до единичной дисперсии (или, что эквивалентно, единичное стандартное отклонение).	True

	категории категории: 'auto' или список массивоподобных объектов, по умолчанию='auto' Категории (уникальные значения) для каждого признака: - 'auto' : Автоматически определять категории из обучающих данных. - список: ``categories[i]`` содержит категории, ожидаемые в i-м столбец. Переданные категории не должны смешивать строки и числа значения в пределах одного признака и должны быть отсортированы в случае числовые значения. Используемые категории можно найти в атрибуте ``categories_``. .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} или array-like формы (n_features,), default=None Определяет методологию для удаления одной из категорий на признак. Это полезно в ситуациях, когда идеально коллинеарные признаки вызывают проблемы, например, при передаче полученных данных в нерегуляризованную линейную регрессионную модель. Однако удаление одной категории нарушает симметрию исходной представление и, следовательно, может вызвать смещение в последующих моделях, например, для штрафных линейных моделей классификации или регрессии. - None : сохранить все признаки (по умолчанию). - 'first' : удалить первую категорию в каждом признаке. Если только одна если категория присутствует, признак будет полностью удалён. - 'if_binary' : удалить первую категорию в каждом признаке с двумя категории. Признаки с 1 или более чем 2 категориями являются оставлены без изменений. - array : ``drop[i]`` — это категория в признаке ``X[:, i]``, которая должны быть удалены. Когда `max_categories` или `min_frequency` настроены для группировки редкие категории, поведение отбрасывания обрабатывается после группировка. .. versionadded:: 0.21 Параметр `drop` был добавлен в версии 0.21. .. versionchanged:: 0.23 Опция `drop='if_binary'` была добавлена в версии 0.23. .. versionchanged:: 1.1 Поддержка удаления редких категорий.	None
	sparse_output sparse_output: bool, default=True Когда ``True``, возвращает :class:`scipy.sparse.csr_matrix`, т.е. разреженная матрица в формате "Compressed Sparse Row" (CSR). .. versionadded:: 1.2 `sparse` был переименован в `sparse_output`	True
	dtype dtype: number type, default=np.float64 Желаемый тип данных выходных данных.
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, default='error' Определяет способ обработки неизвестных категорий во время :meth:`transform`. - 'error': Вызвать ошибку, если во время преобразования присутствует неизвестная категория. - 'ignore' : Когда во время transform, результирующие one-hot кодированные столбцы для этого признака будут все нули. При обратном преобразовании неизвестная категория будет обозначаться как None. - 'infrequent_if_exist' : Когда встречается неизвестная категория во время преобразования, результирующие one-hot кодированные столбцы для этой признак будет отображаться в редкую категорию, если она существует. редкая категория будет отображена в последнюю позицию в кодировку. При обратном преобразовании неизвестная категория будет сопоставляется с категорией, обозначенной `'infrequent'`, если она существует. Если категория `'infrequent'` не существует, тогда :meth:`transform` и :meth:`inverse_transform` обработает неизвестную категорию как с `handle_unknown='ignore'`. Редкие категории существуют на основе `min_frequency` и `max_categories`. Подробнее в :ref:`Руководство пользователя `. - 'warn' : Когда во время преобразования встречается неизвестная категория выдается предупреждение, и кодирование затем продолжается, как описано для `handle_unknown="infrequent_if_exist"`. .. versionchanged:: 1.1 `'infrequent_if_exist'` был добавлен для автоматической обработки неизвестных категории и редкие категории. .. versionadded:: 1.6 Опция `"warn"` была добавлена в версии 1.6.	'ignore'
	min_frequency min_frequency: int или float, по умолчанию=None Определяет минимальную частоту, ниже которой категория будет считается редким. - Если `int`, категории с меньшей мощностью будут считаться редко. - Если `float`, категории с меньшей мощностью, чем `min_frequency * n_samples` будет считаться нечастым. .. versionadded:: 1.1 Подробнее в :ref:`Руководстве пользователя `.	None
	max_categories max_categories: int, default=None Задает верхний предел количества выходных признаков для каждого входного особенность при рассмотрении редких категорий. Если есть редкие категории, `max_categories` включает категорию, представляющую редкие категории вместе с частыми категориями. Если `None`, нет ограничения на количество выходных признаков. .. versionadded:: 1.1 Подробнее в :ref:`Руководстве пользователя `.	None
	feature_name_combiner feature_name_combiner: "concat" или callable, по умолчанию="concat" Вызываемый объект с сигнатурой `def callable(input_feature, category)`, который возвращает string. Используется для создания имен признаков, возвращаемых :meth:`get_feature_names_out`. `"concat"` объединяет закодированное имя признака и категорию с `feature + "_" + str(category)`. Например, признак X со значениями 1, 6, 7 создает имена признаков `X_1, X_6, X_7`. .. versionadded:: 1.3	'concat'

	шаги steps: список кортежей Список кортежей (имя шага, оценщик), которые должны быть соединены в цепочку последовательный порядок. Для совместимости с API scikit-learn, все шаги должен определять `fit`. Все не последние шаги также должны определять `transform`. См. :ref:`Комбинирование оценщиков ` для получения дополнительной информации.	[('columntransformer', ...), ('lassocv', ...)]
	transform_input transform_input: list of str, default=None Имена параметров :term:`metadata`, которые должны быть преобразованы конвейер перед передачей его шагу, который его потребляет. Это позволяет преобразовывать некоторые входные аргументы для ``fit`` (кроме ``X``) для преобразования шагами конвейера до шага, который требует их. Требование определяется через :ref:`маршрутизацию метаданных `. Например, это можно использовать для передачи набора валидации через конвейер. Вы можете установить это только если включена маршрутизация метаданных, что вы можно включить, используя ``sklearn.set_config(enable_metadata_routing=True)``. .. versionadded:: 1.6	None
	память memory: строка или объект с интерфейсом joblib.Memory, по умолчанию=None Используется для кэширования обученных трансформеров конвейера. Последний шаг никогда не будет кэшироваться, даже если это трансформер. По умолчанию, никакие кэширование выполняется. Если задана строка, это путь к директория кэширования. Включение кэширования запускает клонирование преобразователей перед обучением. Следовательно, экземпляр трансформатора, переданный в конвейер не может быть проверен напрямую. Используйте атрибут `named_steps` или ``steps`` для проверки оценщиков внутри конвейера. Кэширование трансформеры выгодны, когда подгонка занимает много времени. См. :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` для примера о том, как включить кэширование.	None
	verbose verbose: bool, default=False Если True, затраченное время на обучение каждого шага будет выводиться по мере его выполнения. завершено.	False

	eps eps: float, по умолчанию=1e-3 Длина пути. ``eps=1e-3`` означает, что ``alpha_min / alpha_max = 1e-3``.	0.001
	n_alphas n_alphas: int, по умолчанию=100 Количество альфа вдоль пути регуляризации. .. устарело:: 1.7 `n_alphas` был устаревшим в версии 1.7 и будет удален в версии 1.9. Используйте `alphas` вместо этого.	'устаревший'
	альфы alphas: массивоподобный объект или целое число, по умолчанию=None Значения альфа для тестирования вдоль пути регуляризации. Если int, значения `alphas` генерируются автоматически. Если массивоподобный, список значений alpha для использования. .. versionchanged:: 1.7 `alphas` принимает целочисленное значение, что устраняет необходимость передачи `n_alphas`. .. устарело:: 1.7 `alphas=None` был устаревшим в 1.7 и будет удален в 1.9, в котором по умолчанию значение будет установлено в 100.	'warn'
	fit_intercept fit_intercept: bool, по умолчанию=True Вычислять ли свободный член для этой модели. Если установлено в false, перехват не будет использоваться в расчетах (т.е. данные предполагаются центрированными).	True
	precompute precompute: 'auto', bool или array-like формы (n_features, n_features), по умолчанию='auto' Использовать ли предвычисленную матрицу Грама для ускорения вычислениями. Если установлено в ``'auto'``, позвольте нам решить. Матрица Грама матрица также может быть передана в качестве аргумента.	'auto'
	max_iter max_iter: int, по умолчанию=1000 Максимальное количество итераций.	1000
	tol tol: float, default=1e-4 Допуск для оптимизации: если обновления меньше или равны ``tol``, код оптимизации проверяет двойной разрыв на оптимальность и продолжает пока он не станет меньше или равен ``tol``.	0.0001
	copy_X copy_X: bool, default=True Если ``True``, X будет скопирован; иначе, он может быть перезаписан.	True
	cv cv: int, генератор перекрестной проверки или итерируемый объект, по умолчанию=None Определяет стратегию разделения для кросс-валидации. Возможные значения для cv: - None, чтобы использовать стандартную 5-кратную перекрёстную проверку, - int, чтобы указать количество фолдов. - :term:`CV splitter`, - Итерируемый объект, возвращающий (обучающая, тестовая) разбиения в виде массивов индексов. Для входных данных int/None используется :class:`~sklearn.model_selection.KFold`. См. :ref:`Руководство пользователя ` для различных стратегии перекрестной проверки, которые можно использовать здесь. .. versionchanged:: 0.22 Значение по умолчанию ``cv``, если None, изменено с 3-кратной на 5-кратную перекрестную проверку.	None
	verbose verbose: bool или int, default=False Уровень детализации вывода.	False
	n_jobs n_jobs: int, default=None Количество процессоров для использования во время перекрестной проверки. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	положительный positive: bool, default=False Если положительно, ограничивает коэффициенты регрессии положительными значениями.	False
	random_state random_state: int, RandomState instance, default=None Сид генератора псевдослучайных чисел, который выбирает случайный признак для обновления. Используется, когда ``selection`` == 'random'. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	None
	выбор selection: {'cyclic', 'random'}, default='cyclic' Если установлено 'random', случайный коэффициент обновляется на каждой итерации вместо циклического перебора признаков последовательно по умолчанию. Это (установка в 'random') часто приводит к значительно более быстрой сходимости особенно когда tol выше 1e-4.	'cyclic'

	шаги steps: список кортежей Список кортежей (имя шага, оценщик), которые должны быть соединены в цепочку последовательный порядок. Для совместимости с API scikit-learn, все шаги должен определять `fit`. Все не последние шаги также должны определять `transform`. См. :ref:`Комбинирование оценщиков ` для получения дополнительной информации.	[('columntransformer', ...), ('randomforestregressor', ...)]
	transform_input transform_input: list of str, default=None Имена параметров :term:`metadata`, которые должны быть преобразованы конвейер перед передачей его шагу, который его потребляет. Это позволяет преобразовывать некоторые входные аргументы для ``fit`` (кроме ``X``) для преобразования шагами конвейера до шага, который требует их. Требование определяется через :ref:`маршрутизацию метаданных `. Например, это можно использовать для передачи набора валидации через конвейер. Вы можете установить это только если включена маршрутизация метаданных, что вы можно включить, используя ``sklearn.set_config(enable_metadata_routing=True)``. .. versionadded:: 1.6	None
	память memory: строка или объект с интерфейсом joblib.Memory, по умолчанию=None Используется для кэширования обученных трансформеров конвейера. Последний шаг никогда не будет кэшироваться, даже если это трансформер. По умолчанию, никакие кэширование выполняется. Если задана строка, это путь к директория кэширования. Включение кэширования запускает клонирование преобразователей перед обучением. Следовательно, экземпляр трансформатора, переданный в конвейер не может быть проверен напрямую. Используйте атрибут `named_steps` или ``steps`` для проверки оценщиков внутри конвейера. Кэширование трансформеры выгодны, когда подгонка занимает много времени. См. :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` для примера о том, как включить кэширование.	None
	verbose verbose: bool, default=False Если True, затраченное время на обучение каждого шага будет выводиться по мере его выполнения. завершено.	False

	n_estimators n_estimators: int, default=100 Количество деревьев в лесу. .. versionchanged:: 0.22 Значение по умолчанию для ``n_estimators`` изменилось с 10 на 100 в 0.22.	100
	критерий criterion: {"squared_error", "absolute_error", "friedman_mse", "poisson"}, default="squared_error" Функция для измерения качества разделения. Поддерживаемые критерии это "squared_error" для среднеквадратичной ошибки, которая равна снижение дисперсии как критерий отбора признаков и минимизация L2 потерь с использованием среднего значения каждого конечного узла, "friedman_mse", который использует среднеквадратичная ошибка с улучшенным показателем Фридмана для потенциального разделения, "absolute_error" для средней абсолютной ошибки, которая минимизирует потерю L1, используя медиану каждого терминального узла, и "poisson", который использует уменьшение девиансы Пуассона для нахождения разбиений. Обучение с использованием "absolute_error" значительно медленнее чем при использовании "squared_error". .. versionadded:: 0.18 Критерий средней абсолютной ошибки (MAE). .. versionadded:: 1.0 Критерий Пуассона.	'squared_error'
	max_depth max_depth: int, default=None Максимальная глубина дерева. Если None, то узлы расширяются до тех пор, пока все листья чисты или пока все листья содержат менее min_samples_split выборок.	None
	min_samples_split min_samples_split: int или float, по умолчанию=2 Минимальное количество образцов, необходимое для разделения внутреннего узла: - Если int, то рассматривать `min_samples_split` как минимальное количество. - Если float, то `min_samples_split` является дробью и `ceil(min_samples_split * n_samples)` являются минимальными количество образцов для каждого разбиения. .. versionchanged:: 0.18 Добавлены дробные значения.	2
	min_samples_leaf min_samples_leaf: int или float, default=1 Минимальное количество образцов, требуемое для узла листа. Точка разделения на любой глубине будет рассматриваться только если она оставляет хотя бы не менее ``min_samples_leaf`` обучающих выборок в каждой из левой и правые ветви. Это может сгладить модель, особенно в регрессии. - Если int, то рассматривайте `min_samples_leaf` как минимальное количество. - Если float, то `min_samples_leaf` является долей и `ceil(min_samples_leaf * n_samples)` являются минимальными количество выборок для каждого узла. .. versionchanged:: 0.18 Добавлены дробные значения.	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, по умолчанию=0.0 Минимальная взвешенная доля от общей суммы весов (всех входных образцов), требуемых для нахождения в листовом узле. Образцы имеют равный вес, когда sample_weight не предоставлен.	0.0
	max_features max_features: {"sqrt", "log2", None}, int или float, по умолчанию=1.0 Количество признаков, которые следует учитывать при поиске наилучшего разделения: - Если int, то рассматривать `max_features` признаков на каждом разбиении. - Если float, то `max_features` является дробью и На каждом шаге рассматриваются `max(1, int(max_features * n_features_in_))` признаков разделение. - Если "sqrt", то `max_features=sqrt(n_features)`. - Если "log2", то `max_features=log2(n_features)`. - Если None или 1.0, то `max_features=n_features`. .. примечание:: Значение по умолчанию 1.0 эквивалентно бэггированным деревьям и более случайность может быть достигнута путем установки меньших значений, например 0.3. .. versionchanged:: 1.1 Значение по умолчанию для `max_features` изменилось с `"auto"` на 1.0. Примечание: поиск разделения не останавливается, пока хотя бы один найдено допустимое разделение выборок узла, даже если это требует эффективно проверять более чем ``max_features`` признаков.	1.0
	max_leaf_nodes max_leaf_nodes: int, по умолчанию=None Выращивайте деревья с ``max_leaf_nodes`` в порядке лучшего-первого. Лучшие узлы определяются как относительное снижение нечистоты. Если None, то неограниченное количество листовых узлов.	None
	min_impurity_decrease min_impurity_decrease: float, default=0.0 Узел будет разделен, если это разделение вызывает уменьшение неоднородности больше или равно этому значению. Уравнение взвешенного уменьшения примесей выглядит следующим образом:: N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) где ``N`` — общее количество образцов, ``N_t`` — количество образцов в текущем узле, ``N_t_L`` - количество образцов в левый дочерний узел, и ``N_t_R`` — количество образцов в правом дочернем узле. ``N``, ``N_t``, ``N_t_R`` и ``N_t_L`` все относятся к взвешенной сумме, если передан ``sample_weight``. .. versionadded:: 0.19	0.0
	bootstrap bootstrap: bool, default=True Используются ли бутстрап-выборки при построении деревьев. Если False, весь набор данных используется для построения каждого дерева.	True
	oob_score oob_score: bool или callable, default=False Использовать ли выборки out-of-bag для оценки обобщающей способности. По умолчанию используется :func:`~sklearn.metrics.r2_score`. Предоставьте вызываемый объект с сигнатурой `metric(y_true, y_pred)` для использования пользовательская метрика. Доступно только если `bootstrap=True`. Для иллюстрации оценки ошибки вне пакета (OOB) см. пример :ref:`sphx_glr_auto_examples_ensemble_plot_ensemble_oob.py`.	False
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. :meth:`fit`, :meth:`predict`, :meth:`decision_path` и :meth:`apply` все параллелизованы по деревьев. ``None`` означает 1, если не в :obj:`joblib.parallel_backend` контекст. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет как случайностью бутстрэппинга выборок, используемых при построении деревьев (если ``bootstrap=True``) и выборке признаки для рассмотрения при поиске наилучшего разделения в каждом узле (если ``max_features < n_features``). См. :term:`Глоссарий ` для деталей.	42
	verbose verbose: int, по умолчанию=0 Управляет подробностью вывода при обучении и предсказании.	0
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль, в противном случае просто обучите весь новый лес. См. :term:`Глоссарий ` и :ref:`tree_ensemble_warm_start` для деталей.	False
	ccp_alpha ccp_alpha: неотрицательное число с плавающей точкой, по умолчанию=0.0 Параметр сложности, используемый для минимальной стоимостно-сложностной обрезки. поддерево с наибольшей стоимостью сложности, которое меньше чем Будет выбран параметр ``ccp_alpha``. По умолчанию обрезка не выполняется. См. :ref:`minimal_cost_complexity_pruning` для подробностей. См. :ref:`sphx_glr_auto_examples_tree_plot_cost_complexity_pruning.py` для примера такой обрезки. .. versionadded:: 0.22	0.0
	max_samples max_samples: int или float, default=None Если bootstrap равен True, количество выборок для извлечения из X для обучения каждого базового оценщика. - Если None (по умолчанию), то выбирается `X.shape[0]` образцов. - Если int, то извлекается `max_samples` выборок. - Если float, то берётся `max(round(n_samples * max_samples), 1)` образцов. Таким образом, `max_samples` должен быть в интервале `(0.0, 1.0]`. .. versionadded:: 0.22	None
	monotonic_cst monotonic_cst: array-like из int формы (n_features), по умолчанию=None Указывает ограничение монотонности, применяемое к каждому признаку. - 1: монотонно возрастающий - 0: без ограничений - -1: монотонно убывающая Если monotonic_cst равен None, ограничения не применяются. Ограничения монотонности не поддерживаются для: - многомерные регрессии (т.е. когда `n_outputs_ > 1`), - регрессии, обученные на данных с пропущенными значениями. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 1.4	None

	шаги steps: список кортежей Список кортежей (имя шага, оценщик), которые должны быть соединены в цепочку последовательный порядок. Для совместимости с API scikit-learn, все шаги должен определять `fit`. Все не последние шаги также должны определять `transform`. См. :ref:`Комбинирование оценщиков ` для получения дополнительной информации.	[('columntransformer', ...), ('histgradientboostingregressor', ...)]
	transform_input transform_input: list of str, default=None Имена параметров :term:`metadata`, которые должны быть преобразованы конвейер перед передачей его шагу, который его потребляет. Это позволяет преобразовывать некоторые входные аргументы для ``fit`` (кроме ``X``) для преобразования шагами конвейера до шага, который требует их. Требование определяется через :ref:`маршрутизацию метаданных `. Например, это можно использовать для передачи набора валидации через конвейер. Вы можете установить это только если включена маршрутизация метаданных, что вы можно включить, используя ``sklearn.set_config(enable_metadata_routing=True)``. .. versionadded:: 1.6	None
	память memory: строка или объект с интерфейсом joblib.Memory, по умолчанию=None Используется для кэширования обученных трансформеров конвейера. Последний шаг никогда не будет кэшироваться, даже если это трансформер. По умолчанию, никакие кэширование выполняется. Если задана строка, это путь к директория кэширования. Включение кэширования запускает клонирование преобразователей перед обучением. Следовательно, экземпляр трансформатора, переданный в конвейер не может быть проверен напрямую. Используйте атрибут `named_steps` или ``steps`` для проверки оценщиков внутри конвейера. Кэширование трансформеры выгодны, когда подгонка занимает много времени. См. :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` для примера о том, как включить кэширование.	None
	verbose verbose: bool, default=False Если True, затраченное время на обучение каждого шага будет выводиться по мере его выполнения. завершено.	False

	потеря loss: {'squared_error', 'absolute_error', 'gamma', 'poisson', 'quantile'}, default='squared_error' Функция потерь, используемая в процессе бустинга. Обратите внимание, что Фактически реализуют потери "squared error", "gamma" и "poisson" "половина квадратичных потерь", "половина девиансы гамма" и "половина пуассона deviance" для упрощения вычисления градиента. Кроме того, "gamma" и "poisson" потери внутренне используют логарифмическую связь, "gamma" требует ``y > 0``, а "poisson" требует ``y >= 0``. "quantile" использует потерю пинбола. .. versionchanged:: 0.23 Добавлена опция 'poisson'. .. versionchanged:: 1.1 Добавлена опция 'quantile'. .. versionchanged:: 1.3 Добавлена опция 'gamma'.	'squared_error'
	квантиль quantile: float, default=None Если loss равно "quantile", этот параметр указывает, какой квантиль оценивать и должен быть между 0 и 1.	None
	learning_rate learning_rate: float, по умолчанию=0.1 Скорость обучения, также известная как сжатие. Используется как мультипликативный коэффициент для значений листьев. Используйте ``1`` для отсутствия сжатие.	0.1
	max_iter max_iter: int, по умолчанию=100 Максимальное количество итераций процесса бустинга, т.е. максимальное количество деревьев.	100
	max_leaf_nodes max_leaf_nodes: int или None, по умолчанию=31 Максимальное количество листьев для каждого дерева. Должно быть строго больше чем 1. Если None, максимального предела нет.	31
	max_depth max_depth: int или None, по умолчанию=None Максимальная глубина каждого дерева. Глубина дерева — это количество ребра для перехода от корня к самому глубокому листу. Глубина по умолчанию не ограничена.	None
	min_samples_leaf min_samples_leaf: int, по умолчанию=20 Минимальное количество образцов на лист. Для небольших наборов данных с менее чем чем несколько сотен образцов, рекомендуется уменьшить это значение поскольку строились бы только очень мелкие деревья.	20
	l2_regularization l2_regularization: float, по умолчанию=0 Параметр регуляризации L2, штрафующий листья с малыми гессианами. Используйте ``0`` для отсутствия регуляризации (по умолчанию).	0.0
	max_features max_features: float, default=1.0 Доля случайно выбранных признаков в каждом разделении узла. Это форма регуляризации: меньшие значения делают деревья слабее обучающихся моделей и может предотвратить переобучение. Если присутствуют ограничения взаимодействия из `interaction_cst`, разрешены только признаки учитываются для субдискретизации. .. versionadded:: 1.4	1.0
	max_bins max_bins: int, default=255 Максимальное количество бинов для использования с ненулевыми значениями. До обучения, каждый признак входного массива `X` разбивается на бины в целочисленные бины, что позволяет значительно ускорить этап обучения. Признаки с небольшим количеством уникальных значений могут использовать меньше чем ``max_bins`` бинов. В дополнение к ``max_bins`` бинам, еще один бин всегда зарезервировано для пропущенных значений. Не должно быть больше 255.	255
	categorical_features categorical_features: array-like из {bool, int, str} формы (n_features) или формы (n_categorical_features,), по умолчанию='from_dtype' Указывает категориальные признаки. - None : ни один признак не будет считаться категориальным. - массив булевых значений: булева маска, указывающая категориальные признаки. - целочисленный массивоподобный : целочисленные индексы, указывающие категориальные признаков. - str array-like: имена категориальных признаков (предполагается, что обучающие данные имеют имена признаков). - `"from_dtype"`: столбцы датафрейма с типом данных "category" являются считаются категориальными признаками. Входные данные должны быть объектом предоставляя метод ``__dataframe__``, такой как pandas или polars DataFrames для использования этой функции. Для каждой категориальной характеристики должно быть не более `max_bins` уникальных категории. Отрицательные значения для категориальных признаков, закодированных как числовые dtypes обрабатываются как пропущенные значения. Все категориальные значения преобразуются в числа с плавающей точкой. Это означает, что категориальные значения значения 1.0 и 1 рассматриваются как одна и та же категория. Подробнее в :ref:`Руководстве пользователя ` и :ref:`sphx_glr_auto_examples_ensemble_plot_gradient_boosting_categorical.py`. .. versionadded:: 0.24 .. versionchanged:: 1.2 Добавлена поддержка имён признаков. .. versionchanged:: 1.4 Добавлена опция `"from_dtype"`. .. versionchanged:: 1.6 Значение по умолчанию изменилось с `None` на `"from_dtype"`.	'from_dtype'
	monotonic_cst monotonic_cst: array-like из int формы (n_features) или dict, по умолчанию=None Монотонное ограничение, накладываемое на каждый признак, задается с помощью следующие целочисленные значения: - 1: монотонное увеличение - 0: без ограничений - -1: монотонное убывание Если это словарь со строковыми ключами, сопоставьте признак с монотонными ограничениями по имени. Если передан массив, признаки сопоставляются с ограничениями по позиции. См. :ref:`monotonic_cst_features_names` для примера использования. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 0.23 .. versionchanged:: 1.2 Принимает словарь ограничений с именами признаков в качестве ключей.	None
	interaction_cst interaction_cst: {"pairwise", "no_interactions"} или последовательность списков/кортежей/множеств int, по умолчанию=None Задайте ограничения взаимодействия, наборы признаков, которые могут взаимодействуют друг с другом в разбиениях дочерних узлов. Каждый элемент указывает набор индексов признаков, которые разрешены взаимодействовать друг с другом. Если признаков больше, чем указаны в этих ограничениях, они рассматриваются как если бы они были указан как дополнительный набор. Строки "pairwise" и "no_interactions" являются сокращениями для разрешая только попарные взаимодействия или их отсутствие соответственно. Например, при 5 признаках в общей сложности, `interaction_cst=[{0, 1}]` эквивалентно `interaction_cst=[{0, 1}, {2, 3, 4}]`, и указывает, что каждая ветвь дерева будет либо только разделять по признакам 0 и 1 или только по признакам 2, 3 и 4. См. :ref:`этот пример` о том, как использовать `interaction_cst`. .. versionadded:: 1.2	None
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль. Для валидности результатов, оценщик должен быть переобучен на тех же данных. См. :term:`Глоссарий `.	False
	early_stopping early_stopping: 'auto' или bool, по умолчанию='auto' Если 'auto', ранняя остановка включается, если размер выборки больше 10000 или если `X_val` и `y_val` переданы в `fit`. Если True, ранняя остановка включено, в противном случае ранняя остановка отключена. .. versionadded:: 0.23	'auto'
	оценка scoring: str или callable или None, по умолчанию='loss' Метод оценки для ранней остановки. Используется только если `early_stopping` включено. Опции: - str: см. :ref:`scoring_string_names` для вариантов. - вызываемый объект: вызываемый объект оценки (например, функция) с сигнатурой ``scorer(estimator, X, y)``. См. :ref:`scoring_callable` для подробностей. - `None`: :ref:`коэффициент детерминации ` (:math:`R^2`) используется. - 'loss': ранняя остановка проверяется относительно значения потерь.	'loss'
	validation_fraction validation_fraction: int или float или None, default=0.1 Доля (или абсолютный размер) обучающих данных, которые следует отложить как валидационные данные для ранней остановки. Если None, ранняя остановка выполняется на обучающие данные. Значение игнорируется, если ранняя остановка не выполняется, например, `early_stopping=False`, или если `X_val` и `y_val` переданы в fit.	0.1
	n_iter_no_change n_iter_no_change: int, default=10 Используется для определения момента "ранней остановки". Процесс обучения остановка, когда ни один из последних ``n_iter_no_change`` результатов не улучшается чем ``n_iter_no_change - 1``-я с конца, до некоторого допуск. Используется только при досрочной остановке.	10
	tol tol: float, default=1e-7 Абсолютный допуск, используемый при сравнении оценок во время ранней остановки. Чем выше допуск, тем более вероятна ранняя остановка: более высокая толерантность означает, что последующим будет сложнее итераций, чтобы считаться улучшением по сравнению с эталонным результатом.	1e-07
	verbose verbose: int, по умолчанию=0 Уровень подробности вывода. Если не ноль, выводит некоторую информацию о процесс обучения. ``1`` выводит только сводную информацию, ``2`` выводит информацию на итерация.	0
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Псевдослучайный генератор чисел для управления субдискретизацией в процесс бинирования и разделение данных на обучающую/валидационную выборку, если используется ранняя остановка включен. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	0

	оценщики оценщики: список (str, оценщик) Базовые оцениватели, которые будут объединены. Каждый элемент список определяется как кортеж строки (т.е. имени) и оценщика экземпляр. Оценщик может быть установлен в 'drop' с помощью `set_params`.	[('Random Forest', ...), ('Lasso', ...), ...]
	финальный_оцениватель final_estimator: оценщик, по умолчанию=None Регрессор, который будет использоваться для объединения базовых оценщиков. Регрессор по умолчанию — :class:`~sklearn.linear_model.RidgeCV`.	RidgeCV()
	cv cv: int, генератор перекрестной проверки, итерируемый объект или "prefit", по умолчанию=None Определяет стратегию разделения перекрестной проверки, используемую в 2.3.6. cv: * None, чтобы использовать стандартную 5-кратную перекрестную проверку, * целое число, чтобы указать количество фолдов в (Stratified) KFold, * Объект, который будет использоваться в качестве генератора перекрестной проверки, * Итерируемый объект, выдающий разделения на обучение и тестирование, * `"prefit"`, чтобы считать, что `estimators` предобучены. В этом случае, оценщики не будут переобучаться. Для целочисленных/None входов, если оценщик является классификатором и y либо бинарная, либо многоклассовая, Используется :class:`~sklearn.model_selection.StratifiedKFold`. Во всех остальных случаях используется :class:`~sklearn.model_selection.KFold`. Эти сплиттеры создаются с `shuffle=False`, поэтому разделения будет одинаковым при всех вызовах. См. :ref:`Руководство пользователя ` для различных стратегии перекрестной проверки, которые можно использовать здесь. Если передан "prefit", предполагается, что все `estimators` имеют уже обучена. `final_estimator_` обучается на `estimators` предсказания на полной обучающей выборке и не являются кросс-валидированными прогнозы. Обратите внимание, что если модели были обучены на одних и тех же данные для обучения модели стекинга, существует очень высокий риск переобучения. .. versionadded:: 1.1 Опция 'prefit' была добавлена в версии 1.1 .. примечание:: Большее количество разбиений не даст преимуществ, если количество обучающих образцов достаточно велико. Действительно, время обучения увеличится. ``cv`` не используется для оценки модели, а для прогноз.	None
	n_jobs n_jobs: int, default=None Количество параллельных задач для обучения всех оценщиков. `None` означает 1, если не в контексте `joblib.parallel_backend`. -1 означает используя все процессоры. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	passthrough passthrough: bool, default=False Когда False, только предсказания оценщиков будут использоваться как обучающие данные для `final_estimator`. Если True, `final_estimator` обучается на предсказаниях, а также на исходные обучающие данные.	False
	verbose verbose: int, по умолчанию=0 Уровень подробности вывода.	0

	альфы alphas: array-like формы (n_alphas,), по умолчанию=(0.1, 1.0, 10.0) Массив значений alpha для проверки. Сила регуляризации; должна быть положительным числом с плавающей точкой. Регуляризация улучшает обусловленность задачи и уменьшает дисперсию оценки. Большие значения указывают на более сильную регуляризацию. Alpha соответствует ``1 / (2C)`` в других линейных моделях, таких как :class:`~sklearn.linear_model.LogisticRegression` или :class:`~sklearn.svm.LinearSVC`. При использовании перекрестной проверки Leave-One-Out альфы должны быть строго положительными.	(0.1, ...)
	fit_intercept fit_intercept: bool, по умолчанию=True Вычислять ли свободный член для этой модели. Если установлено в false, перехват не будет использоваться в расчетах (т.е. данные предполагаются центрированными).	True
	оценка scoring: str, callable, default=None Метод оценки для перекрестной проверки. Варианты: - str: см. :ref:`scoring_string_names` для вариантов. - вызываемый объект: вызываемый объект оценки (например, функция) с сигнатурой ``scorer(estimator, X, y)``. См. :ref:`scoring_callable` для подробностей. - `None`: отрицательная :ref:`среднеквадратичная ошибка ` если cv None (т.е. при использовании перекрестной проверки с исключением по одному), или :ref:`коэффициент детерминации ` (:math:`R^2`) в противном случае.	None
	cv cv: int, генератор перекрестной проверки или итерируемый объект, по умолчанию=None Определяет стратегию разделения для кросс-валидации. Возможные значения для cv: - None, чтобы использовать эффективную перекрестную проверку Leave-One-Out - целое число, чтобы указать количество фолдов. - :term:`CV splitter`, - Итерируемый объект, возвращающий (обучающая, тестовая) разбиения в виде массивов индексов. Для целочисленных/None входных данных, если ``y`` является бинарным или многоклассовым, :class:`~sklearn.model_selection.StratifiedKFold` используется, иначе, используется :class:`~sklearn.model_selection.KFold`. См. :ref:`Руководство пользователя ` для различных стратегии перекрестной проверки, которые можно использовать здесь.	None
	gcv_mode . В: Труды 2-й Международной конференции по обнаружению знаний и интеллектуальному анализу данных, Портленд, OR, AAAI Press, стр. 226-231. 1996 Флаг, указывающий, какую стратегию использовать при выполнении Перекрестная проверка с исключением одного наблюдения. Варианты:: 'auto' : использовать 'svd', если n_samples > n_features, иначе использовать 'eigen' 'svd': принудительно использовать сингулярное разложение X, когда X является плотное, собственное разложение X^T.X, когда X разрежено. 'eigen' : принудительное вычисление через собственное разложение X.X^T Режим 'auto' используется по умолчанию и предназначен для выбора более дешевого вариант из двух в зависимости от формы обучающих данных.	None
	store_cv_results store_cv_results: bool, default=False Флаг, указывающий, соответствуют ли значения перекрестной проверки каждый альфа должен храниться в атрибуте ``cv_results_`` (см. ниже). Этот флаг совместим только с ``cv=None`` (т.е. с использованием Перекрестная проверка с исключением одного наблюдения). .. versionchanged:: 1.5 Имя параметра изменено с `store_cv_values` на `store_cv_results`.	False
	alpha_per_target alpha_per_target: bool, по умолчанию=False Флаг, указывающий, следует ли оптимизировать значение альфа (выбранное из список параметров `alphas`) для каждой цели отдельно (для многомерного вывода настройки: несколько целевых переменных для предсказания). При установке в `True`, после при обучении атрибут `alpha_` будет содержать значение для каждой целевой переменной. При установке значения `False` используется один альфа-параметр для всех целевых переменных. .. versionadded:: 0.24	False