Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Поддержка категориальных признаков в градиентном бустинге#

В этом примере мы сравниваем время обучения и производительность предсказания HistGradientBoostingRegressor с различными стратегиями кодирования категориальных признаков. В частности, мы оцениваем:

“Удалено”: удаление категориальных признаков;
“One Hot”: используя OneHotEncoder;
“Ordinal”: используя OrdinalEncoder и рассматривать категории как упорядоченные, равноудалённые величины;
"Target": используя TargetEncoder;
«Native»: полагаясь на поддержка нативных категорий из HistGradientBoostingRegressor оценщик.

Для этой цели мы используем набор данных Ames Iowa Housing, который состоит из числовых и категориальных признаков, где целевой переменной является цена продажи дома.

См. Признаки в деревьях с градиентным бустингом на гистограммах для примера, демонстрирующего некоторые другие возможности HistGradientBoostingRegressor.

См. Сравнение Target Encoder с другими кодировщиками для сравнения стратегий кодирования при наличии категориальных признаков с высокой кардинальностью.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Загрузить набор данных Ames Housing#

Сначала мы загружаем данные о жилье в Эймсе как pandas dataframe. Признаки являются либо категориальными, либо числовыми:

from sklearn.datasets import fetch_openml

X, y = fetch_openml(data_id=42165, as_frame=True, return_X_y=True)

# Select only a subset of features of X to make the example faster to run
categorical_columns_subset = [
    "BldgType",
    "GarageFinish",
    "LotConfig",
    "Functional",
    "MasVnrType",
    "HouseStyle",
    "FireplaceQu",
    "ExterCond",
    "ExterQual",
    "PoolQC",
]

numerical_columns_subset = [
    "3SsnPorch",
    "Fireplaces",
    "BsmtHalfBath",
    "HalfBath",
    "GarageCars",
    "TotRmsAbvGrd",
    "BsmtFinSF1",
    "BsmtFinSF2",
    "GrLivArea",
    "ScreenPorch",
]

X = X[categorical_columns_subset + numerical_columns_subset]
X[categorical_columns_subset] = X[categorical_columns_subset].astype("category")

categorical_columns = X.select_dtypes(include="category").columns
n_categorical_features = len(categorical_columns)
n_numerical_features = X.select_dtypes(include="number").shape[1]

print(f"Number of samples: {X.shape[0]}")
print(f"Number of features: {X.shape[1]}")
print(f"Number of categorical features: {n_categorical_features}")
print(f"Number of numerical features: {n_numerical_features}")

Number of samples: 1460
Number of features: 20
Number of categorical features: 10
Number of numerical features: 10

Оценщик градиентного бустинга с отброшенными категориальными признаками#

В качестве базового уровня мы создаём оценщик, в котором категориальные признаки удаляются:

from sklearn.compose import make_column_selector, make_column_transformer
from sklearn.ensemble import HistGradientBoostingRegressor
from sklearn.pipeline import make_pipeline

dropper = make_column_transformer(
    ("drop", make_column_selector(dtype_include="category")), remainder="passthrough"
)
hist_dropped = make_pipeline(dropper, HistGradientBoostingRegressor(random_state=42))
hist_dropped

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('drop', 'drop',
                                                  )])),
                ('histgradientboostingregressor',
                 HistGradientBoostingRegressor(random_state=42))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Оценщик градиентного бустинга с one-hot кодированием#

Далее мы создаём конвейер для one-hot кодирования категориальных признаков, оставляя остальные признаки "passthrough" без изменений:

from sklearn.preprocessing import OneHotEncoder

one_hot_encoder = make_column_transformer(
    (
        OneHotEncoder(sparse_output=False, handle_unknown="ignore"),
        make_column_selector(dtype_include="category"),
    ),
    remainder="passthrough",
)

hist_one_hot = make_pipeline(
    one_hot_encoder, HistGradientBoostingRegressor(random_state=42)
)
hist_one_hot

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('onehotencoder',
                                                  OneHotEncoder(handle_unknown='ignore',
                                                                sparse_output=False),
                                                  )])),
                ('histgradientboostingregressor',
                 HistGradientBoostingRegressor(random_state=42))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Оценщик градиентного бустинга с порядковым кодированием#

Далее мы создаем конвейер, который обрабатывает категориальные признаки как упорядоченные величины, т.е. категории кодируются как 0, 1, 2 и т.д. и рассматриваются как непрерывные признаки.

import numpy as np

from sklearn.preprocessing import OrdinalEncoder

ordinal_encoder = make_column_transformer(
    (
        OrdinalEncoder(handle_unknown="use_encoded_value", unknown_value=np.nan),
        make_column_selector(dtype_include="category"),
    ),
    remainder="passthrough",
)

hist_ordinal = make_pipeline(
    ordinal_encoder, HistGradientBoostingRegressor(random_state=42)
)
hist_ordinal

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('ordinalencoder',
                                                  OrdinalEncoder(handle_unknown='use_encoded_value',
                                                                 unknown_value=nan),
                                                  )])),
                ('histgradientboostingregressor',
                 HistGradientBoostingRegressor(random_state=42))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Оценщик градиентного бустинга с кодированием целевой переменной#

Другая возможность - использовать TargetEncoder, который кодирует категории, вычисленные из среднего значения целевой переменной (обучающей), вычисленного с использованием сглаженного np.mean(y, axis=0) т.е.:

в регрессии используется среднее значение y;
в бинарной классификации, частота положительного класса;
в многоклассовой задаче, вектор частот классов (по одному на класс).

Для каждой категории он вычисляет эти средние значения целевой переменной, используя кросс фиттинг, что означает, что обучающие данные разбиваются на фолды: в каждом фолде средние значения вычисляются только на подмножестве данных, а затем применяются к удерживаемой части. Таким образом, каждый образец кодируется с использованием статистики из данных, частью которых он не был, предотвращая утечку информации от целевой переменной.

from sklearn.preprocessing import TargetEncoder

target_encoder = make_column_transformer(
    (
        TargetEncoder(target_type="continuous", random_state=42),
        make_column_selector(dtype_include="category"),
    ),
    remainder="passthrough",
)

hist_target = make_pipeline(
    target_encoder, HistGradientBoostingRegressor(random_state=42)
)
hist_target

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(remainder='passthrough',
                                   transformers=[('targetencoder',
                                                  TargetEncoder(random_state=42,
                                                                target_type='continuous'),
                                                  )])),
                ('histgradientboostingregressor',
                 HistGradientBoostingRegressor(random_state=42))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Оценщик градиентного бустинга с нативной поддержкой категориальных признаков#

Теперь мы создаем HistGradientBoostingRegressor оценщик, который может изначально обрабатывать категориальные признаки без явного кодирования. Такая функциональность может быть включена установкой categorical_features="from_dtype", который автоматически обнаруживает признаки с категориальными типами данных, или более явно с помощью categorical_features=categorical_columns_subset.

В отличие от предыдущих подходов к кодированию, оценщик изначально работает с категориальными признаками. На каждом разбиении он разделяет категории такого признака на непересекающиеся множества с помощью эвристики, которая сортирует их по их влиянию на целевую переменную, см. Поиск разбиений с категориальными признаками подробности.

Хотя порядковое кодирование может хорошо работать для признаков с низкой кардинальностью, даже если категории не имеют естественного порядка, достижение значимых разделений требует более глубоких деревьев с увеличением кардинальности. Нативная поддержка категориальных признаков избегает этого, работая напрямую с неупорядоченными категориями. Преимущество перед one-hot кодированием заключается в отсутствии предварительной обработки и более быстром времени обучения и предсказания.

hist_native = HistGradientBoostingRegressor(
    random_state=42, categorical_features="from_dtype"
)
hist_native

HistGradientBoostingRegressor(random_state=42)

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Сравнение моделей#

Здесь мы используем кросс-валидация для сравнения производительности моделей в терминах mean_absolute_percentage_error и времена обучения. На предстоящих графиках полосы ошибок представляют 1 стандартное отклонение, вычисленное по разбиениям перекрестной проверки.

from sklearn.model_selection import cross_validate

common_params = {"cv": 5, "scoring": "neg_mean_absolute_percentage_error", "n_jobs": -1}

dropped_result = cross_validate(hist_dropped, X, y, **common_params)
one_hot_result = cross_validate(hist_one_hot, X, y, **common_params)
ordinal_result = cross_validate(hist_ordinal, X, y, **common_params)
target_result = cross_validate(hist_target, X, y, **common_params)
native_result = cross_validate(hist_native, X, y, **common_params)
results = [
    ("Dropped", dropped_result),
    ("One Hot", one_hot_result),
    ("Ordinal", ordinal_result),
    ("Target", target_result),
    ("Native", native_result),
]

import matplotlib.pyplot as plt
import matplotlib.ticker as ticker


def plot_performance_tradeoff(results, title):
    fig, ax = plt.subplots()
    markers = ["s", "o", "^", "x", "D"]

    for idx, (name, result) in enumerate(results):
        test_error = -result["test_score"]
        mean_fit_time = np.mean(result["fit_time"])
        mean_score = np.mean(test_error)
        std_fit_time = np.std(result["fit_time"])
        std_score = np.std(test_error)

        ax.scatter(
            result["fit_time"],
            test_error,
            label=name,
            marker=markers[idx],
        )
        ax.scatter(
            mean_fit_time,
            mean_score,
            color="k",
            marker=markers[idx],
        )
        ax.errorbar(
            x=mean_fit_time,
            y=mean_score,
            yerr=std_score,
            c="k",
            capsize=2,
        )
        ax.errorbar(
            x=mean_fit_time,
            y=mean_score,
            xerr=std_fit_time,
            c="k",
            capsize=2,
        )

    ax.set_xscale("log")

    nticks = 7
    x0, x1 = np.log10(ax.get_xlim())
    ticks = np.logspace(x0, x1, nticks)
    ax.set_xticks(ticks)
    ax.xaxis.set_major_formatter(ticker.FormatStrFormatter("%1.1e"))
    ax.minorticks_off()

    ax.annotate(
        "  best\nmodels",
        xy=(0.04, 0.04),
        xycoords="axes fraction",
        xytext=(0.09, 0.14),
        textcoords="axes fraction",
        arrowprops=dict(arrowstyle="->", lw=1.5),
    )
    ax.set_xlabel("Time to fit (seconds)")
    ax.set_ylabel("Mean Absolute Percentage Error")
    ax.set_title(title)
    ax.legend()
    plt.show()


plot_performance_tradeoff(results, "Gradient Boosting on Ames Housing")

На графике выше «лучшие модели» — те, что ближе к нижнему левому углу, как показано стрелкой. Эти модели действительно соответствуют более быстрому обучению и меньшей ошибке.

Модель, использующая one-hot кодированные данные, самая медленная. Это ожидаемо, так как one-hot кодирование создаёт дополнительный признак для каждого категориального значения каждого категориального признака, значительно увеличивая количество кандидатов на разбиение во время обучения. Теоретически мы ожидаем, что нативная обработка категориальных признаков будет немного медленнее, чем обработка категорий как упорядоченных величин ('Ordinal'), поскольку нативная обработка требует сортировки категорий. Однако время обучения должно быть близким, когда количество категорий мало, и это не всегда отражается на практике.

Время, необходимое для обучения при использовании TargetEncoder зависит от параметра перекрёстной подгонки cv, так как добавление разбиений требует вычислительных затрат.

С точки зрения производительности предсказания, удаление категориальных признаков приводит к наихудшей производительности. Четыре модели, которые используют категориальные признаки, имеют сопоставимые показатели ошибок, с небольшим преимуществом для нативной обработки.

Ограничение количества разбиений#

В целом, можно ожидать худших прогнозов от данных с one-hot-кодированием, особенно когда глубина деревьев или количество узлов ограничены: с данными с one-hot-кодированием требуется больше точек разделения, т.е. больше глубины, чтобы восстановить эквивалентное разделение, которое можно получить в одной точке разделения при нативной обработке.

Это также верно, когда категории рассматриваются как порядковые величины: если категории A..F и лучшее разделение - это ACF - BDE модель one-hot-encoder потребовала бы 3 точки разделения (по одной на категорию в левом узле), а порядковая неродная модель потребовала бы 4 разделения: 1 разделение для изоляции A, 1 разделение для изоляции F, и 2 разделения для изоляции C из BCDE.

Насколько сильно производительность моделей отличается на практике, зависит от набора данных и гибкости деревьев.

Чтобы увидеть это, давайте повторно запустим тот же анализ с недообученными моделями, где мы искусственно ограничиваем общее количество разбиений, ограничивая как количество деревьев, так и глубину каждого дерева.

for pipe in (hist_dropped, hist_one_hot, hist_ordinal, hist_target, hist_native):
    if pipe is hist_native:
        # The native model does not use a pipeline so, we can set the parameters
        # directly.
        pipe.set_params(max_depth=3, max_iter=15)
    else:
        pipe.set_params(
            histgradientboostingregressor__max_depth=3,
            histgradientboostingregressor__max_iter=15,
        )

dropped_result = cross_validate(hist_dropped, X, y, **common_params)
one_hot_result = cross_validate(hist_one_hot, X, y, **common_params)
ordinal_result = cross_validate(hist_ordinal, X, y, **common_params)
target_result = cross_validate(hist_target, X, y, **common_params)
native_result = cross_validate(hist_native, X, y, **common_params)
results_underfit = [
    ("Dropped", dropped_result),
    ("One Hot", one_hot_result),
    ("Ordinal", ordinal_result),
    ("Target", target_result),
    ("Native", native_result),
]

plot_performance_tradeoff(
    results_underfit, "Gradient Boosting on Ames Housing (few and shallow trees)"
)

Gradient Boosting on Ames Housing (few and shallow trees)

Результаты для этих недообученных моделей подтверждают нашу предыдущую интуицию: стратегия нативной обработки категорий работает лучше всего, когда бюджет разделения ограничен. Три стратегии явного кодирования (one-hot, порядковое и таргет-кодирование) приводят к немного большим ошибкам, чем нативная обработка оценщика, но все же работают лучше, чем базовая модель, которая просто удалила категориальные признаки.

Общее время выполнения скрипта: (0 минут 5.532 секунд)

Связанные примеры

Сравнение Target Encoder с другими кодировщиками

Трансформер столбцов со смешанными типами

Инженерия временных признаков

Объедините предикторы с помощью стекинга

Галерея, созданная Sphinx-Gallery

	шаги steps: список кортежей Список кортежей (имя шага, оценщик), которые должны быть соединены в цепочку последовательный порядок. Для совместимости с API scikit-learn, все шаги должен определять `fit`. Все не последние шаги также должны определять `transform`. См. :ref:`Комбинирование оценщиков ` для получения дополнительной информации.	[('columntransformer', ...), ('histgradientboostingregressor', ...)]
	transform_input transform_input: list of str, default=None Имена параметров :term:`metadata`, которые должны быть преобразованы конвейер перед передачей его шагу, который его потребляет. Это позволяет преобразовывать некоторые входные аргументы для ``fit`` (кроме ``X``) для преобразования шагами конвейера до шага, который требует их. Требование определяется через :ref:`маршрутизацию метаданных `. Например, это можно использовать для передачи набора валидации через конвейер. Вы можете установить это только если включена маршрутизация метаданных, что вы можно включить, используя ``sklearn.set_config(enable_metadata_routing=True)``. .. versionadded:: 1.6	None
	память memory: строка или объект с интерфейсом joblib.Memory, по умолчанию=None Используется для кэширования обученных трансформеров конвейера. Последний шаг никогда не будет кэшироваться, даже если это трансформер. По умолчанию, никакие кэширование выполняется. Если задана строка, это путь к директория кэширования. Включение кэширования запускает клонирование преобразователей перед обучением. Следовательно, экземпляр трансформатора, переданный в конвейер не может быть проверен напрямую. Используйте атрибут `named_steps` или ``steps`` для проверки оценщиков внутри конвейера. Кэширование трансформеры выгодны, когда подгонка занимает много времени. См. :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` для примера о том, как включить кэширование.	None
	verbose verbose: bool, default=False Если True, затраченное время на обучение каждого шага будет выводиться по мере его выполнения. завершено.	False

	преобразователи transformers: список кортежей Список кортежей (имя, transformer, столбцы), определяющих объекты трансформеров, которые должны быть применены к подмножествам данных. name : str Как и в Pipeline и FeatureUnion, это позволяет преобразователю и его параметры могут быть установлены с помощью ``set_params`` и найдены в сетке поиск. transformer: {'drop', 'passthrough'} или estimator Оценщик должен поддерживать :term:`fit` и :term:`transform`. Специальные строки 'drop' и 'passthrough' принимаются как хорошо, чтобы указать, удалить столбцы или пропустить их непреобразованные, соответственно. столбцы : str, массив строк, int, массив int, массив bool, срез или вызываемый объект Индексирует данные по второй оси. Целые числа интерпретируются как позиционные столбцы, в то время как строки могут ссылаться на столбцы DataFrame по имени. Скалярная строка или целое число должны использоваться там, где ``transformer`` ожидает, что X будет одномерным array-like (вектором), иначе в преобразователь будет передан двумерный массив. Вызываемый объект получает входные данные `X` и может возвращать любой из выше. Чтобы выбрать несколько столбцов по имени или типу данных, можно использовать :obj:`make_column_selector`.	[('drop', ...)]
	остаток остаток: {'drop', 'passthrough'} или оценщик, по умолчанию='drop' По умолчанию только указанные столбцы в `transformers` являются преобразованы и объединены в выходных данных, а не указанные столбцы удаляются. (по умолчанию ``'drop'``). Указав ``remainder='passthrough'``, все оставшиеся столбцы, которые не были указаны в `transformers`, но присутствуют в переданных данных к `fit` будут автоматически переданы. Это подмножество столбцов объединяется с выходом преобразователей. Для датафреймов, дополнительные столбцы, не встречавшиеся во время `fit`, будут исключены из вывода `transform`. Установив ``remainder`` в качестве оценщика, оставшиеся неуказанные столбцы будут использовать оценщик ``remainder``. оценщик должен поддерживать :term:`fit` и :term:`transform`. Обратите внимание, что использование этой функции требует, чтобы столбцы DataFrame входные данные в :term:`fit` и :term:`transform` имеют одинаковый порядок.	'passthrough'
	sparse_threshold sparse_threshold: float, default=0.3 Если выход разных преобразователей содержит разреженные матрицы, они будут сложены в разреженную матрицу, если общая плотность составляет ниже этого значения. Используйте ``sparse_threshold=0``, чтобы всегда возвращать плотный. Когда преобразованный вывод состоит из всех плотных данных, результат будет плотным, и этот ключевой параметр будет проигнорирован.	0.3
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	transformer_weights transformer_weights: dict, по умолчанию=None Мультипликативные веса для признаков на трансформер. Выходные данные преобразователь умножается на эти веса. Ключи — это имена преобразователей, значения весов.	None
	verbose verbose: bool, default=False Если True, затраченное время на подгонку каждого трансформатора будет печатается по завершении.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str или Callable[[str, str], str], default=True - Если True, :meth:`ColumnTransformer.get_feature_names_out` добавит префикс все имена признаков с именем преобразователя, который их сгенерировал признак. Эквивалентно установке `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Если False, :meth:`ColumnTransformer.get_feature_names_out` не будет добавляет префикс к любым именам признаков и вызовет ошибку, если имена признаков отсутствуют уникальные. - Если ``Callable[[str, str], str]``, :meth:`ColumnTransformer.get_feature_names_out` переименует все признаки используя имя преобразователя. Первый аргумент вызываемого объекта - это имя трансформера и второй аргумент — имя признака. Возвращаемый строка будет новым именем признака. - Если ``str``, это должна быть строка, готовая к форматированию. Данная строка будет должны форматироваться с использованием двух имен полей: ``transformer_name`` и ``feature_name``. например, ``"{feature_name}__{transformer_name}"``. См. метод :meth:`str.format` из стандартной библиотеки для получения дополнительной информации. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` может быть вызываемым объектом или строкой для форматирования.	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Этот параметр не оказывает влияния. .. примечание:: Если вы не обращаетесь к списку столбцов для оставшихся столбцов в атрибуте `transformers_` после обучения, вам не нужно устанавливать этот параметр. .. versionadded:: 1.5 .. versionchanged:: 1.7 Значение по умолчанию для `force_int_remainder_cols` изменится с с `True` на `False` в версии 1.7. .. устарело:: 1.7 `force_int_remainder_cols` устарел и будет удалён в версии 1.9.	'устаревший'

	потеря loss: {'squared_error', 'absolute_error', 'gamma', 'poisson', 'quantile'}, default='squared_error' Функция потерь, используемая в процессе бустинга. Обратите внимание, что Фактически реализуют потери "squared error", "gamma" и "poisson" "половина квадратичных потерь", "половина девиансы гамма" и "половина пуассона deviance" для упрощения вычисления градиента. Кроме того, "gamma" и "poisson" потери внутренне используют логарифмическую связь, "gamma" требует ``y > 0``, а "poisson" требует ``y >= 0``. "quantile" использует потерю пинбола. .. versionchanged:: 0.23 Добавлена опция 'poisson'. .. versionchanged:: 1.1 Добавлена опция 'quantile'. .. versionchanged:: 1.3 Добавлена опция 'gamma'.	'squared_error'
	квантиль quantile: float, default=None Если loss равно "quantile", этот параметр указывает, какой квантиль оценивать и должен быть между 0 и 1.	None
	learning_rate learning_rate: float, по умолчанию=0.1 Скорость обучения, также известная как сжатие. Используется как мультипликативный коэффициент для значений листьев. Используйте ``1`` для отсутствия сжатие.	0.1
	max_iter max_iter: int, по умолчанию=100 Максимальное количество итераций процесса бустинга, т.е. максимальное количество деревьев.	100
	max_leaf_nodes max_leaf_nodes: int или None, по умолчанию=31 Максимальное количество листьев для каждого дерева. Должно быть строго больше чем 1. Если None, максимального предела нет.	31
	max_depth max_depth: int или None, по умолчанию=None Максимальная глубина каждого дерева. Глубина дерева — это количество ребра для перехода от корня к самому глубокому листу. Глубина по умолчанию не ограничена.	None
	min_samples_leaf min_samples_leaf: int, по умолчанию=20 Минимальное количество образцов на лист. Для небольших наборов данных с менее чем чем несколько сотен образцов, рекомендуется уменьшить это значение поскольку строились бы только очень мелкие деревья.	20
	l2_regularization l2_regularization: float, по умолчанию=0 Параметр регуляризации L2, штрафующий листья с малыми гессианами. Используйте ``0`` для отсутствия регуляризации (по умолчанию).	0.0
	max_features max_features: float, default=1.0 Доля случайно выбранных признаков в каждом разделении узла. Это форма регуляризации: меньшие значения делают деревья слабее обучающихся моделей и может предотвратить переобучение. Если присутствуют ограничения взаимодействия из `interaction_cst`, разрешены только признаки учитываются для субдискретизации. .. versionadded:: 1.4	1.0
	max_bins max_bins: int, default=255 Максимальное количество бинов для использования с ненулевыми значениями. До обучения, каждый признак входного массива `X` разбивается на бины в целочисленные бины, что позволяет значительно ускорить этап обучения. Признаки с небольшим количеством уникальных значений могут использовать меньше чем ``max_bins`` бинов. В дополнение к ``max_bins`` бинам, еще один бин всегда зарезервировано для пропущенных значений. Не должно быть больше 255.	255
	categorical_features categorical_features: array-like из {bool, int, str} формы (n_features) или формы (n_categorical_features,), по умолчанию='from_dtype' Указывает категориальные признаки. - None : ни один признак не будет считаться категориальным. - массив булевых значений: булева маска, указывающая категориальные признаки. - целочисленный массивоподобный : целочисленные индексы, указывающие категориальные признаков. - str array-like: имена категориальных признаков (предполагается, что обучающие данные имеют имена признаков). - `"from_dtype"`: столбцы датафрейма с типом данных "category" являются считаются категориальными признаками. Входные данные должны быть объектом предоставляя метод ``__dataframe__``, такой как pandas или polars DataFrames для использования этой функции. Для каждой категориальной характеристики должно быть не более `max_bins` уникальных категории. Отрицательные значения для категориальных признаков, закодированных как числовые dtypes обрабатываются как пропущенные значения. Все категориальные значения преобразуются в числа с плавающей точкой. Это означает, что категориальные значения значения 1.0 и 1 рассматриваются как одна и та же категория. Подробнее в :ref:`Руководстве пользователя ` и :ref:`sphx_glr_auto_examples_ensemble_plot_gradient_boosting_categorical.py`. .. versionadded:: 0.24 .. versionchanged:: 1.2 Добавлена поддержка имён признаков. .. versionchanged:: 1.4 Добавлена опция `"from_dtype"`. .. versionchanged:: 1.6 Значение по умолчанию изменилось с `None` на `"from_dtype"`.	'from_dtype'
	monotonic_cst monotonic_cst: array-like из int формы (n_features) или dict, по умолчанию=None Монотонное ограничение, накладываемое на каждый признак, задается с помощью следующие целочисленные значения: - 1: монотонное увеличение - 0: без ограничений - -1: монотонное убывание Если это словарь со строковыми ключами, сопоставьте признак с монотонными ограничениями по имени. Если передан массив, признаки сопоставляются с ограничениями по позиции. См. :ref:`monotonic_cst_features_names` для примера использования. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 0.23 .. versionchanged:: 1.2 Принимает словарь ограничений с именами признаков в качестве ключей.	None
	interaction_cst interaction_cst: {"pairwise", "no_interactions"} или последовательность списков/кортежей/множеств int, по умолчанию=None Задайте ограничения взаимодействия, наборы признаков, которые могут взаимодействуют друг с другом в разбиениях дочерних узлов. Каждый элемент указывает набор индексов признаков, которые разрешены взаимодействовать друг с другом. Если признаков больше, чем указаны в этих ограничениях, они рассматриваются как если бы они были указан как дополнительный набор. Строки "pairwise" и "no_interactions" являются сокращениями для разрешая только попарные взаимодействия или их отсутствие соответственно. Например, при 5 признаках в общей сложности, `interaction_cst=[{0, 1}]` эквивалентно `interaction_cst=[{0, 1}, {2, 3, 4}]`, и указывает, что каждая ветвь дерева будет либо только разделять по признакам 0 и 1 или только по признакам 2, 3 и 4. См. :ref:`этот пример` о том, как использовать `interaction_cst`. .. versionadded:: 1.2	None
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль. Для валидности результатов, оценщик должен быть переобучен на тех же данных. См. :term:`Глоссарий `.	False
	early_stopping early_stopping: 'auto' или bool, по умолчанию='auto' Если 'auto', ранняя остановка включается, если размер выборки больше 10000 или если `X_val` и `y_val` переданы в `fit`. Если True, ранняя остановка включено, в противном случае ранняя остановка отключена. .. versionadded:: 0.23	'auto'
	оценка scoring: str или callable или None, по умолчанию='loss' Метод оценки для ранней остановки. Используется только если `early_stopping` включено. Опции: - str: см. :ref:`scoring_string_names` для вариантов. - вызываемый объект: вызываемый объект оценки (например, функция) с сигнатурой ``scorer(estimator, X, y)``. См. :ref:`scoring_callable` для подробностей. - `None`: :ref:`коэффициент детерминации ` (:math:`R^2`) используется. - 'loss': ранняя остановка проверяется относительно значения потерь.	'loss'
	validation_fraction validation_fraction: int или float или None, default=0.1 Доля (или абсолютный размер) обучающих данных, которые следует отложить как валидационные данные для ранней остановки. Если None, ранняя остановка выполняется на обучающие данные. Значение игнорируется, если ранняя остановка не выполняется, например, `early_stopping=False`, или если `X_val` и `y_val` переданы в fit.	0.1
	n_iter_no_change n_iter_no_change: int, default=10 Используется для определения момента "ранней остановки". Процесс обучения остановка, когда ни один из последних ``n_iter_no_change`` результатов не улучшается чем ``n_iter_no_change - 1``-я с конца, до некоторого допуск. Используется только при досрочной остановке.	10
	tol tol: float, default=1e-7 Абсолютный допуск, используемый при сравнении оценок во время ранней остановки. Чем выше допуск, тем более вероятна ранняя остановка: более высокая толерантность означает, что последующим будет сложнее итераций, чтобы считаться улучшением по сравнению с эталонным результатом.	1e-07
	verbose verbose: int, по умолчанию=0 Уровень подробности вывода. Если не ноль, выводит некоторую информацию о процесс обучения. ``1`` выводит только сводную информацию, ``2`` выводит информацию на итерация.	0
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Псевдослучайный генератор чисел для управления субдискретизацией в процесс бинирования и разделение данных на обучающую/валидационную выборку, если используется ранняя остановка включен. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	42

	шаги steps: список кортежей Список кортежей (имя шага, оценщик), которые должны быть соединены в цепочку последовательный порядок. Для совместимости с API scikit-learn, все шаги должен определять `fit`. Все не последние шаги также должны определять `transform`. См. :ref:`Комбинирование оценщиков ` для получения дополнительной информации.	[('columntransformer', ...), ('histgradientboostingregressor', ...)]
	transform_input transform_input: list of str, default=None Имена параметров :term:`metadata`, которые должны быть преобразованы конвейер перед передачей его шагу, который его потребляет. Это позволяет преобразовывать некоторые входные аргументы для ``fit`` (кроме ``X``) для преобразования шагами конвейера до шага, который требует их. Требование определяется через :ref:`маршрутизацию метаданных `. Например, это можно использовать для передачи набора валидации через конвейер. Вы можете установить это только если включена маршрутизация метаданных, что вы можно включить, используя ``sklearn.set_config(enable_metadata_routing=True)``. .. versionadded:: 1.6	None
	память memory: строка или объект с интерфейсом joblib.Memory, по умолчанию=None Используется для кэширования обученных трансформеров конвейера. Последний шаг никогда не будет кэшироваться, даже если это трансформер. По умолчанию, никакие кэширование выполняется. Если задана строка, это путь к директория кэширования. Включение кэширования запускает клонирование преобразователей перед обучением. Следовательно, экземпляр трансформатора, переданный в конвейер не может быть проверен напрямую. Используйте атрибут `named_steps` или ``steps`` для проверки оценщиков внутри конвейера. Кэширование трансформеры выгодны, когда подгонка занимает много времени. См. :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` для примера о том, как включить кэширование.	None
	verbose verbose: bool, default=False Если True, затраченное время на обучение каждого шага будет выводиться по мере его выполнения. завершено.	False

	преобразователи transformers: список кортежей Список кортежей (имя, transformer, столбцы), определяющих объекты трансформеров, которые должны быть применены к подмножествам данных. name : str Как и в Pipeline и FeatureUnion, это позволяет преобразователю и его параметры могут быть установлены с помощью ``set_params`` и найдены в сетке поиск. transformer: {'drop', 'passthrough'} или estimator Оценщик должен поддерживать :term:`fit` и :term:`transform`. Специальные строки 'drop' и 'passthrough' принимаются как хорошо, чтобы указать, удалить столбцы или пропустить их непреобразованные, соответственно. столбцы : str, массив строк, int, массив int, массив bool, срез или вызываемый объект Индексирует данные по второй оси. Целые числа интерпретируются как позиционные столбцы, в то время как строки могут ссылаться на столбцы DataFrame по имени. Скалярная строка или целое число должны использоваться там, где ``transformer`` ожидает, что X будет одномерным array-like (вектором), иначе в преобразователь будет передан двумерный массив. Вызываемый объект получает входные данные `X` и может возвращать любой из выше. Чтобы выбрать несколько столбцов по имени или типу данных, можно использовать :obj:`make_column_selector`.	[('onehotencoder', ...)]
	остаток остаток: {'drop', 'passthrough'} или оценщик, по умолчанию='drop' По умолчанию только указанные столбцы в `transformers` являются преобразованы и объединены в выходных данных, а не указанные столбцы удаляются. (по умолчанию ``'drop'``). Указав ``remainder='passthrough'``, все оставшиеся столбцы, которые не были указаны в `transformers`, но присутствуют в переданных данных к `fit` будут автоматически переданы. Это подмножество столбцов объединяется с выходом преобразователей. Для датафреймов, дополнительные столбцы, не встречавшиеся во время `fit`, будут исключены из вывода `transform`. Установив ``remainder`` в качестве оценщика, оставшиеся неуказанные столбцы будут использовать оценщик ``remainder``. оценщик должен поддерживать :term:`fit` и :term:`transform`. Обратите внимание, что использование этой функции требует, чтобы столбцы DataFrame входные данные в :term:`fit` и :term:`transform` имеют одинаковый порядок.	'passthrough'
	sparse_threshold sparse_threshold: float, default=0.3 Если выход разных преобразователей содержит разреженные матрицы, они будут сложены в разреженную матрицу, если общая плотность составляет ниже этого значения. Используйте ``sparse_threshold=0``, чтобы всегда возвращать плотный. Когда преобразованный вывод состоит из всех плотных данных, результат будет плотным, и этот ключевой параметр будет проигнорирован.	0.3
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	transformer_weights transformer_weights: dict, по умолчанию=None Мультипликативные веса для признаков на трансформер. Выходные данные преобразователь умножается на эти веса. Ключи — это имена преобразователей, значения весов.	None
	verbose verbose: bool, default=False Если True, затраченное время на подгонку каждого трансформатора будет печатается по завершении.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str или Callable[[str, str], str], default=True - Если True, :meth:`ColumnTransformer.get_feature_names_out` добавит префикс все имена признаков с именем преобразователя, который их сгенерировал признак. Эквивалентно установке `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Если False, :meth:`ColumnTransformer.get_feature_names_out` не будет добавляет префикс к любым именам признаков и вызовет ошибку, если имена признаков отсутствуют уникальные. - Если ``Callable[[str, str], str]``, :meth:`ColumnTransformer.get_feature_names_out` переименует все признаки используя имя преобразователя. Первый аргумент вызываемого объекта - это имя трансформера и второй аргумент — имя признака. Возвращаемый строка будет новым именем признака. - Если ``str``, это должна быть строка, готовая к форматированию. Данная строка будет должны форматироваться с использованием двух имен полей: ``transformer_name`` и ``feature_name``. например, ``"{feature_name}__{transformer_name}"``. См. метод :meth:`str.format` из стандартной библиотеки для получения дополнительной информации. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` может быть вызываемым объектом или строкой для форматирования.	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Этот параметр не оказывает влияния. .. примечание:: Если вы не обращаетесь к списку столбцов для оставшихся столбцов в атрибуте `transformers_` после обучения, вам не нужно устанавливать этот параметр. .. versionadded:: 1.5 .. versionchanged:: 1.7 Значение по умолчанию для `force_int_remainder_cols` изменится с с `True` на `False` в версии 1.7. .. устарело:: 1.7 `force_int_remainder_cols` устарел и будет удалён в версии 1.9.	'устаревший'

	категории категории: 'auto' или список массивоподобных объектов, по умолчанию='auto' Категории (уникальные значения) для каждого признака: - 'auto' : Автоматически определять категории из обучающих данных. - список: ``categories[i]`` содержит категории, ожидаемые в i-м столбец. Переданные категории не должны смешивать строки и числа значения в пределах одного признака и должны быть отсортированы в случае числовые значения. Используемые категории можно найти в атрибуте ``categories_``. .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} или array-like формы (n_features,), default=None Определяет методологию для удаления одной из категорий на признак. Это полезно в ситуациях, когда идеально коллинеарные признаки вызывают проблемы, например, при передаче полученных данных в нерегуляризованную линейную регрессионную модель. Однако удаление одной категории нарушает симметрию исходной представление и, следовательно, может вызвать смещение в последующих моделях, например, для штрафных линейных моделей классификации или регрессии. - None : сохранить все признаки (по умолчанию). - 'first' : удалить первую категорию в каждом признаке. Если только одна если категория присутствует, признак будет полностью удалён. - 'if_binary' : удалить первую категорию в каждом признаке с двумя категории. Признаки с 1 или более чем 2 категориями являются оставлены без изменений. - array : ``drop[i]`` — это категория в признаке ``X[:, i]``, которая должны быть удалены. Когда `max_categories` или `min_frequency` настроены для группировки редкие категории, поведение отбрасывания обрабатывается после группировка. .. versionadded:: 0.21 Параметр `drop` был добавлен в версии 0.21. .. versionchanged:: 0.23 Опция `drop='if_binary'` была добавлена в версии 0.23. .. versionchanged:: 1.1 Поддержка удаления редких категорий.	None
	sparse_output sparse_output: bool, default=True Когда ``True``, возвращает :class:`scipy.sparse.csr_matrix`, т.е. разреженная матрица в формате "Compressed Sparse Row" (CSR). .. versionadded:: 1.2 `sparse` был переименован в `sparse_output`	False
	dtype dtype: number type, default=np.float64 Желаемый тип данных выходных данных.
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, default='error' Определяет способ обработки неизвестных категорий во время :meth:`transform`. - 'error': Вызвать ошибку, если во время преобразования присутствует неизвестная категория. - 'ignore' : Когда во время transform, результирующие one-hot кодированные столбцы для этого признака будут все нули. При обратном преобразовании неизвестная категория будет обозначаться как None. - 'infrequent_if_exist' : Когда встречается неизвестная категория во время преобразования, результирующие one-hot кодированные столбцы для этой признак будет отображаться в редкую категорию, если она существует. редкая категория будет отображена в последнюю позицию в кодировку. При обратном преобразовании неизвестная категория будет сопоставляется с категорией, обозначенной `'infrequent'`, если она существует. Если категория `'infrequent'` не существует, тогда :meth:`transform` и :meth:`inverse_transform` обработает неизвестную категорию как с `handle_unknown='ignore'`. Редкие категории существуют на основе `min_frequency` и `max_categories`. Подробнее в :ref:`Руководство пользователя `. - 'warn' : Когда во время преобразования встречается неизвестная категория выдается предупреждение, и кодирование затем продолжается, как описано для `handle_unknown="infrequent_if_exist"`. .. versionchanged:: 1.1 `'infrequent_if_exist'` был добавлен для автоматической обработки неизвестных категории и редкие категории. .. versionadded:: 1.6 Опция `"warn"` была добавлена в версии 1.6.	'ignore'
	min_frequency min_frequency: int или float, по умолчанию=None Определяет минимальную частоту, ниже которой категория будет считается редким. - Если `int`, категории с меньшей мощностью будут считаться редко. - Если `float`, категории с меньшей мощностью, чем `min_frequency * n_samples` будет считаться нечастым. .. versionadded:: 1.1 Подробнее в :ref:`Руководстве пользователя `.	None
	max_categories max_categories: int, default=None Задает верхний предел количества выходных признаков для каждого входного особенность при рассмотрении редких категорий. Если есть редкие категории, `max_categories` включает категорию, представляющую редкие категории вместе с частыми категориями. Если `None`, нет ограничения на количество выходных признаков. .. versionadded:: 1.1 Подробнее в :ref:`Руководстве пользователя `.	None
	feature_name_combiner feature_name_combiner: "concat" или callable, по умолчанию="concat" Вызываемый объект с сигнатурой `def callable(input_feature, category)`, который возвращает string. Используется для создания имен признаков, возвращаемых :meth:`get_feature_names_out`. `"concat"` объединяет закодированное имя признака и категорию с `feature + "_" + str(category)`. Например, признак X со значениями 1, 6, 7 создает имена признаков `X_1, X_6, X_7`. .. versionadded:: 1.3	'concat'

	преобразователи transformers: список кортежей Список кортежей (имя, transformer, столбцы), определяющих объекты трансформеров, которые должны быть применены к подмножествам данных. name : str Как и в Pipeline и FeatureUnion, это позволяет преобразователю и его параметры могут быть установлены с помощью ``set_params`` и найдены в сетке поиск. transformer: {'drop', 'passthrough'} или estimator Оценщик должен поддерживать :term:`fit` и :term:`transform`. Специальные строки 'drop' и 'passthrough' принимаются как хорошо, чтобы указать, удалить столбцы или пропустить их непреобразованные, соответственно. столбцы : str, массив строк, int, массив int, массив bool, срез или вызываемый объект Индексирует данные по второй оси. Целые числа интерпретируются как позиционные столбцы, в то время как строки могут ссылаться на столбцы DataFrame по имени. Скалярная строка или целое число должны использоваться там, где ``transformer`` ожидает, что X будет одномерным array-like (вектором), иначе в преобразователь будет передан двумерный массив. Вызываемый объект получает входные данные `X` и может возвращать любой из выше. Чтобы выбрать несколько столбцов по имени или типу данных, можно использовать :obj:`make_column_selector`.	[('ordinalencoder', ...)]
	остаток остаток: {'drop', 'passthrough'} или оценщик, по умолчанию='drop' По умолчанию только указанные столбцы в `transformers` являются преобразованы и объединены в выходных данных, а не указанные столбцы удаляются. (по умолчанию ``'drop'``). Указав ``remainder='passthrough'``, все оставшиеся столбцы, которые не были указаны в `transformers`, но присутствуют в переданных данных к `fit` будут автоматически переданы. Это подмножество столбцов объединяется с выходом преобразователей. Для датафреймов, дополнительные столбцы, не встречавшиеся во время `fit`, будут исключены из вывода `transform`. Установив ``remainder`` в качестве оценщика, оставшиеся неуказанные столбцы будут использовать оценщик ``remainder``. оценщик должен поддерживать :term:`fit` и :term:`transform`. Обратите внимание, что использование этой функции требует, чтобы столбцы DataFrame входные данные в :term:`fit` и :term:`transform` имеют одинаковый порядок.	'passthrough'
	sparse_threshold sparse_threshold: float, default=0.3 Если выход разных преобразователей содержит разреженные матрицы, они будут сложены в разреженную матрицу, если общая плотность составляет ниже этого значения. Используйте ``sparse_threshold=0``, чтобы всегда возвращать плотный. Когда преобразованный вывод состоит из всех плотных данных, результат будет плотным, и этот ключевой параметр будет проигнорирован.	0.3
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	transformer_weights transformer_weights: dict, по умолчанию=None Мультипликативные веса для признаков на трансформер. Выходные данные преобразователь умножается на эти веса. Ключи — это имена преобразователей, значения весов.	None
	verbose verbose: bool, default=False Если True, затраченное время на подгонку каждого трансформатора будет печатается по завершении.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str или Callable[[str, str], str], default=True - Если True, :meth:`ColumnTransformer.get_feature_names_out` добавит префикс все имена признаков с именем преобразователя, который их сгенерировал признак. Эквивалентно установке `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Если False, :meth:`ColumnTransformer.get_feature_names_out` не будет добавляет префикс к любым именам признаков и вызовет ошибку, если имена признаков отсутствуют уникальные. - Если ``Callable[[str, str], str]``, :meth:`ColumnTransformer.get_feature_names_out` переименует все признаки используя имя преобразователя. Первый аргумент вызываемого объекта - это имя трансформера и второй аргумент — имя признака. Возвращаемый строка будет новым именем признака. - Если ``str``, это должна быть строка, готовая к форматированию. Данная строка будет должны форматироваться с использованием двух имен полей: ``transformer_name`` и ``feature_name``. например, ``"{feature_name}__{transformer_name}"``. См. метод :meth:`str.format` из стандартной библиотеки для получения дополнительной информации. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` может быть вызываемым объектом или строкой для форматирования.	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Этот параметр не оказывает влияния. .. примечание:: Если вы не обращаетесь к списку столбцов для оставшихся столбцов в атрибуте `transformers_` после обучения, вам не нужно устанавливать этот параметр. .. versionadded:: 1.5 .. versionchanged:: 1.7 Значение по умолчанию для `force_int_remainder_cols` изменится с с `True` на `False` в версии 1.7. .. устарело:: 1.7 `force_int_remainder_cols` устарел и будет удалён в версии 1.9.	'устаревший'

	преобразователи transformers: список кортежей Список кортежей (имя, transformer, столбцы), определяющих объекты трансформеров, которые должны быть применены к подмножествам данных. name : str Как и в Pipeline и FeatureUnion, это позволяет преобразователю и его параметры могут быть установлены с помощью ``set_params`` и найдены в сетке поиск. transformer: {'drop', 'passthrough'} или estimator Оценщик должен поддерживать :term:`fit` и :term:`transform`. Специальные строки 'drop' и 'passthrough' принимаются как хорошо, чтобы указать, удалить столбцы или пропустить их непреобразованные, соответственно. столбцы : str, массив строк, int, массив int, массив bool, срез или вызываемый объект Индексирует данные по второй оси. Целые числа интерпретируются как позиционные столбцы, в то время как строки могут ссылаться на столбцы DataFrame по имени. Скалярная строка или целое число должны использоваться там, где ``transformer`` ожидает, что X будет одномерным array-like (вектором), иначе в преобразователь будет передан двумерный массив. Вызываемый объект получает входные данные `X` и может возвращать любой из выше. Чтобы выбрать несколько столбцов по имени или типу данных, можно использовать :obj:`make_column_selector`.	[('targetencoder', ...)]
	остаток остаток: {'drop', 'passthrough'} или оценщик, по умолчанию='drop' По умолчанию только указанные столбцы в `transformers` являются преобразованы и объединены в выходных данных, а не указанные столбцы удаляются. (по умолчанию ``'drop'``). Указав ``remainder='passthrough'``, все оставшиеся столбцы, которые не были указаны в `transformers`, но присутствуют в переданных данных к `fit` будут автоматически переданы. Это подмножество столбцов объединяется с выходом преобразователей. Для датафреймов, дополнительные столбцы, не встречавшиеся во время `fit`, будут исключены из вывода `transform`. Установив ``remainder`` в качестве оценщика, оставшиеся неуказанные столбцы будут использовать оценщик ``remainder``. оценщик должен поддерживать :term:`fit` и :term:`transform`. Обратите внимание, что использование этой функции требует, чтобы столбцы DataFrame входные данные в :term:`fit` и :term:`transform` имеют одинаковый порядок.	'passthrough'
	sparse_threshold sparse_threshold: float, default=0.3 Если выход разных преобразователей содержит разреженные матрицы, они будут сложены в разреженную матрицу, если общая плотность составляет ниже этого значения. Используйте ``sparse_threshold=0``, чтобы всегда возвращать плотный. Когда преобразованный вывод состоит из всех плотных данных, результат будет плотным, и этот ключевой параметр будет проигнорирован.	0.3
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	transformer_weights transformer_weights: dict, по умолчанию=None Мультипликативные веса для признаков на трансформер. Выходные данные преобразователь умножается на эти веса. Ключи — это имена преобразователей, значения весов.	None
	verbose verbose: bool, default=False Если True, затраченное время на подгонку каждого трансформатора будет печатается по завершении.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str или Callable[[str, str], str], default=True - Если True, :meth:`ColumnTransformer.get_feature_names_out` добавит префикс все имена признаков с именем преобразователя, который их сгенерировал признак. Эквивалентно установке `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Если False, :meth:`ColumnTransformer.get_feature_names_out` не будет добавляет префикс к любым именам признаков и вызовет ошибку, если имена признаков отсутствуют уникальные. - Если ``Callable[[str, str], str]``, :meth:`ColumnTransformer.get_feature_names_out` переименует все признаки используя имя преобразователя. Первый аргумент вызываемого объекта - это имя трансформера и второй аргумент — имя признака. Возвращаемый строка будет новым именем признака. - Если ``str``, это должна быть строка, готовая к форматированию. Данная строка будет должны форматироваться с использованием двух имен полей: ``transformer_name`` и ``feature_name``. например, ``"{feature_name}__{transformer_name}"``. См. метод :meth:`str.format` из стандартной библиотеки для получения дополнительной информации. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` может быть вызываемым объектом или строкой для форматирования.	True
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Этот параметр не оказывает влияния. .. примечание:: Если вы не обращаетесь к списку столбцов для оставшихся столбцов в атрибуте `transformers_` после обучения, вам не нужно устанавливать этот параметр. .. versionadded:: 1.5 .. versionchanged:: 1.7 Значение по умолчанию для `force_int_remainder_cols` изменится с с `True` на `False` в версии 1.7. .. устарело:: 1.7 `force_int_remainder_cols` устарел и будет удалён в версии 1.9.	'устаревший'

	категории categories: "auto" или список формы (n_features,) из array-like, по умолчанию="auto" Категории (уникальные значения) для каждого признака: - `"auto"` : Автоматически определять категории на основе обучающих данных. - список: `categories[i]` содержит категории, ожидаемые в i-м столбце. переданные категории не должны смешивать строки и числовые значения в одной признак, и должен быть отсортирован в случае числовых значений. Используемые категории хранятся в подогнанном атрибуте `categories_`.	'auto'
	target_type target_type: {"auto", "continuous", "binary", "multiclass"}, default="auto" Тип цели. - `"auto"` : Тип цели определяется с помощью :func:`~sklearn.utils.multiclass.type_of_target`. - `"continuous"` : Непрерывная целевая переменная - `"binary"` : Бинарная целевая переменная - `"multiclass"` : Многоклассовая целевая переменная .. примечание:: Тип целевой переменной, выведенный с помощью `"auto"`, может не соответствовать желаемой цели тип, используемый для моделирования. Например, если целевая переменная состояла из целых чисел между 0 и 100, тогда :func:`~sklearn.utils.multiclass.type_of_target` будет определять цель как `"multiclass"`. В этом случае, установка `target_type="continuous"` задаст цель как регрессию задача. Атрибут `target_type_` указывает тип цели, используемый кодировщик. .. versionchanged:: 1.4 Добавлена опция 'multiclass'.	'continuous'
	сглаживать smooth: "auto" или float, default="auto" Степень смешивания среднего целевого значения, обусловленного значением категорию с глобальным средним целевой переменной. Большее значение `smooth` будет помещать больший вес на глобальное среднее целевой переменной. Если `"auto"`, то `smooth` устанавливается в эмпирическую байесовскую оценку.	'auto'
	cv cv: int, по умолчанию=5 Определяет количество фолдов в стратегии :term:`перекрестного обучения`, используемой в :meth:`fit_transform`. Для целевых переменных классификации используется `StratifiedKFold` а для непрерывных целевых переменных используется `KFold`.	5
	перемешивание shuffle: bool, default=True Перемешивать ли данные в :meth:`fit_transform` перед разделением на фолдов. Обратите внимание, что образцы внутри каждого разбиения не будут перемешаны.	True
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Когда `shuffle` равен True, `random_state` влияет на порядок индексы, которые контролируют случайность каждого сгиба. В противном случае это параметр не имеет эффекта. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	42

Поддержка категориальных признаков в градиентном бустинге#

Загрузить набор данных Ames Housing#

Оценщик градиентного бустинга с отброшенными категориальными признаками#

Оценщик градиентного бустинга с one-hot кодированием#

Оценщик градиентного бустинга с порядковым кодированием#

Оценщик градиентного бустинга с кодированием целевой переменной#

Оценщик градиентного бустинга с нативной поддержкой категориальных признаков#

Сравнение моделей#

Ограничение количества разбиений#

Эта страница