Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Преобразования признаков с ансамблями деревьев#

Преобразуйте ваши признаки в пространство более высокой размерности с разреженной структурой. Затем обучите линейную модель на этих признаках.

Сначала обучите ансамбль деревьев (полностью случайные деревья, случайный лес или градиентный бустинг деревьев) на обучающем наборе. Затем каждому листу каждого дерева в ансамбле присваивается фиксированный произвольный индекс признака в новом пространстве признаков. Эти индексы листьев затем кодируются в формате one-hot.

Каждая выборка проходит через решения каждого дерева ансамбля и оказывается в одном листе на дерево. Выборка кодируется установкой значений признаков для этих листьев в 1, а других значений признаков в 0.

Полученный преобразователь затем изучил контролируемое, разреженное, высокомерное категориальное представление данных.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Сначала создадим большой набор данных и разделим его на три части:

набор для обучения ансамблевых методов, которые впоследствии используются как преобразователь инженерии признаков;
набор для обучения линейной модели;
набор для тестирования линейной модели.

Важно разделить данные таким образом, чтобы избежать переобучения из-за утечки данных.

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(n_samples=80_000, random_state=10)

X_full_train, X_test, y_full_train, y_test = train_test_split(
    X, y, test_size=0.5, random_state=10
)
X_train_ensemble, X_train_linear, y_train_ensemble, y_train_linear = train_test_split(
    X_full_train, y_full_train, test_size=0.5, random_state=10
)

Для каждого из ансамблевых методов мы будем использовать 10 оценщиков и максимальную глубину в 3 уровня.

n_estimators = 10
max_depth = 3

Сначала мы начнем с обучения случайного леса и градиентного бустинга на отдельном тренировочном наборе

from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier

random_forest = RandomForestClassifier(
    n_estimators=n_estimators, max_depth=max_depth, random_state=10
)
random_forest.fit(X_train_ensemble, y_train_ensemble)

gradient_boosting = GradientBoostingClassifier(
    n_estimators=n_estimators, max_depth=max_depth, random_state=10
)
_ = gradient_boosting.fit(X_train_ensemble, y_train_ensemble)

Обратите внимание, что HistGradientBoostingClassifier значительно быстрее, чем GradientBoostingClassifier начиная с промежуточных наборов данных (n_samples >= 10_000), что не относится к данному примеру.

The RandomTreesEmbedding является неконтролируемым методом и поэтому не требует независимого обучения.

from sklearn.ensemble import RandomTreesEmbedding

random_tree_embedding = RandomTreesEmbedding(
    n_estimators=n_estimators, max_depth=max_depth, random_state=0
)

Теперь мы создадим три конвейера, которые будут использовать указанное выше вложение как этап предварительной обработки.

Случайное вложение деревьев может быть напрямую объединено в конвейер с логистической регрессией, поскольку это стандартный преобразователь scikit-learn.

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

rt_model = make_pipeline(random_tree_embedding, LogisticRegression(max_iter=1000))
rt_model.fit(X_train_linear, y_train_linear)

Pipeline(steps=[('randomtreesembedding',
                 RandomTreesEmbedding(max_depth=3, n_estimators=10,
                                      random_state=0)),
                ('logisticregression', LogisticRegression(max_iter=1000))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Затем мы можем объединить случайный лес или градиентный бустинг с логистической регрессией в конвейер. Однако преобразование признаков будет происходить при вызове метода applyКонвейер в scikit-learn ожидает вызов transform. Поэтому мы обернули вызов apply внутри FunctionTransformer.

from sklearn.preprocessing import FunctionTransformer, OneHotEncoder


def rf_apply(X, model):
    return model.apply(X)


rf_leaves_yielder = FunctionTransformer(rf_apply, kw_args={"model": random_forest})

rf_model = make_pipeline(
    rf_leaves_yielder,
    OneHotEncoder(handle_unknown="ignore"),
    LogisticRegression(max_iter=1000),
)
rf_model.fit(X_train_linear, y_train_linear)

Pipeline(steps=[('functiontransformer',
                 FunctionTransformer(func=,
                                     kw_args={'model': RandomForestClassifier(max_depth=3,
                                                                              n_estimators=10,
                                                                              random_state=10)})),
                ('onehotencoder', OneHotEncoder(handle_unknown='ignore')),
                ('logisticregression', LogisticRegression(max_iter=1000))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

def gbdt_apply(X, model):
    return model.apply(X)[:, :, 0]


gbdt_leaves_yielder = FunctionTransformer(
    gbdt_apply, kw_args={"model": gradient_boosting}
)

gbdt_model = make_pipeline(
    gbdt_leaves_yielder,
    OneHotEncoder(handle_unknown="ignore"),
    LogisticRegression(max_iter=1000),
)
gbdt_model.fit(X_train_linear, y_train_linear)

Pipeline(steps=[('functiontransformer',
                 FunctionTransformer(func=,
                                     kw_args={'model': GradientBoostingClassifier(n_estimators=10,
                                                                                  random_state=10)})),
                ('onehotencoder', OneHotEncoder(handle_unknown='ignore')),
                ('logisticregression', LogisticRegression(max_iter=1000))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Наконец мы можем показать различные ROC-кривые для всех моделей.

import matplotlib.pyplot as plt

from sklearn.metrics import RocCurveDisplay

_, ax = plt.subplots()

models = [
    ("RT embedding -> LR", rt_model),
    ("RF", random_forest),
    ("RF embedding -> LR", rf_model),
    ("GBDT", gradient_boosting),
    ("GBDT embedding -> LR", gbdt_model),
]

model_displays = {}
for name, pipeline in models:
    model_displays[name] = RocCurveDisplay.from_estimator(
        pipeline, X_test, y_test, ax=ax, name=name
    )
_ = ax.set_title("ROC curve")

_, ax = plt.subplots()
for name, pipeline in models:
    model_displays[name].plot(ax=ax)

ax.set_xlim(0, 0.2)
ax.set_ylim(0.8, 1)
_ = ax.set_title("ROC curve (zoomed in at top left)")

Общее время выполнения скрипта: (0 минут 2.373 секунды)

Связанные примеры

Обучение многообразию на рукописных цифрах: Locally Linear Embedding, Isomap…

Обучение многообразию на рукописных цифрах: Локально линейное вложение, Isomap...

Регрессия дерева решений

Основные нововведения в выпуске scikit-learn 0.22

Сравнение моделей случайных лесов и градиентного бустинга на гистограммах

Галерея, созданная Sphinx-Gallery

	шаги steps: список кортежей Список кортежей (имя шага, оценщик), которые должны быть соединены в цепочку последовательный порядок. Для совместимости с API scikit-learn, все шаги должен определять `fit`. Все не последние шаги также должны определять `transform`. См. :ref:`Комбинирование оценщиков ` для получения дополнительной информации.	[('randomtreesembedding', ...), ('logisticregression', ...)]
	transform_input transform_input: list of str, default=None Имена параметров :term:`metadata`, которые должны быть преобразованы конвейер перед передачей его шагу, который его потребляет. Это позволяет преобразовывать некоторые входные аргументы для ``fit`` (кроме ``X``) для преобразования шагами конвейера до шага, который требует их. Требование определяется через :ref:`маршрутизацию метаданных `. Например, это можно использовать для передачи набора валидации через конвейер. Вы можете установить это только если включена маршрутизация метаданных, что вы можно включить, используя ``sklearn.set_config(enable_metadata_routing=True)``. .. versionadded:: 1.6	None
	память memory: строка или объект с интерфейсом joblib.Memory, по умолчанию=None Используется для кэширования обученных трансформеров конвейера. Последний шаг никогда не будет кэшироваться, даже если это трансформер. По умолчанию, никакие кэширование выполняется. Если задана строка, это путь к директория кэширования. Включение кэширования запускает клонирование преобразователей перед обучением. Следовательно, экземпляр трансформатора, переданный в конвейер не может быть проверен напрямую. Используйте атрибут `named_steps` или ``steps`` для проверки оценщиков внутри конвейера. Кэширование трансформеры выгодны, когда подгонка занимает много времени. См. :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` для примера о том, как включить кэширование.	None
	verbose verbose: bool, default=False Если True, затраченное время на обучение каждого шага будет выводиться по мере его выполнения. завершено.	False

	n_estimators n_estimators: int, default=100 Количество деревьев в лесу. .. versionchanged:: 0.22 Значение по умолчанию для ``n_estimators`` изменилось с 10 на 100 в 0.22.	10
	max_depth max_depth: int, по умолчанию=5 Максимальная глубина каждого дерева. Если None, то узлы расширяются до тех пор, пока все листья чисты или пока все листья содержат менее min_samples_split выборок.	3
	min_samples_split min_samples_split: int или float, по умолчанию=2 Минимальное количество образцов, необходимое для разделения внутреннего узла: - Если int, то рассматривать `min_samples_split` как минимальное количество. - Если float, то `min_samples_split` является дробью и `ceil(min_samples_split * n_samples)` является минимальным количество образцов для каждого разбиения. .. versionchanged:: 0.18 Добавлены дробные значения.	2
	min_samples_leaf min_samples_leaf: int или float, default=1 Минимальное количество образцов, требуемое для узла листа. Точка разделения на любой глубине будет рассматриваться только если она оставляет хотя бы не менее ``min_samples_leaf`` обучающих выборок в каждой из левой и правые ветви. Это может сгладить модель, особенно в регрессии. - Если int, то рассматривайте `min_samples_leaf` как минимальное количество. - Если float, то `min_samples_leaf` является долей и `ceil(min_samples_leaf * n_samples)` — это минимальное количество выборок для каждого узла. .. versionchanged:: 0.18 Добавлены дробные значения.	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, по умолчанию=0.0 Минимальная взвешенная доля от общей суммы весов (всех входных образцов), требуемых для нахождения в листовом узле. Образцы имеют равный вес, когда sample_weight не предоставлен.	0.0
	max_leaf_nodes max_leaf_nodes: int, по умолчанию=None Выращивайте деревья с ``max_leaf_nodes`` в порядке лучшего-первого. Лучшие узлы определяются как относительное снижение нечистоты. Если None, то неограниченное количество листовых узлов.	None
	min_impurity_decrease min_impurity_decrease: float, default=0.0 Узел будет разделен, если это разделение вызывает уменьшение неоднородности больше или равно этому значению. Уравнение взвешенного уменьшения примесей выглядит следующим образом:: N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) где ``N`` — общее количество образцов, ``N_t`` — количество образцов в текущем узле, ``N_t_L`` - количество образцов в левый дочерний узел, и ``N_t_R`` — количество образцов в правом дочернем узле. ``N``, ``N_t``, ``N_t_R`` и ``N_t_L`` все относятся к взвешенной сумме, если передан ``sample_weight``. .. versionadded:: 0.19	0.0
	sparse_output sparse_output: bool, default=True Возвращать ли разреженную CSR-матрицу, как поведение по умолчанию, или возвращать плотный массив, совместимый с плотными операторами конвейера.	True
	n_jobs n_jobs: int, default=None Количество задач для параллельного выполнения. :meth:`fit`, :meth:`transform`, :meth:`decision_path` и :meth:`apply` все параллелизованы по деревьев. ``None`` означает 1, если не в :obj:`joblib.parallel_backend` контекст. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет генерацией случайного `y`, используемого для обучения деревьев и выбор разделений для каждого признака в узлах деревьев. См. :term:`Глоссарий ` для деталей.	0
	verbose verbose: int, по умолчанию=0 Управляет подробностью вывода при обучении и предсказании.	0
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль, в противном случае просто обучите весь новый лес. См. :term:`Глоссарий ` и :ref:`tree_ensemble_warm_start` для деталей.	False

	штраф penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Укажите норму штрафа: - `None`: штраф не добавляется; - `'l2'`: добавляет штрафной член L2 и является выбором по умолчанию; - `'l1'`: добавить штрафной член L1; - `'elasticnet'`: добавляются как L1, так и L2 штрафные члены. .. предупреждение:: Некоторые штрафы могут не работать с некоторыми решателями. См. параметр `solver` ниже, чтобы узнать совместимость между штрафом и решатель. .. versionadded:: 0.19 штраф l1 с решателем SAGA (разрешающий 'multinomial' + L1) .. устарело:: 1.8 `penalty` устарел в версии 1.8 и будет удален в 1.10. Используйте `l1_ratio` вместо этого. `l1_ratio=0` для `penalty='l2'`, `l1_ratio=1` для `penalty='l1'` и `l1_ratio`, установленный в любое число с плавающей запятой от 0 до 1 для `'penalty='elasticnet'`.	'устаревший'
	C C: float, default=1.0 Обратная величина силы регуляризации; должно быть положительным числом с плавающей точкой. Как и в машинах опорных векторов, меньшие значения указывают на более сильное регуляризация. `C=np.inf` приводит к нештрафуемой логистической регрессии. Для визуального примера эффекта настройки параметра `C` с L1-штрафом, см.: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.	1.0
	l1_ratio l1_ratio: float, default=0.0 Параметр смешивания Elastic-Net, где `0 <= l1_ratio <= 1`. Установка `l1_ratio=1` даёт чистое L1-штрафование, установка `l1_ratio=0` — чистое L2-штрафование. Любое значение между 0 и 1 дает штраф Elastic-Net вида `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. предупреждение:: Некоторые значения `l1_ratio`, т.е. некоторые штрафы, могут не работать с некоторыми решатели. См. параметр `solver` ниже, чтобы узнать совместимость между штраф и решатель. .. versionchanged:: 1.8 Значение по умолчанию изменено с None на 0.0. .. устарело:: 1.8 `None` устарел и будет удален в версии 1.10. Всегда используйте `l1_ratio` для указания типа штрафа.	0.0
	dual dual: bool, по умолчанию=False Двойственная (ограниченная) или прямая (регуляризованная, см. также :ref:`это уравнение `) формулировка. Двойственная формулировка реализован только для штрафа l2 с решателем liblinear. Предпочтительнее `dual=False` когда n_samples > n_features.	False
	tol tol: float, default=1e-4 Допуск для критериев остановки.	0.0001
	fit_intercept fit_intercept: bool, по умолчанию=True Указывает, должна ли быть добавлена константа (также называемая смещением или перехватом) добавлено в функцию принятия решений.	True
	intercept_scaling intercept_scaling: float, по умолчанию=1 Полезно только при использовании решателя `liblinear` и `self.fit_intercept` установлен в `True`. В этом случае `x` становится `[x, self.intercept_scaling]`, т.е. "синтетический" признак с постоянным значением, равным `intercept_scaling` добавляется к вектору экземпляра. Интерсепт становится ``intercept_scaling * synthetic_feature_weight``. .. примечание:: Вес синтетического признака подчиняется L1 или L2 регуляризация, как и все остальные признаки. Чтобы уменьшить влияние регуляризации на вес синтетического признака (и, следовательно, на intercept) `intercept_scaling` должен быть увеличен.	1
	class_weight class_weight: dict или 'balanced', по умолчанию=None Веса, связанные с классами, в форме ``{class_label: weight}``. Если не указано, предполагается, что все классы имеют вес один. Режим "balanced" использует значения y для автоматической настройки веса, обратно пропорциональные частотам классов во входных данных как ``n_samples / (n_classes * np.bincount(y))``. Обратите внимание, что эти веса будут умножены на sample_weight (переданный через метод fit), если указан sample_weight. .. versionadded:: 0.17 результаты	None
	random_state random_state: int, RandomState instance, default=None Используется, когда ``solver`` == 'sag', 'saga' или 'liblinear' для перемешивания данные. См.: термин `Glossary ` для деталей.	None
	solver solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, по умолчанию='lbfgs' Алгоритм для использования в задаче оптимизации. По умолчанию 'lbfgs'. Для выбора решателя вы можете рассмотреть следующие аспекты: - 'lbfgs' - хороший решатель по умолчанию, так как он достаточно хорошо работает для широкого класс проблем. - Для :term:`многоклассовых` задач (`n_classes >= 3`), все решатели, кроме 'liblinear' минимизирует полную мультиномиальную потерю, 'liblinear' вызовет ошибка. - 'newton-cholesky' является хорошим выбором для `n_samples` >> `n_features * n_classes`, особенно при one-hot кодировании категориальные признаки с редкими категориями. Учтите, что использование памяти этого решателя имеет квадратичную зависимость от `n_features * n_classes` поскольку он явно вычисляет полную матрицу Гессе. - Для небольших наборов данных 'liblinear' является хорошим выбором, тогда как 'sag' и 'saga' быстрее для больших; - 'liblinear' по умолчанию может обрабатывать только бинарную классификацию. Чтобы применить схему один-против-всех для многоклассовой настройки можно обернуть с помощью :class:`~sklearn.multiclass.OneVsRestClassifier`. .. предупреждение:: Выбор алгоритма зависит от выбранного штрафа (`l1_ratio=0` для L2-штрафа, `l1_ratio=1` для L1-штрафа и `0 < l1_ratio < 1` для Elastic-Net) и на (мультиномиальной) многоклассовой поддержке: ================= ======================== ====================== solver l1_ratio multinomial multiclass ================= ======================== ====================== 'lbfgs' l1_ratio=0 да 'liblinear' l1_ratio=1 или l1_ratio=0 нет 'newton-cg' l1_ratio=0 да 'newton-cholesky' l1_ratio=0 да 'sag' l1_ratio=0 да 'saga' 0<=l1_ratio<=1 да ================= ======================== ====================== .. примечание:: 'sag' и 'saga' быстрая сходимость гарантируется только для признаков с примерно одинаковым масштабом. Вы можете предобработать данные с помощью скейлер из :mod:`sklearn.preprocessing`. .. см. также:: См. :ref:`Руководство пользователя ` для дополнительной информации информация о :class:`LogisticRegression` и, в частности, о :ref:`Таблица ` обобщение поддержки решателя/штрафа. .. versionadded:: 0.17 Решатель стохастического среднего градиента (SAG). Поддержка мультиномиального распределения в версия 0.18. .. versionadded:: 0.19 SAGA solver. .. versionchanged:: 0.22 Стандартный решатель изменился с 'liblinear' на 'lbfgs' в версии 0.22. .. versionadded:: 1.2 newton-cholesky решатель. Поддержка мультиномиальной версии в версии 1.6.	'lbfgs'
	max_iter max_iter: int, по умолчанию=100 Максимальное количество итераций, выполняемых решателями для сходимости.	1000
	verbose verbose: int, по умолчанию=0 Для решателей liblinear и lbfgs установите verbose в любое положительное число для уровня детализации вывода.	0
	warm_start warm_start: bool, default=False При установке в True повторно использовать решение предыдущего вызова fit в качестве инициализация, в противном случае просто удалить предыдущее решение. Бесполезно для решателя liblinear. См.: термин `the Glossary `. .. versionadded:: 0.17 warm_start для поддержки решателей lbfgs, newton-cg, sag, saga.	False
	n_jobs n_jobs: int, default=None Не оказывает никакого эффекта. .. устарело:: 1.8 `n_jobs` устарел в версии 1.8 и будет удален в 1.10.	None

	шаги steps: список кортежей Список кортежей (имя шага, оценщик), которые должны быть соединены в цепочку последовательный порядок. Для совместимости с API scikit-learn, все шаги должен определять `fit`. Все не последние шаги также должны определять `transform`. См. :ref:`Комбинирование оценщиков ` для получения дополнительной информации.	[('functiontransformer', ...), ('onehotencoder', ...), ...]
	transform_input transform_input: list of str, default=None Имена параметров :term:`metadata`, которые должны быть преобразованы конвейер перед передачей его шагу, который его потребляет. Это позволяет преобразовывать некоторые входные аргументы для ``fit`` (кроме ``X``) для преобразования шагами конвейера до шага, который требует их. Требование определяется через :ref:`маршрутизацию метаданных `. Например, это можно использовать для передачи набора валидации через конвейер. Вы можете установить это только если включена маршрутизация метаданных, что вы можно включить, используя ``sklearn.set_config(enable_metadata_routing=True)``. .. versionadded:: 1.6	None
	память memory: строка или объект с интерфейсом joblib.Memory, по умолчанию=None Используется для кэширования обученных трансформеров конвейера. Последний шаг никогда не будет кэшироваться, даже если это трансформер. По умолчанию, никакие кэширование выполняется. Если задана строка, это путь к директория кэширования. Включение кэширования запускает клонирование преобразователей перед обучением. Следовательно, экземпляр трансформатора, переданный в конвейер не может быть проверен напрямую. Используйте атрибут `named_steps` или ``steps`` для проверки оценщиков внутри конвейера. Кэширование трансформеры выгодны, когда подгонка занимает много времени. См. :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` для примера о том, как включить кэширование.	None
	verbose verbose: bool, default=False Если True, затраченное время на обучение каждого шага будет выводиться по мере его выполнения. завершено.	False

	функция func: вызываемый объект, по умолчанию=None Вызываемый объект для использования в преобразовании. Он будет передан те же аргументы, что и transform, с переадресованными args и kwargs. Если func равен None, то func будет тождественной функцией.
	inverse_func inverse_func: вызываемый объект, по умолчанию=None Вызываемый объект для использования при обратном преобразовании. Это будет передаются те же аргументы, что и для обратного преобразования, с args и kwargs переданы. Если inverse_func равно None, то inverse_func будет тождественной функцией.	None
	проверять validate: bool, default=False Указывает, что входной массив X должен быть проверен перед вызовом ``func``. Возможности: - Если False, проверка входных данных не выполняется. - Если True, то X будет преобразован в двумерный массив NumPy или разреженная матрица. Если преобразование невозможно, возникает исключение вызвано. .. versionchanged:: 0.22 Значение по умолчанию для ``validate`` изменилось с True на False.	False
	accept_sparse accept_sparse: bool, по умолчанию=False Указывает, что функция принимает разреженную матрицу на вход. Если validate False, это не имеет эффекта. В противном случае, если accept_sparse равен false, разреженные матричные входные данные вызовут исключение.	False
	check_inverse check_inverse: bool, default=True Проверять ли, что ``func``, за которой следует ``inverse_func``, приводит к исходные входные данные. Это можно использовать для проверки корректности, вызывая предупреждение, когда условие не выполняется. .. versionadded:: 0.20	True
	feature_names_out feature_names_out: вызываемый объект, 'one-to-one' или None, по умолчанию=None Определяет список имен признаков, которые будут возвращены метод `get_feature_names_out`. Если он 'one-to-one', то выход имена признаков будут равны входным именам признаков. Если это callable, то он должен принимать два позиционных аргумента: этот `FunctionTransformer` (`self`) и массивоподобный список имен входных признаков (`input_features`). Он должен возвращать массивоподобный объект выходных признаков имена. Метод `get_feature_names_out` определен только если `feature_names_out` не равен None. См. ``get_feature_names_out`` для более подробной информации. .. versionadded:: 1.1	None
	kw_args kw_args: dict, default=None Словарь дополнительных ключевых аргументов для передачи в func. .. versionadded:: 0.18	{'model': RandomForestC...ndom_state=10)}
	inv_kw_args inv_kw_args: dict, default=None Словарь дополнительных ключевых аргументов для передачи в inverse_func. .. versionadded:: 0.18	None

	категории категории: 'auto' или список массивоподобных объектов, по умолчанию='auto' Категории (уникальные значения) для каждого признака: - 'auto' : Автоматически определять категории из обучающих данных. - список: ``categories[i]`` содержит категории, ожидаемые в i-м столбец. Переданные категории не должны смешивать строки и числа значения в пределах одного признака и должны быть отсортированы в случае числовые значения. Используемые категории можно найти в атрибуте ``categories_``. .. versionadded:: 0.20	'auto'
	drop drop: {'first', 'if_binary'} или array-like формы (n_features,), default=None Определяет методологию для удаления одной из категорий на признак. Это полезно в ситуациях, когда идеально коллинеарные признаки вызывают проблемы, например, при передаче полученных данных в нерегуляризованную линейную регрессионную модель. Однако удаление одной категории нарушает симметрию исходной представление и, следовательно, может вызвать смещение в последующих моделях, например, для штрафных линейных моделей классификации или регрессии. - None : сохранить все признаки (по умолчанию). - 'first' : удалить первую категорию в каждом признаке. Если только одна если категория присутствует, признак будет полностью удалён. - 'if_binary' : удалить первую категорию в каждом признаке с двумя категории. Признаки с 1 или более чем 2 категориями являются оставлены без изменений. - array : ``drop[i]`` — это категория в признаке ``X[:, i]``, которая должны быть удалены. Когда `max_categories` или `min_frequency` настроены для группировки редкие категории, поведение отбрасывания обрабатывается после группировка. .. versionadded:: 0.21 Параметр `drop` был добавлен в версии 0.21. .. versionchanged:: 0.23 Опция `drop='if_binary'` была добавлена в версии 0.23. .. versionchanged:: 1.1 Поддержка удаления редких категорий.	None
	sparse_output sparse_output: bool, default=True Когда ``True``, возвращает :class:`scipy.sparse.csr_matrix`, т.е. разреженная матрица в формате "Compressed Sparse Row" (CSR). .. versionadded:: 1.2 `sparse` был переименован в `sparse_output`	True
	dtype dtype: number type, default=np.float64 Желаемый тип данных выходных данных.
	handle_unknown handle_unknown: {'error', 'ignore', 'infrequent_if_exist', 'warn'}, default='error' Определяет способ обработки неизвестных категорий во время :meth:`transform`. - 'error': Вызвать ошибку, если во время преобразования присутствует неизвестная категория. - 'ignore' : Когда во время transform, результирующие one-hot кодированные столбцы для этого признака будут все нули. При обратном преобразовании неизвестная категория будет обозначаться как None. - 'infrequent_if_exist' : Когда встречается неизвестная категория во время преобразования, результирующие one-hot кодированные столбцы для этой признак будет отображаться в редкую категорию, если она существует. редкая категория будет отображена в последнюю позицию в кодировку. При обратном преобразовании неизвестная категория будет сопоставляется с категорией, обозначенной `'infrequent'`, если она существует. Если категория `'infrequent'` не существует, тогда :meth:`transform` и :meth:`inverse_transform` обработает неизвестную категорию как с `handle_unknown='ignore'`. Редкие категории существуют на основе `min_frequency` и `max_categories`. Подробнее в :ref:`Руководство пользователя `. - 'warn' : Когда во время преобразования встречается неизвестная категория выдается предупреждение, и кодирование затем продолжается, как описано для `handle_unknown="infrequent_if_exist"`. .. versionchanged:: 1.1 `'infrequent_if_exist'` был добавлен для автоматической обработки неизвестных категории и редкие категории. .. versionadded:: 1.6 Опция `"warn"` была добавлена в версии 1.6.	'ignore'
	min_frequency min_frequency: int или float, по умолчанию=None Определяет минимальную частоту, ниже которой категория будет считается редким. - Если `int`, категории с меньшей мощностью будут считаться редко. - Если `float`, категории с меньшей мощностью, чем `min_frequency * n_samples` будет считаться нечастым. .. versionadded:: 1.1 Подробнее в :ref:`Руководстве пользователя `.	None
	max_categories max_categories: int, default=None Задает верхний предел количества выходных признаков для каждого входного особенность при рассмотрении редких категорий. Если есть редкие категории, `max_categories` включает категорию, представляющую редкие категории вместе с частыми категориями. Если `None`, нет ограничения на количество выходных признаков. .. versionadded:: 1.1 Подробнее в :ref:`Руководстве пользователя `.	None
	feature_name_combiner feature_name_combiner: "concat" или callable, по умолчанию="concat" Вызываемый объект с сигнатурой `def callable(input_feature, category)`, который возвращает string. Используется для создания имен признаков, возвращаемых :meth:`get_feature_names_out`. `"concat"` объединяет закодированное имя признака и категорию с `feature + "_" + str(category)`. Например, признак X со значениями 1, 6, 7 создает имена признаков `X_1, X_6, X_7`. .. versionadded:: 1.3	'concat'

Преобразования признаков с ансамблями деревьев#

Эта страница