Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Важность перестановок против важности признаков случайного леса (MDI)#

В этом примере мы сравним важность признаков на основе нечистоты для RandomForestClassifier с перестановочной важностью на наборе данных Titanic с использованием permutation_importance. Мы покажем, что важность признаков на основе нечистоты может завышать важность числовых признаков.

Кроме того, важность признаков на основе неопределенности в случайных лесах страдает от того, что вычисляется на статистиках, полученных из обучающего набора данных: важности могут быть высокими даже для признаков, не предсказывающих целевую переменную, пока модель имеет возможность использовать их для переобучения.

Этот пример показывает, как использовать Перестановочные важности в качестве альтернативы, которая может смягчить эти ограничения.

Ссылки

Л. Брейман, «Случайные леса», Машинное обучение, 45(1), 5-32, 2001.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Загрузка данных и проектирование признаков#

Давайте используем pandas для загрузки копии набора данных Titanic. Ниже показано, как применять отдельную предобработку к числовым и категориальным признакам.

Мы дополнительно включаем две случайные переменные, которые никак не коррелируют с целевой переменной (survived):

random_num является числовой переменной с высокой мощностью (столько же уникальных значений, сколько записей).
random_cat является категориальной переменной с низкой кардинальностью (3 возможных значения).

import numpy as np

from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

X, y = fetch_openml("titanic", version=1, as_frame=True, return_X_y=True)
rng = np.random.RandomState(seed=42)
X["random_cat"] = rng.randint(3, size=X.shape[0])
X["random_num"] = rng.randn(X.shape[0])

categorical_columns = ["pclass", "sex", "embarked", "random_cat"]
numerical_columns = ["age", "sibsp", "parch", "fare", "random_num"]

X = X[categorical_columns + numerical_columns]
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

Мы определяем прогнозную модель на основе случайного леса. Поэтому мы выполним следующие шаги предобработки:

использовать OrdinalEncoder для кодирования категориальных признаков;
использовать SimpleImputer для заполнения пропущенных значений числовых признаков с использованием стратегии среднего.

from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OrdinalEncoder

categorical_encoder = OrdinalEncoder(
    handle_unknown="use_encoded_value", unknown_value=-1, encoded_missing_value=-1
)
numerical_pipe = SimpleImputer(strategy="mean")

preprocessing = ColumnTransformer(
    [
        ("cat", categorical_encoder, categorical_columns),
        ("num", numerical_pipe, numerical_columns),
    ],
    verbose_feature_names_out=False,
)

rf = Pipeline(
    [
        ("preprocess", preprocessing),
        ("classifier", RandomForestClassifier(random_state=42)),
    ]
)
rf.fit(X_train, y_train)

Pipeline(steps=[('preprocess',
                 ColumnTransformer(transformers=[('cat',
                                                  OrdinalEncoder(encoded_missing_value=-1,
                                                                 handle_unknown='use_encoded_value',
                                                                 unknown_value=-1),
                                                  ['pclass', 'sex', 'embarked',
                                                   'random_cat']),
                                                 ('num', SimpleImputer(),
                                                  ['age', 'sibsp', 'parch',
                                                   'fare', 'random_num'])],
                                   verbose_feature_names_out=False)),
                ('classifier', RandomForestClassifier(random_state=42))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Точность модели#

Перед изучением важности признаков важно убедиться, что прогностическая производительность модели достаточно высока. Действительно, изучение важных признаков непрогностической модели представляет мало интереса.

print(f"RF train accuracy: {rf.score(X_train, y_train):.3f}")
print(f"RF test accuracy: {rf.score(X_test, y_test):.3f}")

RF train accuracy: 1.000
RF test accuracy: 0.814

Здесь можно заметить, что точность обучения очень высока (модель леса имеет достаточную емкость, чтобы полностью запомнить обучающий набор), но она все еще может достаточно хорошо обобщаться на тестовый набор благодаря встроенной бэггингу случайных лесов.

Возможно, можно пожертвовать некоторой точностью на обучающем наборе для немного лучшей точности на тестовом наборе, ограничив ёмкость деревьев (например, установив min_samples_leaf=5 или min_samples_leaf=10) для ограничения переобучения, не внося при этом слишком сильного недообучения.

Однако давайте пока оставим нашу модель случайного леса с высокой емкостью, чтобы проиллюстрировать некоторые подводные камни важности признаков для переменных со многими уникальными значениями.

Важность признаков дерева на основе среднего уменьшения неоднородности (MDI)#

Важность признаков на основе примесей ранжирует числовые признаки как наиболее важные. В результате, непредсказательные random_num Переменная признана одной из наиболее важных признаков!

Эта проблема возникает из-за двух ограничений важности признаков на основе нечистоты:

важности на основе нечистоты смещены в сторону признаков с высокой кардинальностью;
важности на основе примесей вычисляются на статистиках обучающего набора и поэтому не отражают способность признака быть полезным для прогнозирования, которое обобщается на тестовый набор (когда модель имеет достаточную емкость).

Смещение в сторону признаков с высокой кардинальностью объясняет, почему random_num имеет очень большое значение по сравнению с random_cat в то время как мы бы ожидали, что оба случайных признака имеют нулевую важность.

Тот факт, что мы используем статистику обучающей выборки, объясняет, почему оба random_num и random_cat признаки имеют ненулевую важность.

import pandas as pd

feature_names = rf[:-1].get_feature_names_out()

mdi_importances = pd.Series(
    rf[-1].feature_importances_, index=feature_names
).sort_values(ascending=True)

ax = mdi_importances.plot.barh()
ax.set_title("Random Forest Feature Importances (MDI)")
ax.figure.tight_layout()

В качестве альтернативы, перестановочные важности rf вычисляются на отложенном тестовом наборе. Это показывает, что категориальный признак с низкой кардинальностью, sex и pclass являются наиболее важными признаками. Действительно, перестановка значений этих признаков приведет к наибольшему снижению точности модели на тестовом наборе.

Также обратите внимание, что обе случайные признаки имеют очень низкую важность (близко к 0), как и ожидалось.

from sklearn.inspection import permutation_importance

result = permutation_importance(
    rf, X_test, y_test, n_repeats=10, random_state=42, n_jobs=2
)

sorted_importances_idx = result.importances_mean.argsort()
importances = pd.DataFrame(
    result.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)
ax = importances.plot.box(vert=False, whis=10)
ax.set_title("Permutation Importances (test set)")
ax.axvline(x=0, color="k", linestyle="--")
ax.set_xlabel("Decrease in accuracy score")
ax.figure.tight_layout()

Также возможно вычислить перестановочную важность на обучающем наборе. Это показывает, что random_num и random_cat получить значительно более высокий рейтинг важности, чем при вычислении на тестовом наборе. Разница между этими двумя графиками подтверждает, что модель RF имеет достаточную ёмкость, чтобы использовать эти случайные числовые и категориальные признаки для переобучения.

result = permutation_importance(
    rf, X_train, y_train, n_repeats=10, random_state=42, n_jobs=2
)

sorted_importances_idx = result.importances_mean.argsort()
importances = pd.DataFrame(
    result.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)
ax = importances.plot.box(vert=False, whis=10)
ax.set_title("Permutation Importances (train set)")
ax.axvline(x=0, color="k", linestyle="--")
ax.set_xlabel("Decrease in accuracy score")
ax.figure.tight_layout()

Мы можем продолжить повтор эксперимента, ограничив способность деревьев переобучаться, установив min_samples_leaf на 20 точках данных.

rf.set_params(classifier__min_samples_leaf=20).fit(X_train, y_train)

Pipeline(steps=[('preprocess',
                 ColumnTransformer(transformers=[('cat',
                                                  OrdinalEncoder(encoded_missing_value=-1,
                                                                 handle_unknown='use_encoded_value',
                                                                 unknown_value=-1),
                                                  ['pclass', 'sex', 'embarked',
                                                   'random_cat']),
                                                 ('num', SimpleImputer(),
                                                  ['age', 'sibsp', 'parch',
                                                   'fare', 'random_num'])],
                                   verbose_feature_names_out=False)),
                ('classifier',
                 RandomForestClassifier(min_samples_leaf=20, random_state=42))])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Наблюдая оценку точности на обучающей и тестовой выборках, мы видим, что две метрики теперь очень похожи. Следовательно, наша модель больше не переобучается. Затем мы можем проверить перестановочную важность с этой новой моделью.

print(f"RF train accuracy: {rf.score(X_train, y_train):.3f}")
print(f"RF test accuracy: {rf.score(X_test, y_test):.3f}")

RF train accuracy: 0.810
RF test accuracy: 0.832

train_result = permutation_importance(
    rf, X_train, y_train, n_repeats=10, random_state=42, n_jobs=2
)
test_results = permutation_importance(
    rf, X_test, y_test, n_repeats=10, random_state=42, n_jobs=2
)
sorted_importances_idx = train_result.importances_mean.argsort()

train_importances = pd.DataFrame(
    train_result.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)
test_importances = pd.DataFrame(
    test_results.importances[sorted_importances_idx].T,
    columns=X.columns[sorted_importances_idx],
)

for name, importances in zip(["train", "test"], [train_importances, test_importances]):
    ax = importances.plot.box(vert=False, whis=10)
    ax.set_title(f"Permutation Importances ({name} set)")
    ax.set_xlabel("Decrease in accuracy score")
    ax.axvline(x=0, color="k", linestyle="--")
    ax.figure.tight_layout()

Теперь мы можем наблюдать, что на обоих наборах random_num и random_cat признаки имеют меньшую важность по сравнению с переобученным случайным лесом. Однако выводы относительно важности других признаков все еще действительны.

Общее время выполнения скрипта: (0 минут 7.447 секунд)

Связанные примеры

Важность признаков с использованием леса деревьев

Важность перестановок с мультиколлинеарными или коррелированными признаками

Основные нововведения в выпуске scikit-learn 0.22

Градиентный бустинг для регрессии

Галерея, созданная Sphinx-Gallery

	шаги steps: список кортежей Список кортежей (имя шага, оценщик), которые должны быть соединены в цепочку последовательный порядок. Для совместимости с API scikit-learn, все шаги должен определять `fit`. Все не последние шаги также должны определять `transform`. См. :ref:`Комбинирование оценщиков ` для получения дополнительной информации.	[('preprocess', ...), ('classifier', ...)]
	transform_input transform_input: list of str, default=None Имена параметров :term:`metadata`, которые должны быть преобразованы конвейер перед передачей его шагу, который его потребляет. Это позволяет преобразовывать некоторые входные аргументы для ``fit`` (кроме ``X``) для преобразования шагами конвейера до шага, который требует их. Требование определяется через :ref:`маршрутизацию метаданных `. Например, это можно использовать для передачи набора валидации через конвейер. Вы можете установить это только если включена маршрутизация метаданных, что вы можно включить, используя ``sklearn.set_config(enable_metadata_routing=True)``. .. versionadded:: 1.6	None
	память memory: строка или объект с интерфейсом joblib.Memory, по умолчанию=None Используется для кэширования обученных трансформеров конвейера. Последний шаг никогда не будет кэшироваться, даже если это трансформер. По умолчанию, никакие кэширование выполняется. Если задана строка, это путь к директория кэширования. Включение кэширования запускает клонирование преобразователей перед обучением. Следовательно, экземпляр трансформатора, переданный в конвейер не может быть проверен напрямую. Используйте атрибут `named_steps` или ``steps`` для проверки оценщиков внутри конвейера. Кэширование трансформеры выгодны, когда подгонка занимает много времени. См. :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` для примера о том, как включить кэширование.	None
	verbose verbose: bool, default=False Если True, затраченное время на обучение каждого шага будет выводиться по мере его выполнения. завершено.	False

	преобразователи transformers: список кортежей Список кортежей (имя, transformer, столбцы), определяющих объекты трансформеров, которые должны быть применены к подмножествам данных. name : str Как и в Pipeline и FeatureUnion, это позволяет преобразователю и его параметры могут быть установлены с помощью ``set_params`` и найдены в сетке поиск. transformer: {'drop', 'passthrough'} или estimator Оценщик должен поддерживать :term:`fit` и :term:`transform`. Специальные строки 'drop' и 'passthrough' принимаются как хорошо, чтобы указать, удалить столбцы или пропустить их непреобразованные, соответственно. столбцы : str, массив строк, int, массив int, массив bool, срез или вызываемый объект Индексирует данные по второй оси. Целые числа интерпретируются как позиционные столбцы, в то время как строки могут ссылаться на столбцы DataFrame по имени. Скалярная строка или целое число должны использоваться там, где ``transformer`` ожидает, что X будет одномерным array-like (вектором), иначе в преобразователь будет передан двумерный массив. Вызываемый объект получает входные данные `X` и может возвращать любой из выше. Чтобы выбрать несколько столбцов по имени или типу данных, можно использовать :obj:`make_column_selector`.	[('cat', ...), ('num', ...)]
	остаток остаток: {'drop', 'passthrough'} или оценщик, по умолчанию='drop' По умолчанию только указанные столбцы в `transformers` являются преобразованы и объединены в выходных данных, а не указанные столбцы удаляются. (по умолчанию ``'drop'``). Указав ``remainder='passthrough'``, все оставшиеся столбцы, которые не были указаны в `transformers`, но присутствуют в переданных данных к `fit` будут автоматически переданы. Это подмножество столбцов объединяется с выходом преобразователей. Для датафреймов, дополнительные столбцы, не встречавшиеся во время `fit`, будут исключены из вывода `transform`. Установив ``remainder`` в качестве оценщика, оставшиеся неуказанные столбцы будут использовать оценщик ``remainder``. оценщик должен поддерживать :term:`fit` и :term:`transform`. Обратите внимание, что использование этой функции требует, чтобы столбцы DataFrame входные данные в :term:`fit` и :term:`transform` имеют одинаковый порядок.	'drop'
	sparse_threshold sparse_threshold: float, default=0.3 Если выход разных преобразователей содержит разреженные матрицы, они будут сложены в разреженную матрицу, если общая плотность составляет ниже этого значения. Используйте ``sparse_threshold=0``, чтобы всегда возвращать плотный. Когда преобразованный вывод состоит из всех плотных данных, результат будет плотным, и этот ключевой параметр будет проигнорирован.	0.3
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	transformer_weights transformer_weights: dict, по умолчанию=None Мультипликативные веса для признаков на трансформер. Выходные данные преобразователь умножается на эти веса. Ключи — это имена преобразователей, значения весов.	None
	verbose verbose: bool, default=False Если True, затраченное время на подгонку каждого трансформатора будет печатается по завершении.	False
	verbose_feature_names_out verbose_feature_names_out: bool, str или Callable[[str, str], str], default=True - Если True, :meth:`ColumnTransformer.get_feature_names_out` добавит префикс все имена признаков с именем преобразователя, который их сгенерировал признак. Эквивалентно установке `verbose_feature_names_out="{transformer_name}__{feature_name}"`. - Если False, :meth:`ColumnTransformer.get_feature_names_out` не будет добавляет префикс к любым именам признаков и вызовет ошибку, если имена признаков отсутствуют уникальные. - Если ``Callable[[str, str], str]``, :meth:`ColumnTransformer.get_feature_names_out` переименует все признаки используя имя преобразователя. Первый аргумент вызываемого объекта - это имя трансформера и второй аргумент — имя признака. Возвращаемый строка будет новым именем признака. - Если ``str``, это должна быть строка, готовая к форматированию. Данная строка будет должны форматироваться с использованием двух имен полей: ``transformer_name`` и ``feature_name``. например, ``"{feature_name}__{transformer_name}"``. См. метод :meth:`str.format` из стандартной библиотеки для получения дополнительной информации. .. versionadded:: 1.0 .. versionchanged:: 1.6 `verbose_feature_names_out` может быть вызываемым объектом или строкой для форматирования.	False
	force_int_remainder_cols force_int_remainder_cols: bool, default=False Этот параметр не оказывает влияния. .. примечание:: Если вы не обращаетесь к списку столбцов для оставшихся столбцов в атрибуте `transformers_` после обучения, вам не нужно устанавливать этот параметр. .. versionadded:: 1.5 .. versionchanged:: 1.7 Значение по умолчанию для `force_int_remainder_cols` изменится с с `True` на `False` в версии 1.7. .. устарело:: 1.7 `force_int_remainder_cols` устарел и будет удалён в версии 1.9.	'устаревший'

	категории категории: 'auto' или список массивоподобных объектов, по умолчанию='auto' Категории (уникальные значения) для каждого признака: - 'auto' : Автоматически определять категории из обучающих данных. - список: ``categories[i]`` содержит категории, ожидаемые в i-м столбец. Переданные категории не должны смешивать строки и числа значений и должны быть отсортированы в случае числовых значений. Используемые категории можно найти в атрибуте ``categories_``.	'auto'
	dtype dtype: number type, default=np.float64 Желаемый тип данных выходных данных.
	handle_unknown handle_unknown: {'error', 'use_encoded_value'}, default='error' Когда установлено значение 'error', будет вызвана ошибка в случае неизвестного категориальный признак присутствует во время transform. Когда установлено в 'use_encoded_value', закодированное значение неизвестных категорий будет установлено в значение, заданное для параметра `unknown_value`. В :meth:`inverse_transform`, неизвестная категория будет обозначена как None. .. versionadded:: 0.24	'use_encoded_value'
	unknown_value unknown_value: int или np.nan, по умолчанию=None Когда параметр handle_unknown установлен в 'use_encoded_value', это параметр обязателен и установит закодированное значение неизвестного категории. Он должен отличаться от значений, используемых для кодирования любой из категории в `fit`. Если установлено в np.nan, параметр `dtype` должен должен быть типом данных float. .. versionadded:: 0.24	-1
	encoded_missing_value encoded_missing_value: int или np.nan, по умолчанию=np.nan Закодированное значение отсутствующих категорий. Если установлено в `np.nan`, то `dtype` параметр должен иметь тип данных float. .. versionadded:: 1.1	-1
	min_frequency min_frequency: int или float, по умолчанию=None Определяет минимальную частоту, ниже которой категория будет считается редким. - Если `int`, категории с меньшей мощностью будут считаться редко. - Если `float`, категории с меньшей мощностью, чем `min_frequency * n_samples` будет считаться нечастым. .. versionadded:: 1.3 Подробнее в :ref:`Руководстве пользователя `.	None
	max_categories max_categories: int, default=None Задаёт верхний предел количества выходных категорий для каждого входного особенность при рассмотрении редких категорий. Если есть редкие категории, `max_categories` включает категорию, представляющую редкие категории вместе с частыми категориями. Если `None`, нет ограничения на количество выходных признаков. `max_categories` не учитывают пропущенные или неизвестные категории. Установка `unknown_value` или `encoded_missing_value` в целое число будет увеличивать количество уникальных целочисленных кодов на один каждый раз. Это может привести к кодам целых чисел вплоть до `max_categories + 2`. .. versionadded:: 1.3 Подробнее в :ref:`Руководстве пользователя `.	None

	missing_values параметры, которые максимизируют логарифмическую маргинальную вероятность. Первый запуск Заполнитель для пропущенных значений. Все вхождения `missing_values` будут импутированы. Для датафреймов pandas с целочисленные типы данных с поддержкой NULL и пропущенными значениями, `missing_values` может быть установлен либо в `np.nan`, либо в `pd.NA`.	nan
	стратегия strategy: str или Callable, по умолчанию='mean' Стратегия импутации. - Если "mean", то заменять пропущенные значения, используя среднее вдоль каждый столбец. Может использоваться только с числовыми данными. - Если "median", то заменить пропущенные значения с использованием медианы вдоль каждый столбец. Может использоваться только с числовыми данными. - Если "most_frequent", то заменить пропуски наиболее частым значение вдоль каждого столбца. Может использоваться со строками или числовыми данными. Если существует более одного такого значения, возвращается только наименьшее. - Если "constant", то заменяет пропущенные значения на fill_value. Может быть используется со строками или числовыми данными. - Если экземпляр Callable, то заменить пропущенные значения с помощью скалярная статистика, возвращаемая при выполнении вызываемого объекта над плотным одномерным Массив, содержащий отсутствующие значения каждого столбца. .. versionadded:: 0.20 strategy="constant" для фиксированной импутации значений. .. versionadded:: 1.5 strategy=callable для пользовательской импутации значений.	'mean'
	fill_value fill_value: строка или числовое значение, по умолчанию=None Когда strategy == "constant", `fill_value` используется для замены всех вхождения missing_values. Для строковых или объектных типов данных, `fill_value` должен быть строкой. Если `None`, `fill_value` будет 0 при импутации числовых данные и "missing_value" для строковых или объектных типов данных.	None
	copy copy: bool, default=True Если True, будет создана копия X. Если False, импутация будет может быть выполнено на месте, когда это возможно. Обратите внимание, что в следующих случаях, новая копия всегда будет создаваться, даже если `copy=False`: - Если `X` не является массивом значений с плавающей точкой; - Если `X` закодирован как матрица CSR; - Если `add_indicator=True`.	True
	add_indicator add_indicator: bool, по умолчанию=False Если True, трансформация :class:`MissingIndicator` будет добавлена к выходу трансформации импьютера. Это позволяет прогнозной оценке для учета пропусков, несмотря на импутацию. Если признак не имеет пропущенные значения во время обучения, признак не появится в индикатор пропущенных значений, даже если есть пропущенные значения в преобразование/время тестирования.	False
	keep_empty_features keep_empty_features: bool, default=False Если True, признаки, которые состоят исключительно из пропущенных значений, когда `fit` вызываются, возвращаются в результатах, когда вызывается `transform`. Импутированное значение всегда `0`, кроме случая `strategy="constant"` в этом случае вместо него будет использоваться `fill_value`. .. versionadded:: 1.2	False

	n_estimators n_estimators: int, default=100 Количество деревьев в лесу. .. versionchanged:: 0.22 Значение по умолчанию для ``n_estimators`` изменилось с 10 на 100 в 0.22.	100
	критерий критерий: {"gini", "entropy", "log_loss"}, по умолчанию="gini" Функция для измерения качества разделения. Поддерживаемые критерии: "gini" для примеси Джини и "log_loss" и "entropy" оба для Информационный выигрыш Шеннона, см. :ref:`tree_mathematical_formulation`. Примечание: Этот параметр специфичен для дерева.	'gini'
	max_depth max_depth: int, default=None Максимальная глубина дерева. Если None, то узлы расширяются до тех пор, пока все листья чисты или пока все листья содержат менее min_samples_split выборок.	None
	min_samples_split min_samples_split: int или float, по умолчанию=2 Минимальное количество образцов, необходимое для разделения внутреннего узла: - Если int, то рассматривать `min_samples_split` как минимальное количество. - Если float, то `min_samples_split` является дробью и `ceil(min_samples_split * n_samples)` являются минимальными количество образцов для каждого разбиения. .. versionchanged:: 0.18 Добавлены дробные значения.	2
	min_samples_leaf min_samples_leaf: int или float, default=1 Минимальное количество образцов, требуемое для узла листа. Точка разделения на любой глубине будет рассматриваться только если она оставляет хотя бы не менее ``min_samples_leaf`` обучающих выборок в каждой из левой и правые ветви. Это может сгладить модель, особенно в регрессии. - Если int, то рассматривайте `min_samples_leaf` как минимальное количество. - Если float, то `min_samples_leaf` является долей и `ceil(min_samples_leaf * n_samples)` являются минимальными количество выборок для каждого узла. .. versionchanged:: 0.18 Добавлены дробные значения.	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, по умолчанию=0.0 Минимальная взвешенная доля от общей суммы весов (всех входных образцов), требуемых для нахождения в листовом узле. Образцы имеют равный вес, когда sample_weight не предоставлен.	0.0
	max_features max_features: {"sqrt", "log2", None}, int или float, по умолчанию="sqrt" Количество признаков, которые следует учитывать при поиске наилучшего разделения: - Если int, то рассматривать `max_features` признаков на каждом разбиении. - Если float, то `max_features` является дробью и На каждом шаге рассматриваются `max(1, int(max_features * n_features_in_))` признаков разделение. - Если "sqrt", то `max_features=sqrt(n_features)`. - Если "log2", то `max_features=log2(n_features)`. - Если None, то `max_features=n_features`. .. versionchanged:: 1.1 Зависшие pull request'ы Примечание: поиск разделения не останавливается, пока хотя бы один найдено допустимое разделение выборок узла, даже если это требует эффективно проверять более чем ``max_features`` признаков.	'sqrt'
	max_leaf_nodes max_leaf_nodes: int, по умолчанию=None Выращивайте деревья с ``max_leaf_nodes`` в порядке лучшего-первого. Лучшие узлы определяются как относительное снижение нечистоты. Если None, то неограниченное количество листовых узлов.	None
	min_impurity_decrease min_impurity_decrease: float, default=0.0 Узел будет разделен, если это разделение вызывает уменьшение неоднородности больше или равно этому значению. Уравнение взвешенного уменьшения примесей выглядит следующим образом:: N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) где ``N`` — общее количество образцов, ``N_t`` — количество образцов в текущем узле, ``N_t_L`` - количество образцов в левый дочерний узел, и ``N_t_R`` — количество образцов в правом дочернем узле. ``N``, ``N_t``, ``N_t_R`` и ``N_t_L`` все относятся к взвешенной сумме, если передан ``sample_weight``. .. versionadded:: 0.19	0.0
	bootstrap bootstrap: bool, default=True Используются ли бутстрап-выборки при построении деревьев. Если False, весь набор данных используется для построения каждого дерева.	True
	oob_score oob_score: bool или callable, default=False Использовать ли выборки out-of-bag для оценки обобщающей способности. По умолчанию используется :func:`~sklearn.metrics.accuracy_score`. Предоставьте вызываемый объект с сигнатурой `metric(y_true, y_pred)` для использования пользовательская метрика. Доступно только если `bootstrap=True`. Для иллюстрации оценки ошибки вне пакета (OOB) см. пример :ref:`sphx_glr_auto_examples_ensemble_plot_ensemble_oob.py`.	False
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. :meth:`fit`, :meth:`predict`, :meth:`decision_path` и :meth:`apply` все параллелизованы по деревьев. ``None`` означает 1, если не в :obj:`joblib.parallel_backend` контекст. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет как случайностью бутстрэппинга выборок, используемых при построении деревьев (если ``bootstrap=True``) и выборке признаки для рассмотрения при поиске наилучшего разделения в каждом узле (если ``max_features < n_features``). См. :term:`Глоссарий ` для деталей.	42
	verbose verbose: int, по умолчанию=0 Управляет подробностью вывода при обучении и предсказании.	0
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль, в противном случае просто обучите весь новый лес. См. :term:`Глоссарий ` и :ref:`tree_ensemble_warm_start` для деталей.	False
	class_weight class_weight: {"balanced", "balanced_subsample"}, dict или list of dicts, default=None Веса, связанные с классами, в форме ``{class_label: weight}``. Если не задано, предполагается, что все классы имеют вес один. Для для многомерных задач, список словарей может быть предоставлен в том же порядок, как столбцы y. Обратите внимание, что для многомерного вывода (включая многометочный) веса должны быть определяется для каждого класса каждого столбца в собственном словаре. Например, для четырехклассовой многометочной классификации веса должны быть [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] вместо [{1:1}, {2:5}, {3:1}, {4:1}]. Режим "balanced" использует значения y для автоматической настройки веса, обратно пропорциональные частотам классов во входных данных как ``n_samples / (n_classes * np.bincount(y))`` Режим "balanced_subsample" такой же, как "balanced", за исключением того, что веса вычисляются на основе бутстрап-выборки для каждого дерева выращено. Для многомерного выхода веса каждого столбца y будут умножены. Обратите внимание, что эти веса будут умножены на sample_weight (переданный через метод fit), если указан sample_weight.	None
	ccp_alpha ccp_alpha: неотрицательное число с плавающей точкой, по умолчанию=0.0 Параметр сложности, используемый для минимальной стоимостно-сложностной обрезки. поддерево с наибольшей стоимостью сложности, которое меньше чем Будет выбран параметр ``ccp_alpha``. По умолчанию обрезка не выполняется. См. :ref:`minimal_cost_complexity_pruning` для подробностей. См. :ref:`sphx_glr_auto_examples_tree_plot_cost_complexity_pruning.py` для примера такой обрезки. .. versionadded:: 0.22	0.0
	max_samples max_samples: int или float, default=None Если bootstrap равен True, количество выборок для извлечения из X для обучения каждого базового оценщика. - Если None (по умолчанию), то выбирается `X.shape[0]` образцов. - Если int, то извлекается `max_samples` выборок. - Если float, то берётся `max(round(n_samples * max_samples), 1)` образцов. Таким образом, `max_samples` должен быть в интервале `(0.0, 1.0]`. .. versionadded:: 0.22	None
	monotonic_cst monotonic_cst: array-like из int формы (n_features), по умолчанию=None Указывает ограничение монотонности, применяемое к каждому признаку. - 1: монотонное увеличение - 0: без ограничений - -1: монотонное убывание Если monotonic_cst равен None, ограничения не применяются. Ограничения монотонности не поддерживаются для: - многоклассовые классификации (т.е. когда `n_classes > 2`), - многовариантные классификации (т.е. когда `n_outputs_ > 1`), - классификации, обученные на данных с пропущенными значениями. Ограничения выполняются для вероятности положительного класса. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 1.4	None

Важность перестановок против важности признаков случайного леса (MDI)#

Загрузка данных и проектирование признаков#

Точность модели#

Важность признаков дерева на основе среднего уменьшения неоднородности (MDI)#

Эта страница