BaggingClassifier#

класс sklearn.ensemble.BaggingClassifier(estimator=None, n_estimators=10, *, max_samples=None, max_features=1.0, bootstrap=True, bootstrap_features=False, oob_score=False, warm_start=False, n_jobs=None, random_state=None, verbose=0)[источник]#

Классификатор Bagging.

Классификатор Bagging — это мета-оценщик ансамбля, который обучает базовые классификаторы на случайных подмножествах исходного набора данных, а затем объединяет их индивидуальные прогнозы (либо голосованием, либо усреднением) для формирования итогового прогноза. Такой мета-оценщик обычно можно использовать для уменьшения дисперсии чёрного ящика (например, дерева решений), вводя рандомизацию в процедуру его построения и затем создавая из него ансамбль.

Этот алгоритм включает несколько работ из литературы. Когда случайные подмножества набора данных выбираются как случайные подмножества выборок, то этот алгоритм известен как Pasting [1]. Если образцы извлекаются с возвращением, то метод известен как Bagging [2]. Когда случайные подмножества набора данных выбираются как случайные подмножества признаков, то метод известен как Random Subspaces [3]. Наконец, когда базовые оценки строятся на подмножествах как выборок, так и признаков, метод известен как Random Patches [4].

Подробнее в Руководство пользователя.

Добавлено в версии 0.15.

Параметры:

estimatorobject, default=None

Базовый оценщик для обучения на случайных подмножествах набора данных. Если None, то базовый оценщик — это DecisionTreeClassifier.

Добавлено в версии 1.2: base_estimator был переименован в estimator.

n_estimatorsint, по умолчанию=10

Количество базовых оценщиков в ансамбле.

max_samplesint или float, по умолчанию=None

Количество образцов для выборки из X для обучения каждого базового оценщика (с заменой по умолчанию, см. bootstrap для получения дополнительных деталей).

Если None, то нарисовать X.shape[0] образцов независимо от sample_weight.
Если int, то нарисовать max_samples выборки.
Если float, то нарисовать max_samples * X.shape[0] невзвешенные выборки или max_samples * sample_weight.sum() взвешенные образцы.

max_featuresint или float, по умолчанию=1.0

Количество признаков, извлекаемых из X для обучения каждого базового оценщика ( по умолчанию без замены, см. bootstrap_features для получения дополнительных деталей).

Если int, то нарисовать max_features признаков.
Если float, то нарисовать max(1, int(max_features * n_features_in_)) признаков.

bootstrapbool, по умолчанию=True

Выбираются ли образцы с возвращением. Если False, выполняется выборка без возвращения. Если обучение с sample_weight, настоятельно рекомендуется выбрать True, так как только выбор с возвращением обеспечит ожидаемую частотную семантику sample_weight.

bootstrap_featuresbool, по умолчанию=False

Признаки выбираются с возвращением.

oob_scorebool, по умолчанию=False

Использовать ли внепакетные выборки для оценки ошибки обобщения. Доступно только если bootstrap=True.

warm_startbool, по умолчанию=False

При установке в True повторно использует решение предыдущего вызова fit и добавляет больше оценщиков в ансамбль, в противном случае просто обучает новый ансамбль. См. Глоссарий.

Добавлено в версии 0.17: warm_start параметр конструктора.

n_jobsint, default=None

Количество заданий для параллельного выполнения как для fit и predict. None означает 1, если только не в joblib.parallel_backend контекст. -1 означает использование всех процессоров. См. Глоссарий для получения дополнительной информации.

random_stateint, экземпляр RandomState или None, по умолчанию=None

Управляет случайным повторным выбором исходного набора данных (по образцам и по признакам). Если базовый оценщик принимает random_state атрибут, для каждого экземпляра в ансамбле генерируется разное начальное значение. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. Глоссарий.

verboseint, по умолчанию=0

Управляет подробностью вывода при обучении и предсказании.

Атрибуты:

estimator_estimator: Базовый оценщик, из которого строится ансамбль.

Добавлено в версии 1.2: base_estimator_ был переименован в estimator_.
n_features_in_int: Количество признаков, замеченных во время fit.

Добавлено в версии 0.24.
feature_names_in_ndarray формы (n_features_in_,): Имена признаков, наблюдаемых во время fit. Определено только когда X имеет имена признаков, которые все являются строками.

Добавлено в версии 1.0.
estimators_список оценщиков: Коллекция подобранных базовых оценщиков.
estimators_samples_список массивов: Подмножество выбранных выборок для каждого базового оценщика.
estimators_features_список массивов: Подмножество выбранных признаков для каждого базового оценщика.
classes_ndarray формы (n_classes,): Метки классов.
n_classes_int или list: Количество классов.
oob_score_float: Оценка обучающего набора данных, полученная с использованием out-of-bag оценки. Этот атрибут существует только когда oob_score равно True.
oob_decision_function_ndarray формы (n_samples, n_classes): Функция решения, вычисленная с использованием оценки out-of-bag на обучающей выборке. Если n_estimators мало, возможно, что некоторые точки данных никогда не исключались при бутстрапе. В этом случае, oob_decision_function_ может содержать NaN. Этот атрибут существует только когда oob_score равно True.

Смотрите также

BaggingRegressor: Бэггинг-регрессор.

Ссылки

[1]

L. Breiman, “Pasting small votes for classification in large databases and on-line”, Machine Learning, 36(1), 85-103, 1999.

[2]

L. Breiman, "Bagging predictors", Machine Learning, 24(2), 123-140, 1996.

[3]

T. Ho, “The random subspace method for constructing decision forests”, Pattern Analysis and Machine Intelligence, 20(8), 832-844, 1998.

[4]

G. Louppe и P. Geurts, «Ансамбли на случайных патчах», Machine Learning and Knowledge Discovery in Databases, 346-361, 2012.

Примеры

>>> from sklearn.svm import SVC
>>> from sklearn.ensemble import BaggingClassifier
>>> from sklearn.datasets import make_classification
>>> X, y = make_classification(n_samples=100, n_features=4,
...                            n_informative=2, n_redundant=0,
...                            random_state=0, shuffle=False)
>>> clf = BaggingClassifier(estimator=SVC(),
...                         n_estimators=10, random_state=0).fit(X, y)
>>> clf.predict([[0, 0, 0, 0]])
array([1])

decision_function(X, **params)[источник]#

Среднее значение решающих функций базовых классификаторов.

Параметры:

X{array-like, sparse matrix} формы (n_samples, n_features): Обучающие входные выборки. Разреженные матрицы принимаются только если они поддерживаются базовым оценщиком.
**paramsdict: Параметры, перенаправленные в decision_function метод под-оценщиков через API маршрутизации метаданных.

Добавлено в версии 1.7: Доступно только если sklearn.set_config(enable_metadata_routing=True) установлено. См. Руководство по маршрутизации метаданных для получения дополнительной информации.

Возвращает:

score#19734: Функция принятия решений для входных выборок. Столбцы соответствуют классам в отсортированном порядке, как они появляются в атрибуте classes_. Регрессия и бинарная классификация являются частными случаями с k == 1, иначе k==n_classes.

fit(X, y, sample_weight=None, **fit_params)[источник]#

Постройте ансамбль Bagging оценщиков из обучающего набора (X, y).

Параметры:

X{array-like, sparse matrix} формы (n_samples, n_features): Обучающие входные выборки. Разреженные матрицы принимаются только если они поддерживаются базовым оценщиком.
yarray-like формы (n_samples,): Целевые значения (метки классов в классификации, вещественные числа в регрессии).
sample_weightarray-like формы (n_samples,), по умолчанию=None: Веса выборок. Если None, то выборки взвешены одинаково. Используются как вероятности для выборки обучающего набора. Обратите внимание, что ожидаемая частотная семантика для sample_weight параметр выполняются только при выборке с возвращением bootstrap=True и использование float или integer max_samples (вместо значения по умолчанию max_samples=None).
**fit_paramsdict: Параметры для передачи базовым оценщикам.

Добавлено в версии 1.5: Доступно только если enable_metadata_routing=True, который можно установить с помощью sklearn.set_config(enable_metadata_routing=True). См. Руководство по маршрутизации метаданных для более подробной информации.

Возвращает:

selfobject: Обученный оценщик.

6332()[источник]#

Получить маршрутизацию метаданных этого объекта.

Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.

Добавлено в версии 1.5.

Возвращает:

маршрутизацияMetadataRouter: A MetadataRouter Инкапсуляция информации о маршрутизации.

get_params(глубокий=True)[источник]#

Получить параметры для этого оценщика.

Параметры:

глубокийbool, по умолчанию=True: Если True, вернет параметры для этого оценщика и вложенных подобъектов, которые являются оценщиками.

Возвращает:

paramsdict: Имена параметров, сопоставленные с их значениями.

predict(X, **params)[источник]#

Предсказать класс для X.

Предсказанный класс входного образца вычисляется как класс с наибольшим средним предсказанным вероятностям. Если базовые оценщики не реализуют predict_proba метода, то он прибегает к голосованию.

Параметры:

X{array-like, sparse matrix} формы (n_samples, n_features): Обучающие входные выборки. Разреженные матрицы принимаются только если они поддерживаются базовым оценщиком.
**paramsdict: Параметры, перенаправленные в predict_proba (если доступно) или predict метод (в противном случае) подоценщиков через API маршрутизации метаданных.

Добавлено в версии 1.7: Доступно только если sklearn.set_config(enable_metadata_routing=True) установлено. См. Руководство по маршрутизации метаданных для получения дополнительной информации.

Возвращает:

yndarray формы (n_samples,): Предсказанные классы.

predict_log_proba(X, **params)[источник]#

Предсказать логарифмы вероятностей классов для X.

Предсказанные логарифмы вероятностей классов для входного образца вычисляются как логарифм среднего предсказанных вероятностей классов базовых оценщиков в ансамбле.

Параметры:

X{array-like, sparse matrix} формы (n_samples, n_features): Обучающие входные выборки. Разреженные матрицы принимаются только если они поддерживаются базовым оценщиком.
**paramsdict: Параметры, перенаправленные в predict_log_proba, predict_proba или proba метода под-оценщиков через API маршрутизации метаданных. Маршрутизация пробуется в указанном порядке в зависимости от доступности этого метода у под-оценщика.

Добавлено в версии 1.7: Доступно только если sklearn.set_config(enable_metadata_routing=True) установлено. См. Руководство по маршрутизации метаданных для получения дополнительной информации.

Возвращает:

pndarray формы (n_samples, n_classes): Логарифмы вероятностей классов входных выборок. Порядок классов соответствует порядку в атрибуте classes_.

predict_proba(X, **params)[источник]#

Предсказать вероятности классов для X.

Предсказанные вероятности классов для входного образца вычисляются как средние предсказанные вероятности классов базовых оценщиков в ансамбле. Если базовые оценщики не реализуют predict_proba метод, то он прибегает к голосованию, и предсказанные вероятности классов входного образца представляют долю оценщиков, предсказывающих каждый класс.

Параметры:

X{array-like, sparse matrix} формы (n_samples, n_features): Обучающие входные выборки. Разреженные матрицы принимаются только если они поддерживаются базовым оценщиком.
**paramsdict: Параметры, перенаправленные в predict_proba (если доступно) или predict метод (в противном случае) подоценщиков через API маршрутизации метаданных.

Добавлено в версии 1.7: Доступно только если sklearn.set_config(enable_metadata_routing=True) установлено. См. Руководство по маршрутизации метаданных для получения дополнительной информации.

Возвращает:

pndarray формы (n_samples, n_classes): Вероятности классов входных выборок. Порядок классов соответствует порядку в атрибуте classes_.

score(X, y, sample_weight=None)[источник]#

Возвращает точность на предоставленных данных и метках.

В многометочной классификации это точность подмножества, которая является строгой метрикой, поскольку требует для каждого образца правильного предсказания каждого набора меток.

Параметры:

Xarray-like формы (n_samples, n_features): Тестовые выборки.
yarray-like формы (n_samples,) или (n_samples, n_outputs): Истинные метки для X.
sample_weightarray-like формы (n_samples,), по умолчанию=None: Веса выборок.

Возвращает:

scorefloat: Средняя точность self.predict(X) относительно y.

set_fit_request(*, sample_weight: bool | None | str = '$UNCHANGED$') → BaggingClassifier[источник]#

Настроить, следует ли запрашивать передачу метаданных в fit метод.

Обратите внимание, что этот метод актуален только тогда, когда этот оценщик используется как под-оценщик внутри мета-оценщик и маршрутизация метаданных включена с помощью enable_metadata_routing=True (см. sklearn.set_config). Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.

Варианты для каждого параметра:

True: запрашиваются метаданные и передаются fit если предоставлено. Запрос игнорируется, если метаданные не предоставлены.
False: метаданные не запрашиваются, и мета-оценщик не передаст их в fit.
None: метаданные не запрашиваются, и мета-оценщик выдаст ошибку, если пользователь предоставит их.
str: метаданные должны передаваться мета-оценщику с этим заданным псевдонимом вместо исходного имени.

По умолчанию (sklearn.utils.metadata_routing.UNCHANGED) сохраняет существующий запрос. Это позволяет изменять запрос для некоторых параметров, но не для других.

Добавлено в версии 1.3.

Параметры:

sample_weightstr, True, False или None, по умолчанию=sklearn.utils.metadata_routing.UNCHANGED: Маршрутизация метаданных для sample_weight параметр в fit.

Возвращает:

selfobject: Обновленный объект.

set_params(**params)[источник]#

Установить параметры этого оценщика.

Метод работает как на простых оценщиках, так и на вложенных объектах (таких как Pipeline). Последние имеют параметры вида __ чтобы можно было обновить каждый компонент вложенного объекта.

Параметры:

**paramsdict: Параметры оценщика.

Возвращает:

selfэкземпляр estimator: Экземпляр оценщика.

set_score_request(*, sample_weight: bool | None | str = '$UNCHANGED$') → BaggingClassifier[источник]#

Настроить, следует ли запрашивать передачу метаданных в score метод.

Обратите внимание, что этот метод актуален только тогда, когда этот оценщик используется как под-оценщик внутри мета-оценщик и маршрутизация метаданных включена с помощью enable_metadata_routing=True (см. sklearn.set_config). Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.

Варианты для каждого параметра:

True: запрашиваются метаданные и передаются score если предоставлено. Запрос игнорируется, если метаданные не предоставлены.
False: метаданные не запрашиваются, и мета-оценщик не передаст их в score.
None: метаданные не запрашиваются, и мета-оценщик выдаст ошибку, если пользователь предоставит их.
str: метаданные должны передаваться мета-оценщику с этим заданным псевдонимом вместо исходного имени.

По умолчанию (sklearn.utils.metadata_routing.UNCHANGED) сохраняет существующий запрос. Это позволяет изменять запрос для некоторых параметров, но не для других.

Добавлено в версии 1.3.

Параметры:

sample_weightstr, True, False или None, по умолчанию=sklearn.utils.metadata_routing.UNCHANGED: Маршрутизация метаданных для sample_weight параметр в score.

Возвращает:

selfobject: Обновленный объект.

BaggingClassifier#

Эта страница