Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Последовательные итерации деления пополам#

Этот пример иллюстрирует, как последовательный поиск с уменьшением вдвое (HalvingGridSearchCV и HalvingRandomSearchCV) итеративно выбирает наилучшую комбинацию параметров из нескольких кандидатов.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from scipy.stats import randint

from sklearn import datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.experimental import enable_halving_search_cv  # noqa: F401
from sklearn.model_selection import HalvingRandomSearchCV

Сначала определяем пространство параметров и обучаем HalvingRandomSearchCV экземпляр.

rng = np.random.RandomState(0)

X, y = datasets.make_classification(n_samples=400, n_features=12, random_state=rng)

clf = RandomForestClassifier(n_estimators=20, random_state=rng)

param_dist = {
    "max_depth": [3, None],
    "max_features": randint(1, 6),
    "min_samples_split": randint(2, 11),
    "bootstrap": [True, False],
    "criterion": ["gini", "entropy"],
}

rsh = HalvingRandomSearchCV(
    estimator=clf, param_distributions=param_dist, factor=2, random_state=rng
)
rsh.fit(X, y)

HalvingRandomSearchCV(estimator=RandomForestClassifier(n_estimators=20,
                                                       random_state=RandomState(MT19937) at 0x7FE86B38EF40),
                      factor=2,
                      param_distributions={'bootstrap': [True, False],
                                           'criterion': ['gini', 'entropy'],
                                           'max_depth': [3, None],
                                           'max_features': ,
                                           'min_samples_split': },
                      random_state=RandomState(MT19937) at 0x7FE86B38EF40)

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Теперь мы можем использовать cv_results_ атрибут поискового оценщика для проверки и построения эволюции поиска.

results = pd.DataFrame(rsh.cv_results_)
results["params_str"] = results.params.apply(str)
results.drop_duplicates(subset=("params_str", "iter"), inplace=True)
mean_scores = results.pivot(
    index="iter", columns="params_str", values="mean_test_score"
)
ax = mean_scores.plot(legend=False, alpha=0.6)

labels = [
    f"iter={i}\nn_samples={rsh.n_resources_[i]}\nn_candidates={rsh.n_candidates_[i]}"
    for i in range(rsh.n_iterations_)
]

ax.set_xticks(range(rsh.n_iterations_))
ax.set_xticklabels(labels, rotation=45, multialignment="left")
ax.set_title("Scores of candidates over iterations")
ax.set_ylabel("mean test score", fontsize=15)
ax.set_xlabel("iterations", fontsize=15)
plt.tight_layout()
plt.show()

Количество кандидатов и объем ресурса на каждой итерации#

На первой итерации используется небольшое количество ресурсов. Ресурсом здесь является количество образцов, на которых обучаются оценщики. Все кандидаты оцениваются.

На второй итерации оценивается только лучшая половина кандидатов. Количество выделенных ресурсов удваивается: кандидаты оцениваются на удвоенном количестве образцов.

Этот процесс повторяется до последней итерации, где остаются только 2 кандидата. Лучший кандидат — это тот, который имеет наилучший балл на последней итерации.

Общее время выполнения скрипта: (0 минут 6.306 секунд)

Связанные примеры

Сравнение между поиском по сетке и последовательным сокращением вдвое

Сравнение рандомизированного поиска и поиска по сетке для оценки гиперпараметров

Основные нововведения scikit-learn 0.24

Пользовательская стратегия повторного обучения для поиска по сетке с кросс-валидацией

Галерея, созданная Sphinx-Gallery

	estimator оценщик: объект оценщика Предполагается, что это реализует интерфейс оценщика scikit-learn. Либо оценщик должен предоставлять функцию ``score``, или ``scoring`` должны быть переданы.	RandomForestC...x7FE86B38EF40)
	param_distributions param_distributions: dict или list of dicts Словарь с именами параметров (`str`) в качестве ключей и распределениями или списки параметров для проверки. Распределения должны предоставлять ``rvs`` метод для выборки (например, из scipy.stats.distributions). Если задан список, он выбирается равномерно. Если задан список словарей, сначала равномерно выбирается словарь, и тогда параметр выбирается с использованием этого словаря, как описано выше.	{'bootstrap': [True, False], 'criterion': ['gini', 'entropy'], 'max_depth': [3, None], 'max_features': , ...}
	n_candidates n_candidates: "exhaust" или int, по умолчанию="exhaust" Количество кандидатов параметров для выборки, на первом итерации. Использование 'exhaust' приведёт к выборке достаточного количества кандидатов, чтобы последняя итерация использует столько ресурсов, сколько возможно, на основе `min_resources`, `max_resources` и `factor`. В этом случае, `min_resources` не может быть 'exhaust'.	'exhaust'
	фактор factor: int или float, по умолчанию=3 Параметр 'halving', который определяет долю кандидатов которые выбираются для каждой последующей итерации. Например, ``factor=3`` означает, что выбирается только треть кандидатов.	2
	ресурс resource: ``'n_samples'`` или str, default='n_samples' Определяет ресурс, который увеличивается с каждой итерацией. По умолчанию, ресурс - это количество образцов. Также может быть установлен в любое параметр базового оценщика, принимающий положительное целое число значения, например 'n_iterations' или 'n_estimators' для градиентного бустинговый оценщик. В этом случае ``max_resources`` не может быть 'auto' и должно быть задано явно.	'n_samples'
	max_resources max_resources: int, по умолчанию='auto' Максимальное количество ресурсов, которое разрешено использовать любому кандидату для данной итерации. По умолчанию это установлено в ``n_samples``, когда ``resource='n_samples'`` (по умолчанию), иначе возникает ошибка.	'auto'
	min_resources min_resources: {'exhaust', 'smallest'} или int, по умолчанию='smallest' Минимальное количество ресурсов, которое разрешено использовать любому кандидату для данной итерации. Эквивалентно, это определяет количество ресурсы `r0`, которые выделяются для каждого кандидата на первой итерация. - 'smallest' - это эвристика, которая устанавливает `r0` в небольшое значение: - ``n_splits * 2``, когда ``resource='n_samples'`` для задачи регрессии - ``n_classes * n_splits * 2``, когда ``resource='n_samples'`` для задача классификации - ``1``, когда ``resource != 'n_samples'`` - 'exhaust' установит `r0` так, чтобы последняя итерация использовала максимально возможных ресурсов. А именно, последняя итерация будет использовать наибольшее значение меньшее, чем ``max_resources``, которое кратно и ``min_resources``, и ``factor``. В общем случае, использование 'exhaust' приводит к более точной оценке, но требует немного больше времени ресурсоёмкий. 'exhaust' недоступен, когда `n_candidates='exhaust'`. Обратите внимание, что количество ресурсов, используемых на каждой итерации, всегда кратное ``min_resources``.	'smallest'
	aggressive_elimination aggressive_elimination: bool, default=False Это актуально только в случаях, когда недостаточно ресурсов для уменьшить оставшихся кандидатов до максимум `factor` после последнего итерация. Если ``True``, то процесс поиска будет "воспроизводить" первой итерации столько, сколько нужно, пока количество кандидатов достаточно мал. По умолчанию это ``False``, что означает, что последняя итерация может оценить более чем ``factor`` кандидатов. См. :ref:`aggressive_elimination` для подробностей.	False
	cv sublinear_tf: bool, по умолчанию=False Определяет стратегию разделения для кросс-валидации. Возможные значения для cv: - целое число, чтобы указать количество фолдов в `(Stratified)KFold`, - :term:`CV splitter`, - Итерируемый объект, возвращающий (обучающая, тестовая) разбиения в виде массивов индексов. Для целочисленных/None входов, если оценщик является классификатором и ``y`` либо бинарная, либо многоклассовая, используется :class:`StratifiedKFold`. Во всех в других случаях используется :class:`KFold`. Эти разделители создаются с `shuffle=False`, чтобы разбиения были одинаковыми при всех вызовах. См. :ref:`Руководство пользователя ` для различных стратегии перекрестной проверки, которые можно использовать здесь. .. примечание:: Из-за особенностей реализации, фолды, созданные `cv`, должны быть одинаковым при нескольких вызовах `cv.split()`. Для встроенных итераторов `scikit-learn`, этого можно достичь с помощью отключение перемешивания (`shuffle=False`) или установкой параметр `random_state` в `cv` в целое число.	5
	оценка scoring: str или callable, по умолчанию None Метод оценки для проверки предсказаний на тестовом наборе. - str: см. :ref:`scoring_string_names` для вариантов. - вызываемый объект: вызываемый объект оценки (например, функция) с сигнатурой ``scorer(estimator, X, y)``. См. :ref:`scoring_callable` для подробностей. - `None`: параметр `estimator`'s :ref:`критерий оценки по умолчанию ` используется.	None
	refit refit: bool или callable, default=True Переобучение оценщика с использованием наилучших найденных параметров на всем набора данных. Когда существуют соображения, отличные от максимальной оценки в выбора лучшего оценщика, ``refit`` может быть установлен в функцию, которая возвращает выбранный ``best_index_`` по ``cv_results_``. В этом случае случае, ``best_estimator_`` и ``best_params_`` будут установлены в соответствии с возвращенным ``best_index_``, в то время как ``best_score_`` атрибут будет недоступен. Переобученный оценщик доступен в ``best_estimator_`` атрибут и позволяет использовать ``predict`` непосредственно на этом экземпляр ``HalvingRandomSearchCV``. См. :ref:`этот пример ` для примера использования ``refit=callable`` для балансировки модели сложность и кросс-валидированный балл.	True
	error_score error_score: 'raise' или числовое значение Значение, присваиваемое оценке при возникновении ошибки в обучении оценщика. Если установлено значение 'raise', ошибка вызывается. Если задано числовое значение, Вызывается предупреждение FitFailedWarning. Этот параметр не влияет на повторную подгонку шаг, который всегда будет вызывать ошибку. По умолчанию ``np.nan``.	nan
	return_train_score return_train_score: bool, default=False Если ``False``, атрибут ``cv_results_`` не будет включать обучающие . Наличие разных классов моделей с соответствующими именами упрощает пользователям поиск этих регрессионных моделей. Во-вторых, если бы все 5 упомянутых линейных моделей были объединены в один класс, были бы параметры с множеством опций, такие как Вычисление обучающих оценок используется для получения представления о том, как различные настройки параметров влияют на компромисс между переобучением и недообучением. Однако вычисление оценок на обучающем наборе может быть вычислительно дорого и не является строго необходимым для выбора параметров, которые дают наилучшую обобщающую производительность.	True
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Состояние генератора псевдослучайных чисел, используемого для субдискретизации набора данных когда `resources != 'n_samples'`. Также используется для случайного равномерного , Monthly weather review 78.1 (1950) распределения. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	RandomState(M...0x7FE86B38EF40
	n_jobs n_jobs: int или None, по умолчанию=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	verbose verbose: int Управляет подробностью вывода: чем выше, тем больше сообщений.	0

	n_estimators n_estimators: int, default=100 Количество деревьев в лесу. .. versionchanged:: 0.22 Значение по умолчанию для ``n_estimators`` изменилось с 10 на 100 в 0.22.	20
	критерий критерий: {"gini", "entropy", "log_loss"}, по умолчанию="gini" Функция для измерения качества разделения. Поддерживаемые критерии: "gini" для примеси Джини и "log_loss" и "entropy" оба для Информационный выигрыш Шеннона, см. :ref:`tree_mathematical_formulation`. Примечание: Этот параметр специфичен для дерева.	'entropy'
	max_depth max_depth: int, default=None Максимальная глубина дерева. Если None, то узлы расширяются до тех пор, пока все листья чисты или пока все листья содержат менее min_samples_split выборок.	None
	min_samples_split min_samples_split: int или float, по умолчанию=2 Минимальное количество образцов, необходимое для разделения внутреннего узла: - Если int, то рассматривать `min_samples_split` как минимальное количество. - Если float, то `min_samples_split` является дробью и `ceil(min_samples_split * n_samples)` являются минимальными количество образцов для каждого разбиения. .. versionchanged:: 0.18 Добавлены дробные значения.	5
	min_samples_leaf min_samples_leaf: int или float, default=1 Минимальное количество образцов, требуемое для узла листа. Точка разделения на любой глубине будет рассматриваться только если она оставляет хотя бы не менее ``min_samples_leaf`` обучающих выборок в каждой из левой и правые ветви. Это может сгладить модель, особенно в регрессии. - Если int, то рассматривайте `min_samples_leaf` как минимальное количество. - Если float, то `min_samples_leaf` является долей и `ceil(min_samples_leaf * n_samples)` являются минимальными количество выборок для каждого узла. .. versionchanged:: 0.18 Добавлены дробные значения.	1
	min_weight_fraction_leaf min_weight_fraction_leaf: float, по умолчанию=0.0 Минимальная взвешенная доля от общей суммы весов (всех входных образцов), требуемых для нахождения в листовом узле. Образцы имеют равный вес, когда sample_weight не предоставлен.	0.0
	max_features max_features: {"sqrt", "log2", None}, int или float, по умолчанию="sqrt" Количество признаков, которые следует учитывать при поиске наилучшего разделения: - Если int, то рассматривать `max_features` признаков на каждом разбиении. - Если float, то `max_features` является дробью и На каждом шаге рассматриваются `max(1, int(max_features * n_features_in_))` признаков разделение. - Если "sqrt", то `max_features=sqrt(n_features)`. - Если "log2", то `max_features=log2(n_features)`. - Если None, то `max_features=n_features`. .. versionchanged:: 1.1 Зависшие pull request'ы Примечание: поиск разделения не останавливается, пока хотя бы один найдено допустимое разделение выборок узла, даже если это требует эффективно проверять более чем ``max_features`` признаков.	4
	max_leaf_nodes max_leaf_nodes: int, по умолчанию=None Выращивайте деревья с ``max_leaf_nodes`` в порядке лучшего-первого. Лучшие узлы определяются как относительное снижение нечистоты. Если None, то неограниченное количество листовых узлов.	None
	min_impurity_decrease min_impurity_decrease: float, default=0.0 Узел будет разделен, если это разделение вызывает уменьшение неоднородности больше или равно этому значению. Уравнение взвешенного уменьшения примесей выглядит следующим образом:: N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity) где ``N`` — общее количество образцов, ``N_t`` — количество образцов в текущем узле, ``N_t_L`` - количество образцов в левый дочерний узел, и ``N_t_R`` — количество образцов в правом дочернем узле. ``N``, ``N_t``, ``N_t_R`` и ``N_t_L`` все относятся к взвешенной сумме, если передан ``sample_weight``. .. versionadded:: 0.19	0.0
	bootstrap bootstrap: bool, default=True Используются ли бутстрап-выборки при построении деревьев. Если False, весь набор данных используется для построения каждого дерева.	False
	oob_score oob_score: bool или callable, default=False Использовать ли выборки out-of-bag для оценки обобщающей способности. По умолчанию используется :func:`~sklearn.metrics.accuracy_score`. Предоставьте вызываемый объект с сигнатурой `metric(y_true, y_pred)` для использования пользовательская метрика. Доступно только если `bootstrap=True`. Для иллюстрации оценки ошибки вне пакета (OOB) см. пример :ref:`sphx_glr_auto_examples_ensemble_plot_ensemble_oob.py`.	False
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. :meth:`fit`, :meth:`predict`, :meth:`decision_path` и :meth:`apply` все параллелизованы по деревьев. ``None`` означает 1, если не в :obj:`joblib.parallel_backend` контекст. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет как случайностью бутстрэппинга выборок, используемых при построении деревьев (если ``bootstrap=True``) и выборке признаки для рассмотрения при поиске наилучшего разделения в каждом узле (если ``max_features < n_features``). См. :term:`Глоссарий ` для деталей.	RandomState(M...0x7FE86B38E340
	verbose verbose: int, по умолчанию=0 Управляет подробностью вывода при обучении и предсказании.	0
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль, в противном случае просто обучите весь новый лес. См. :term:`Глоссарий ` и :ref:`tree_ensemble_warm_start` для деталей.	False
	class_weight class_weight: {"balanced", "balanced_subsample"}, dict или list of dicts, default=None Веса, связанные с классами, в форме ``{class_label: weight}``. Если не задано, предполагается, что все классы имеют вес один. Для для многомерных задач, список словарей может быть предоставлен в том же порядок, как столбцы y. Обратите внимание, что для многомерного вывода (включая многометочный) веса должны быть определяется для каждого класса каждого столбца в собственном словаре. Например, для четырехклассовой многометочной классификации веса должны быть [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] вместо [{1:1}, {2:5}, {3:1}, {4:1}]. Режим "balanced" использует значения y для автоматической настройки веса, обратно пропорциональные частотам классов во входных данных как ``n_samples / (n_classes * np.bincount(y))`` Режим "balanced_subsample" такой же, как "balanced", за исключением того, что веса вычисляются на основе бутстрап-выборки для каждого дерева выращено. Для многомерного выхода веса каждого столбца y будут умножены. Обратите внимание, что эти веса будут умножены на sample_weight (переданный через метод fit), если указан sample_weight.	None
	ccp_alpha ccp_alpha: неотрицательное число с плавающей точкой, по умолчанию=0.0 Параметр сложности, используемый для минимальной стоимостно-сложностной обрезки. поддерево с наибольшей стоимостью сложности, которое меньше чем Будет выбран параметр ``ccp_alpha``. По умолчанию обрезка не выполняется. См. :ref:`minimal_cost_complexity_pruning` для подробностей. См. :ref:`sphx_glr_auto_examples_tree_plot_cost_complexity_pruning.py` для примера такой обрезки. .. versionadded:: 0.22	0.0
	max_samples max_samples: int или float, default=None Если bootstrap равен True, количество выборок для извлечения из X для обучения каждого базового оценщика. - Если None (по умолчанию), то выбирается `X.shape[0]` образцов. - Если int, то извлекается `max_samples` выборок. - Если float, то берётся `max(round(n_samples * max_samples), 1)` образцов. Таким образом, `max_samples` должен быть в интервале `(0.0, 1.0]`. .. versionadded:: 0.22	None
	monotonic_cst monotonic_cst: array-like из int формы (n_features), по умолчанию=None Указывает ограничение монотонности, применяемое к каждому признаку. - 1: монотонное увеличение - 0: без ограничений - -1: монотонное убывание Если monotonic_cst равен None, ограничения не применяются. Ограничения монотонности не поддерживаются для: - многоклассовые классификации (т.е. когда `n_classes > 2`), - многовариантные классификации (т.е. когда `n_outputs_ > 1`), - классификации, обученные на данных с пропущенными значениями. Ограничения выполняются для вероятности положительного класса. Подробнее в :ref:`Руководстве пользователя `. .. versionadded:: 1.4	None

Последовательные итерации деления пополам#

Количество кандидатов и объем ресурса на каждой итерации#

Эта страница