Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Пользовательская стратегия повторного обучения для поиска по сетке с кросс-валидацией#

Этот пример показывает, как классификатор оптимизируется с помощью перекрестной проверки, что выполняется с использованием GridSearchCV объект на тестовом наборе, который включает только половину доступных размеченных данных.

Производительность выбранных гиперпараметров и обученной модели затем измеряется на выделенном оценочном наборе, который не использовался на этапе выбора модели.

Более подробная информация об инструментах, доступных для выбора модели, находится в разделах Кросс-валидация: оценка производительности оценщика и Настройка гиперпараметров оценщика.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Набор данных#

Мы будем работать с digits наборе данных. Цель — классифицировать изображения рукописных цифр. Мы преобразуем задачу в бинарную классификацию для более лёгкого понимания: цель — определить, является ли цифра 8 или нет.

from sklearn import datasets

digits = datasets.load_digits()

Чтобы обучить классификатор на изображениях, нам нужно преобразовать их в векторы. Каждое изображение размером 8 на 8 пикселей нужно преобразовать в вектор из 64 пикселей. Таким образом, мы получим итоговый массив данных формы (n_images, n_pixels).

n_samples = len(digits.images)
X = digits.images.reshape((n_samples, -1))
y = digits.target == 8
print(
    f"The number of images is {X.shape[0]} and each image contains {X.shape[1]} pixels"
)

The number of images is 1797 and each image contains 64 pixels

Как представлено во введении, данные будут разделены на обучающий и тестовый наборы равного размера.

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)

Определяем нашу стратегию поиска по сетке#

Мы выберем классификатор, выполнив поиск лучших гиперпараметров на сгибах обучающего набора. Для этого нам нужно определить оценки для выбора лучшего кандидата.

scores = ["precision", "recall"]

Мы также можем определить функцию для передачи в refit параметр GridSearchCV экземпляр. Он будет реализовывать пользовательскую стратегию для выбора лучшего кандидата из cv_results_ атрибут объекта GridSearchCV. После выбора кандидата он автоматически переобучается с помощью GridSearchCV экземпляр.

Здесь стратегия заключается в составлении короткого списка моделей, которые являются лучшими с точки зрения точности и полноты. Из выбранных моделей мы окончательно выбираем самую быструю модель для предсказания. Обратите внимание, что эти пользовательские выборы полностью произвольны.

import pandas as pd


def print_dataframe(filtered_cv_results):
    """Pretty print for filtered dataframe"""
    for mean_precision, std_precision, mean_recall, std_recall, params in zip(
        filtered_cv_results["mean_test_precision"],
        filtered_cv_results["std_test_precision"],
        filtered_cv_results["mean_test_recall"],
        filtered_cv_results["std_test_recall"],
        filtered_cv_results["params"],
    ):
        print(
            f"precision: {mean_precision:0.3f} (±{std_precision:0.03f}),"
            f" recall: {mean_recall:0.3f} (±{std_recall:0.03f}),"
            f" for {params}"
        )
    print()


def refit_strategy(cv_results):
    """Define the strategy to select the best estimator.

    The strategy defined here is to filter-out all results below a precision threshold
    of 0.98, rank the remaining by recall and keep all models with one standard
    deviation of the best by recall. Once these models are selected, we can select the
    fastest model to predict.

    Parameters
    ----------
    cv_results : dict of numpy (masked) ndarrays
        CV results as returned by the `GridSearchCV`.

    Returns
    -------
    best_index : int
        The index of the best estimator as it appears in `cv_results`.
    """
    # print the info about the grid-search for the different scores
    precision_threshold = 0.98

    cv_results_ = pd.DataFrame(cv_results)
    print("All grid-search results:")
    print_dataframe(cv_results_)

    # Filter-out all results below the threshold
    high_precision_cv_results = cv_results_[
        cv_results_["mean_test_precision"] > precision_threshold
    ]

    print(f"Models with a precision higher than {precision_threshold}:")
    print_dataframe(high_precision_cv_results)

    high_precision_cv_results = high_precision_cv_results[
        [
            "mean_score_time",
            "mean_test_recall",
            "std_test_recall",
            "mean_test_precision",
            "std_test_precision",
            "rank_test_recall",
            "rank_test_precision",
            "params",
        ]
    ]

    # Select the most performant models in terms of recall
    # (within 1 sigma from the best)
    best_recall_std = high_precision_cv_results["mean_test_recall"].std()
    best_recall = high_precision_cv_results["mean_test_recall"].max()
    best_recall_threshold = best_recall - best_recall_std

    high_recall_cv_results = high_precision_cv_results[
        high_precision_cv_results["mean_test_recall"] > best_recall_threshold
    ]
    print(
        "Out of the previously selected high precision models, we keep all the\n"
        "the models within one standard deviation of the highest recall model:"
    )
    print_dataframe(high_recall_cv_results)

    # From the best candidates, select the fastest model to predict
    fastest_top_recall_high_precision_index = high_recall_cv_results[
        "mean_score_time"
    ].idxmin()

    print(
        "\nThe selected final model is the fastest to predict out of the previously\n"
        "selected subset of best models based on precision and recall.\n"
        "Its scoring time is:\n\n"
        f"{high_recall_cv_results.loc[fastest_top_recall_high_precision_index]}"
    )

    return fastest_top_recall_high_precision_index

Настройка гиперпараметров#

После того как мы определили нашу стратегию выбора лучшей модели, мы определяем значения гиперпараметров и создаём экземпляр поиска по сетке:

from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

tuned_parameters = [
    {"kernel": ["rbf"], "gamma": [1e-3, 1e-4], "C": [1, 10, 100, 1000]},
    {"kernel": ["linear"], "C": [1, 10, 100, 1000]},
]

grid_search = GridSearchCV(
    SVC(), tuned_parameters, scoring=scores, refit=refit_strategy
)
grid_search.fit(X_train, y_train)

All grid-search results:
precision: 1.000 (±0.000), recall: 0.854 (±0.063), for {'C': 1, 'gamma': 0.001, 'kernel': 'rbf'}
precision: 1.000 (±0.000), recall: 0.257 (±0.061), for {'C': 1, 'gamma': 0.0001, 'kernel': 'rbf'}
precision: 1.000 (±0.000), recall: 0.877 (±0.069), for {'C': 10, 'gamma': 0.001, 'kernel': 'rbf'}
precision: 0.968 (±0.039), recall: 0.780 (±0.083), for {'C': 10, 'gamma': 0.0001, 'kernel': 'rbf'}
precision: 1.000 (±0.000), recall: 0.877 (±0.069), for {'C': 100, 'gamma': 0.001, 'kernel': 'rbf'}
precision: 0.905 (±0.058), recall: 0.889 (±0.074), for {'C': 100, 'gamma': 0.0001, 'kernel': 'rbf'}
precision: 1.000 (±0.000), recall: 0.877 (±0.069), for {'C': 1000, 'gamma': 0.001, 'kernel': 'rbf'}
precision: 0.904 (±0.058), recall: 0.890 (±0.073), for {'C': 1000, 'gamma': 0.0001, 'kernel': 'rbf'}
precision: 0.695 (±0.073), recall: 0.743 (±0.065), for {'C': 1, 'kernel': 'linear'}
precision: 0.643 (±0.066), recall: 0.757 (±0.066), for {'C': 10, 'kernel': 'linear'}
precision: 0.611 (±0.028), recall: 0.744 (±0.044), for {'C': 100, 'kernel': 'linear'}
precision: 0.618 (±0.039), recall: 0.744 (±0.044), for {'C': 1000, 'kernel': 'linear'}

Models with a precision higher than 0.98:
precision: 1.000 (±0.000), recall: 0.854 (±0.063), for {'C': 1, 'gamma': 0.001, 'kernel': 'rbf'}
precision: 1.000 (±0.000), recall: 0.257 (±0.061), for {'C': 1, 'gamma': 0.0001, 'kernel': 'rbf'}
precision: 1.000 (±0.000), recall: 0.877 (±0.069), for {'C': 10, 'gamma': 0.001, 'kernel': 'rbf'}
precision: 1.000 (±0.000), recall: 0.877 (±0.069), for {'C': 100, 'gamma': 0.001, 'kernel': 'rbf'}
precision: 1.000 (±0.000), recall: 0.877 (±0.069), for {'C': 1000, 'gamma': 0.001, 'kernel': 'rbf'}

Out of the previously selected high precision models, we keep all the
the models within one standard deviation of the highest recall model:
precision: 1.000 (±0.000), recall: 0.854 (±0.063), for {'C': 1, 'gamma': 0.001, 'kernel': 'rbf'}
precision: 1.000 (±0.000), recall: 0.877 (±0.069), for {'C': 10, 'gamma': 0.001, 'kernel': 'rbf'}
precision: 1.000 (±0.000), recall: 0.877 (±0.069), for {'C': 100, 'gamma': 0.001, 'kernel': 'rbf'}
precision: 1.000 (±0.000), recall: 0.877 (±0.069), for {'C': 1000, 'gamma': 0.001, 'kernel': 'rbf'}


The selected final model is the fastest to predict out of the previously
selected subset of best models based on precision and recall.
Its scoring time is:

mean_score_time                                         0.005289
mean_test_recall                                        0.853676
std_test_recall                                         0.063184
mean_test_precision                                          1.0
std_test_precision                                           0.0
rank_test_recall                                               6
rank_test_precision                                            1
params                 {'C': 1, 'gamma': 0.001, 'kernel': 'rbf'}
Name: 0, dtype: object

GridSearchCV(estimator=SVC(),
             param_grid=[{'C': [1, 10, 100, 1000], 'gamma': [0.001, 0.0001],
                          'kernel': ['rbf']},
                         {'C': [1, 10, 100, 1000], 'kernel': ['linear']}],
             refit=,
             scoring=['precision', 'recall'])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Параметры, выбранные поиском по сетке с нашей пользовательской стратегией:

grid_search.best_params_

{'C': 1, 'gamma': 0.001, 'kernel': 'rbf'}

Наконец, мы оцениваем тонко настроенную модель на оставленном набора для оценки: grid_search object был автоматически переобучен на полном обучающем наборе с параметрами, выбранными нашей пользовательской стратегией повторного обучения.

Мы можем использовать отчет о классификации для вычисления стандартных метрик классификации на отложенном наборе:

from sklearn.metrics import classification_report

y_pred = grid_search.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

       False       0.98      1.00      0.99       807
        True       1.00      0.85      0.92        92

    accuracy                           0.98       899
   macro avg       0.99      0.92      0.95       899
weighted avg       0.98      0.98      0.98       899

Примечание

Задача слишком проста: плато гиперпараметров слишком плоское, и выходная модель одинакова для точности и полноты при равном качестве.

Общее время выполнения скрипта: (0 минут 10.207 секунд)

Связанные примеры

Precision-Recall

Баланс сложности модели и кросс-валидационной оценки

Сравнение рандомизированного поиска и поиска по сетке для оценки гиперпараметров

Рекурсивное исключение признаков с перекрестной проверкой

Галерея, созданная Sphinx-Gallery

	estimator оценщик: объект оценщика Предполагается, что это реализует интерфейс оценщика scikit-learn. Либо оценщик должен предоставлять функцию ``score``, или ``scoring`` должны быть переданы.	SVC()
	param_grid param_grid: словарь или список словарей Словарь с именами параметров (`str`) в качестве ключей и списками настройки параметров для перебора в качестве значений или список таких словарями, в этом случае сетки, охватываемые каждым словарем в списке исследуются. Это позволяет осуществлять поиск по любой последовательности наборов параметров.	[{'C': [1, 10, ...], 'gamma': [0.001, 0.0001], 'kernel': ['rbf']}, {'C': [1, 10, ...], 'kernel': ['linear']}]
	оценка scoring: str, callable, list, tuple или dict, по умолчанию=None Стратегия оценки производительности кросс-валидированной модели на тестовый набор. Если `scoring` представляет собой единичную оценку, можно использовать: - одиночная строка (см. :ref:`scoring_string_names`); - вызываемый объект (см. :ref:`scoring_callable`), который возвращает одно значение; - `None`, `estimator`'s :ref:`критерий оценки по умолчанию ` используется. Если `scoring` представляет несколько оценок, можно использовать: - список или кортеж уникальных строк; - вызываемый объект, возвращающий словарь, где ключи — это метрика имена и значения — это оценки метрик; - словарь с именами метрик в качестве ключей и вызываемыми объектами в качестве значений. См. :ref:`multimetric_grid_search` для примера.	['precision', 'recall']
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации. .. versionchanged:: v0.20 `n_jobs` значение по умолчанию изменено с 1 на None	None
	refit refit: bool, str или callable, по умолчанию=True Переобучение оценщика с использованием наилучших найденных параметров на всем набора данных. Для оценки по нескольким метрикам это должно быть `str`, обозначающий scorer, который будет использоваться для поиска наилучших параметров для повторного обучения оценщик в конце. Когда существуют соображения, отличные от максимальной оценки в выбора лучшего оценщика, ``refit`` может быть установлен в функцию, которая возвращает выбранный ``best_index_`` по ``cv_results_``. В этом случае случае, ``best_estimator_`` и ``best_params_`` будут установлены в соответствии с возвращенным ``best_index_``, в то время как ``best_score_`` атрибут будет недоступен. Переобученный оценщик доступен в ``best_estimator_`` атрибут и позволяет использовать ``predict`` непосредственно на этом экземпляр ``GridSearchCV``. Также для оценки по нескольким метрикам атрибуты ``best_index_``, ``best_score_`` и ``best_params_`` будут доступны только если ``refit`` установлен, и все они будут определены относительно этого конкретного scorer. См. параметр ``scoring`` для получения дополнительной информации о нескольких метриках оценка. См. :ref:`sphx_glr_auto_examples_model_selection_plot_grid_search_digits.py` чтобы увидеть, как разработать пользовательскую стратегию выбора с использованием вызываемого объекта через `refit`. См. :ref:`этот пример ` для примера использования ``refit=callable`` для балансировки модели сложность и кросс-валидированный балл. .. versionchanged:: 0.20 Добавлена поддержка callable.
	cv cv: int, генератор перекрестной проверки или итерируемый объект, по умолчанию=None Определяет стратегию разделения для кросс-валидации. Возможные значения для cv: - None, чтобы использовать стандартную 5-кратную перекрёстную проверку, - целое число, чтобы указать количество фолдов в `(Stratified)KFold`, - :term:`CV splitter`, - Итерируемый объект, возвращающий (обучающая, тестовая) разбиения в виде массивов индексов. Для целочисленных/None входов, если оценщик является классификатором и ``y`` либо бинарная, либо многоклассовая, используется :class:`StratifiedKFold`. Во всех в других случаях используется :class:`KFold`. Эти разделители создаются с `shuffle=False`, чтобы разбиения были одинаковыми при всех вызовах. См. :ref:`Руководство пользователя ` для различных стратегии перекрестной проверки, которые можно использовать здесь. .. versionchanged:: 0.22 Значение по умолчанию ``cv``, если None, изменено с 3-кратной на 5-кратную перекрестную проверку.	None
	verbose verbose: int Управляет подробностью вывода: чем выше, тем больше сообщений. - >1 : время вычисления для каждого фолда и кандидата параметра отображается; - >2 : оценка также отображается; - >3 : также отображаются индексы фолда и кандидатных параметров вместе со временем начала вычислений.	0
	pre_dispatch pre_dispatch: int или str, по умолчанию='2n_jobs' Управляет количеством задач, отправляемых во время параллельного выполнение. Уменьшение этого числа может быть полезно, чтобы избежать взрывное увеличение потребления памяти при отправке большего количества задач чем могут обработать процессоры. Этот параметр может быть: - None, в этом случае все задачи немедленно создаются и запускаются. Используйте это для легких и быстро выполняемых задач, чтобы избежать задержек из-за выполнения по требованию создание заданий - Целое число, указывающее точное общее количество создаваемых задач - Строка, задающая выражение как функцию от n_jobs, например '2n_jobs'	'2*n_jobs'
	error_score error_score: 'raise' или числовое значение, по умолчанию=np.nan Значение, присваиваемое оценке при возникновении ошибки в обучении оценщика. Если установлено значение 'raise', ошибка вызывается. Если задано числовое значение, Вызывается предупреждение FitFailedWarning. Этот параметр не влияет на повторную подгонку шаг, который всегда будет вызывать ошибку.	nan
	return_train_score return_train_score: bool, default=False Если ``False``, атрибут ``cv_results_`` не будет включать обучающие . Наличие разных классов моделей с соответствующими именами упрощает пользователям поиск этих регрессионных моделей. Во-вторых, если бы все 5 упомянутых линейных моделей были объединены в один класс, были бы параметры с множеством опций, такие как Вычисление обучающих оценок используется для получения представления о том, как различные настройки параметров влияют на компромисс между переобучением и недообучением. Однако вычисление оценок на обучающем наборе может быть вычислительно дорого и не является строго необходимым для выбора параметров, которые дают наилучшую обобщающую производительность. .. versionadded:: 0.19 SpectralClustering Значение по умолчанию изменено с ``True`` на ``False``	False

	C C: float, default=1.0 Параметр регуляризации. Сила регуляризации обратно пропорционально C. Должно быть строго положительным. Штраф является квадратичным штрафом l2. Для интуитивной визуализации эффектов масштабирования параметра регуляризации C, см. :ref:`sphx_glr_auto_examples_svm_plot_svm_scale_c.py`.	1
	ядро kernel: {'linear', 'poly', 'rbf', 'sigmoid', 'precomputed'} или callable, default='rbf' Указывает тип ядра, используемый в алгоритме. Если если не задано, будет использоваться 'rbf'. Если задана вызываемая функция, она используется для предварительно вычислить матрицу ядра из матриц данных; эта матрица должна быть массив формы ``(n_samples, n_samples)``. Для интуитивного визуализацию различных типов ядер см. :ref:`sphx_glr_auto_examples_svm_plot_svm_kernels.py`.	'rbf'
	степень degree: int, по умолчанию=3 Степень полиномиальной ядерной функции ('poly'). Должно быть неотрицательным. Игнорируется всеми другими ядрами.	3
	gamma gamma: {'scale', 'auto'} или float, по умолчанию='scale' Коэффициент ядра для 'rbf', 'poly' и 'sigmoid'. - если передано ``gamma='scale'`` (по умолчанию), то используется 1 / (n_features * X.var()) в качестве значения gamma, - если 'auto', использует 1 / n_features - если float, должен быть неотрицательным. .. versionchanged:: 0.22 Значение по умолчанию для ``gamma`` изменилось с 'auto' на 'scale'.	0.001
	coef0 coef0: float, по умолчанию=0.0 Независимый член в функции ядра. Это значимо только для 'poly' и 'sigmoid'.	0.0
	сжатие shrinking: bool, по умолчанию=True Использовать ли эвристику сжатия. См. :ref:`Руководство пользователя `.	True
	вероятность probability: bool, default=False Включить ли оценку вероятностей. Это должно быть включено до при вызове `fit`, замедлит этот метод, поскольку он внутренне использует 5-кратная перекрестная проверка, и `predict_proba` может быть несовместима с `predict`. Подробнее в :ref:`Руководстве пользователя `.	False
	tol tol: float, по умолчанию=1e-3 Допуск для критерия остановки.	0.001
	cache_size cache_size: float, default=200 Укажите размер кэша ядра (в МБ).	200
	class_weight class_weight: dict или 'balanced', по умолчанию=None Установить параметр C класса i в class_weight[i]C для SVC. Если не указано, предполагается, что все классы имеют вычисление градиента с Режим "balanced" использует значения y для автоматической настройки веса, обратно пропорциональные частотам классов во входных данных как ``n_samples / (n_classes np.bincount(y))``.	None
	verbose verbose: bool, default=False Включить подробный вывод. Обратите внимание, что эта настройка использует настройка времени выполнения на процесс в libsvm, которая, если включена, может не работать правильно в многопоточном контексте.	False
	max_iter max_iter: int, default=-1 Жесткое ограничение на итерации внутри решателя, или -1 для отсутствия ограничения.	-1
	decision_function_shape decision_function_shape: {'ovo', 'ovr'}, default='ovr' Возвращать ли функцию принятия решений 'один против всех' ('ovr') формы (n_samples, n_classes), как и все другие классификаторы, или оригинальный функция принятия решений 'один против одного' ('ovo') из libsvm, имеющая форму (n_samples, n_classes * (n_classes - 1) / 2). Однако обратите внимание, что внутренне всегда используется один-против-одного ('ovo') как стратегия многоклассовой классификации для обучения моделей; матрица ovr строится только из матрицы ovo. Параметр игнорируется для бинарной классификации. .. versionchanged:: 0.19 decision_function_shape по умолчанию имеет значение 'ovr'. .. versionadded:: 0.17 decision_function_shape='ovr' рекомендуется. .. versionchanged:: 0.17 Устаревшие decision_function_shape='ovo' и None.	'ovr'
	break_ties break_ties: bool, default=False Если true, ``decision_function_shape='ovr'``, и количество классов > 2, :term:`predict` будет разрешать ничьи в соответствии со значениями уверенности :term:`decision_function`; иначе первый класс среди связанных классов возвращается. Обратите внимание, что разрешение ничьих имеет относительно высокая вычислительная стоимость по сравнению с простым предсказанием. См. :ref:`sphx_glr_auto_examples_svm_plot_svm_tie_breaking.py` для пример его использования с ``decision_function_shape='ovr'``. .. versionadded:: 0.22	False
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет псевдослучайной генерацией чисел для перемешивания данных для оценки вероятностей. Игнорируется, когда `probability` равно False. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	None

Пользовательская стратегия повторного обучения для поиска по сетке с кросс-валидацией#

Набор данных#

Определяем нашу стратегию поиска по сетке#

Настройка гиперпараметров#

Эта страница