Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Выбор уменьшения размерности с помощью Pipeline и GridSearchCV#

Этот пример строит конвейер, который выполняет уменьшение размерности, за которым следует предсказание с классификатором на основе метода опорных векторов. Он демонстрирует использование GridSearchCV и Pipeline для оптимизации по различным классам оценщиков в одном запуске CV – неконтролируемый PCA и NMF снижения размерности сравниваются с одномерным отбором признаков во время поиска по сетке.

Дополнительно, Pipeline может быть создан с помощью memory аргумент для мемоизации трансформеров внутри конвейера, избегая повторного обучения одних и тех же трансформеров снова и снова.

Обратите внимание, что использование memory для включения кэширования становится интересным, когда обучение преобразователя является затратным.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Иллюстрация `Pipeline` и `GridSearchCV`#

import matplotlib.pyplot as plt
import numpy as np

from sklearn.datasets import load_digits
from sklearn.decomposition import NMF, PCA
from sklearn.feature_selection import SelectKBest, mutual_info_classif
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.svm import LinearSVC

X, y = load_digits(return_X_y=True)

pipe = Pipeline(
    [
        ("scaling", MinMaxScaler()),
        # the reduce_dim stage is populated by the param_grid
        ("reduce_dim", "passthrough"),
        ("classify", LinearSVC(dual=False, max_iter=10000)),
    ]
)

N_FEATURES_OPTIONS = [2, 4, 8]
C_OPTIONS = [1, 10, 100, 1000]
param_grid = [
    {
        "reduce_dim": [PCA(iterated_power=7), NMF(max_iter=1_000)],
        "reduce_dim__n_components": N_FEATURES_OPTIONS,
        "classify__C": C_OPTIONS,
    },
    {
        "reduce_dim": [SelectKBest(mutual_info_classif)],
        "reduce_dim__k": N_FEATURES_OPTIONS,
        "classify__C": C_OPTIONS,
    },
]
reducer_labels = ["PCA", "NMF", "KBest(mutual_info_classif)"]

grid = GridSearchCV(pipe, n_jobs=1, param_grid=param_grid)
grid.fit(X, y)

GridSearchCV(estimator=Pipeline(steps=[('scaling', MinMaxScaler()),
                                       ('reduce_dim', 'passthrough'),
                                       ('classify',
                                        LinearSVC(dual=False,
                                                  max_iter=10000))]),
             n_jobs=1,
             param_grid=[{'classify__C': [1, 10, 100, 1000],
                          'reduce_dim': [PCA(iterated_power=7),
                                         NMF(max_iter=1000)],
                          'reduce_dim__n_components': [2, 4, 8]},
                         {'classify__C': [1, 10, 100, 1000],
                          'reduce_dim': [SelectKBest(score_func=)],
                          'reduce_dim__k': [2, 4, 8]}])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

import pandas as pd

mean_scores = np.array(grid.cv_results_["mean_test_score"])
# scores are in the order of param_grid iteration, which is alphabetical
mean_scores = mean_scores.reshape(len(C_OPTIONS), -1, len(N_FEATURES_OPTIONS))
# select score for best C
mean_scores = mean_scores.max(axis=0)
# create a dataframe to ease plotting
mean_scores = pd.DataFrame(
    mean_scores.T, index=N_FEATURES_OPTIONS, columns=reducer_labels
)

ax = mean_scores.plot.bar()
ax.set_title("Comparing feature reduction techniques")
ax.set_xlabel("Reduced number of features")
ax.set_ylabel("Digit classification accuracy")
ax.set_ylim((0, 1))
ax.legend(loc="upper left")

plt.show()

Кэширование преобразователей внутри `Pipeline`#

Иногда полезно сохранять состояние конкретного преобразователя, поскольку его можно использовать снова. Использование конвейера в GridSearchCV вызывает такие ситуации. Поэтому мы используем аргумент memory чтобы включить кэширование.

Предупреждение

Обратите внимание, что этот пример, однако, является лишь иллюстрацией, поскольку для этого конкретного случая подгонка PCA не обязательно медленнее, чем загрузка кэша. Поэтому используйте memory параметр конструктора при дорогостоящем обучении трансформатора.

from shutil import rmtree

from joblib import Memory

# Create a temporary folder to store the transformers of the pipeline
location = "cachedir"
memory = Memory(location=location, verbose=10)
cached_pipe = Pipeline(
    [("reduce_dim", PCA()), ("classify", LinearSVC(dual=False, max_iter=10000))],
    memory=memory,
)

# This time, a cached pipeline will be used within the grid search


# Delete the temporary cache before exiting
memory.clear(warn=False)
rmtree(location)

The PCA обучение вычисляется только при оценке первой конфигурации C параметр LinearSVC классификатор. Другие конфигурации C вызовет загрузку кэшированного PCA данные оценщика, что позволяет сэкономить время обработки. Поэтому использование кэширования конвейера с помощью memory очень полезно, когда подгонка трансформера затратна.

Общее время выполнения скрипта: (0 минут 43.733 секунды)

Связанные примеры

Инкрементальный PCA

Агломерация признаков против одномерного отбора

Объединение нескольких методов извлечения признаков

Кэширование ближайших соседей

Галерея, созданная Sphinx-Gallery

	estimator оценщик: объект оценщика Предполагается, что это реализует интерфейс оценщика scikit-learn. Либо оценщик должен предоставлять функцию ``score``, или ``scoring`` должны быть переданы.	Pipeline(step...iter=10000))])
	param_grid param_grid: словарь или список словарей Словарь с именами параметров (`str`) в качестве ключей и списками настройки параметров для перебора в качестве значений или список таких словарями, в этом случае сетки, охватываемые каждым словарем в списке исследуются. Это позволяет осуществлять поиск по любой последовательности наборов параметров.	[{'classify__C': [1, 10, ...], 'reduce_dim': [PCA(iterated_power=7), NMF(max_iter=1000)], 'reduce_dim__n_components': [2, 4, ...]}, {'classify__C': [1, 10, ...], 'reduce_dim': [SelectKBest(s...7fe8a5990f40>)], 'reduce_dim__k': [2, 4, ...]}]
	оценка scoring: str, callable, list, tuple или dict, по умолчанию=None Стратегия оценки производительности кросс-валидированной модели на тестовый набор. Если `scoring` представляет собой единичную оценку, можно использовать: - одиночная строка (см. :ref:`scoring_string_names`); - вызываемый объект (см. :ref:`scoring_callable`), который возвращает одно значение; - `None`, `estimator`'s :ref:`критерий оценки по умолчанию ` используется. Если `scoring` представляет несколько оценок, можно использовать: - список или кортеж уникальных строк; - вызываемый объект, возвращающий словарь, где ключи — это метрика имена и значения — это оценки метрик; - словарь с именами метрик в качестве ключей и вызываемыми объектами в качестве значений. См. :ref:`multimetric_grid_search` для примера.	None
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации. .. versionchanged:: v0.20 `n_jobs` значение по умолчанию изменено с 1 на None	1
	refit refit: bool, str или callable, по умолчанию=True Переобучение оценщика с использованием наилучших найденных параметров на всем набора данных. Для оценки по нескольким метрикам это должно быть `str`, обозначающий scorer, который будет использоваться для поиска наилучших параметров для повторного обучения оценщик в конце. Когда существуют соображения, отличные от максимальной оценки в выбора лучшего оценщика, ``refit`` может быть установлен в функцию, которая возвращает выбранный ``best_index_`` по ``cv_results_``. В этом случае случае, ``best_estimator_`` и ``best_params_`` будут установлены в соответствии с возвращенным ``best_index_``, в то время как ``best_score_`` атрибут будет недоступен. Переобученный оценщик доступен в ``best_estimator_`` атрибут и позволяет использовать ``predict`` непосредственно на этом экземпляр ``GridSearchCV``. Также для оценки по нескольким метрикам атрибуты ``best_index_``, ``best_score_`` и ``best_params_`` будут доступны только если ``refit`` установлен, и все они будут определены относительно этого конкретного scorer. См. параметр ``scoring`` для получения дополнительной информации о нескольких метриках оценка. См. :ref:`sphx_glr_auto_examples_model_selection_plot_grid_search_digits.py` чтобы увидеть, как разработать пользовательскую стратегию выбора с использованием вызываемого объекта через `refit`. См. :ref:`этот пример ` для примера использования ``refit=callable`` для балансировки модели сложность и кросс-валидированный балл. .. versionchanged:: 0.20 Добавлена поддержка callable.	True
	cv cv: int, генератор перекрестной проверки или итерируемый объект, по умолчанию=None Определяет стратегию разделения для кросс-валидации. Возможные значения для cv: - None, чтобы использовать стандартную 5-кратную перекрёстную проверку, - целое число, чтобы указать количество фолдов в `(Stratified)KFold`, - :term:`CV splitter`, - Итерируемый объект, возвращающий (обучающая, тестовая) разбиения в виде массивов индексов. Для целочисленных/None входов, если оценщик является классификатором и ``y`` либо бинарная, либо многоклассовая, используется :class:`StratifiedKFold`. Во всех в других случаях используется :class:`KFold`. Эти разделители создаются с `shuffle=False`, чтобы разбиения были одинаковыми при всех вызовах. См. :ref:`Руководство пользователя ` для различных стратегии перекрестной проверки, которые можно использовать здесь. .. versionchanged:: 0.22 Значение по умолчанию ``cv``, если None, изменено с 3-кратной на 5-кратную перекрестную проверку.	None
	verbose verbose: int Управляет подробностью вывода: чем выше, тем больше сообщений. - >1 : время вычисления для каждого фолда и кандидата параметра отображается; - >2 : оценка также отображается; - >3 : также отображаются индексы фолда и кандидатных параметров вместе со временем начала вычислений.	0
	pre_dispatch pre_dispatch: int или str, по умолчанию='2n_jobs' Управляет количеством задач, отправляемых во время параллельного выполнение. Уменьшение этого числа может быть полезно, чтобы избежать взрывное увеличение потребления памяти при отправке большего количества задач чем могут обработать процессоры. Этот параметр может быть: - None, в этом случае все задачи немедленно создаются и запускаются. Используйте это для легких и быстро выполняемых задач, чтобы избежать задержек из-за выполнения по требованию создание заданий - Целое число, указывающее точное общее количество создаваемых задач - Строка, задающая выражение как функцию от n_jobs, например '2n_jobs'	'2*n_jobs'
	error_score error_score: 'raise' или числовое значение, по умолчанию=np.nan Значение, присваиваемое оценке при возникновении ошибки в обучении оценщика. Если установлено значение 'raise', ошибка вызывается. Если задано числовое значение, Вызывается предупреждение FitFailedWarning. Этот параметр не влияет на повторную подгонку шаг, который всегда будет вызывать ошибку.	nan
	return_train_score return_train_score: bool, default=False Если ``False``, атрибут ``cv_results_`` не будет включать обучающие . Наличие разных классов моделей с соответствующими именами упрощает пользователям поиск этих регрессионных моделей. Во-вторых, если бы все 5 упомянутых линейных моделей были объединены в один класс, были бы параметры с множеством опций, такие как Вычисление обучающих оценок используется для получения представления о том, как различные настройки параметров влияют на компромисс между переобучением и недообучением. Однако вычисление оценок на обучающем наборе может быть вычислительно дорого и не является строго необходимым для выбора параметров, которые дают наилучшую обобщающую производительность. .. versionadded:: 0.19 SpectralClustering Значение по умолчанию изменено с ``True`` на ``False``	False

	feature_range feature_range: кортеж (min, max), default=(0, 1) Желаемый диапазон преобразованных данных.	(0, ...)
	copy copy: bool, default=True Установите в False для выполнения нормализации строк на месте и избежания копия (если входные данные уже являются массивом numpy).	True
	clip clip: bool, по умолчанию=False Установите значение True, чтобы обрезать преобразованные значения данных, удерживаемых вне выборки предоставленный `feature_range`. Поскольку этот параметр будет обрезать значения, `inverse_transform` может не возможность восстановить исходные данные. .. примечание:: Установка `clip=True` не предотвращает дрейф признаков (распределение сдвиг между обучающими и тестовыми данными). Преобразованные значения обрезаются к `feature_range`, что помогает избежать непредвиденного поведения в моделях чувствителен к входам вне диапазона (например, линейные модели). Используйте с осторожностью, поскольку обрезание может исказить распределение тестовых данных. .. versionadded:: 0.24	False

	n_components n_components: int, float или 'mle', по умолчанию=None Количество компонентов для сохранения. если n_components не задан, сохраняются все компоненты:: n_components == min(n_samples, n_features) Если ``n_components == 'mle'`` и ``svd_solver == 'full'``, метод Minka error_norm будет интерпретировать ``svd_solver == 'auto'`` как ``svd_solver == 'full'``. Если ``0 < n_components < 1`` и ``svd_solver == 'full'``, выберите количество компонентов, такое что количество дисперсии, которое необходимо объясненной дисперсии больше, чем процент, указанный в n_components. Если ``svd_solver == 'arpack'``, количество компонент должно быть строго меньше минимума n_features и n_samples. Следовательно, случай None приводит к:: n_components == min(n_samples, n_features) - 1	8
	copy copy: bool, default=True Если False, данные, переданные в fit, перезаписываются, и выполнение fit(X).transform(X) не даст ожидаемых результатов, используйте fit_transform(X) вместо этого.	True
	whiten whiten: bool, по умолчанию=False Когда True (по умолчанию False) векторы `components_` умножаются на квадратный корень из n_samples и затем разделить на сингулярные значения чтобы обеспечить некоррелированные выходы с единичными покомпонентными дисперсиями. Отбеливание удалит часть информации из преобразованного сигнала (относительные масштабы дисперсий компонентов), но иногда могут улучшить прогностическую точность последующих оценщиков путем заставляя их данные соответствовать некоторым жестко заданным предположениям.	False
	svd_solver svd_solver: {'auto', 'full', 'covariance_eigh', 'arpack', 'randomized'}, default='auto' "auto" : Решатель выбирается политикой по умолчанию 'auto', основанной на `X.shape` и `n_components`: если входные данные имеют менее 1000 признаков и более чем в 10 раз больше выборок, тогда "covariance_eigh" используется решатель. В противном случае, если входные данные больше 500x500 и количество компонентов для извлечения меньше, чем 80% от наименьшее измерение данных, тогда более эффективный выбран метод "randomized". В противном случае используется точный "full" SVD. вычисляется и при необходимости обрезается после. "full" : Запустить точное полное SVD, вызывая стандартный решатель LAPACK через `scipy.linalg.svd` и выбрать компоненты постобработкой "covariance_eigh" : Предварительно вычислять ковариационную матрицу (по центрированным данным), запускать классическое разложение по собственным значениям ковариационной матрицы обычно используя LAPACK и выбирая компоненты постобработкой. Этот решатель очень эффективен для n_samples >> n_features и малых n_features. Однако, в противном случае это неосуществимо для больших n_features (требуется большой объем памяти для материализации ковариационная матрица). Также обратите внимание, что по сравнению с решателем "full", этот решатель эффективно удваивает число обусловленности и поэтому менее численно устойчив (например, на входных данных с большим диапазон сингулярных значений). "arpack" : Запустить SVD, усеченный до `n_components`, вызывая решатель ARPACK через `scipy.sparse.linalg.svds`. Требует строго `0 < n_components < min(X.shape)` "randomized" : Запуск рандомизированного SVD методом Halko и др. .. versionadded:: 0.18.0 .. versionchanged:: 1.5 Добавлен решатель 'covariance_eigh'.	'auto'
	tol tol: float, по умолчанию=0.0 Допуск для сингулярных значений, вычисленных svd_solver == 'arpack'. Должен быть в диапазоне [0.0, бесконечность). .. versionadded:: 0.18.0	0.0
	iterated_power iterated_power: int или 'auto', по умолчанию='auto' Количество итераций для степенного метода, вычисляемого svd_solver == 'randomized'. Должен быть в диапазоне [0, бесконечность). .. versionadded:: 0.18.0	7
	n_oversamples n_oversamples: int, default=10 Этот параметр актуален только при `svd_solver="randomized"`. Это соответствует дополнительному количеству случайных векторов для выборки диапазон `X`, чтобы обеспечить надлежащую обусловленность. См. :func:`~sklearn.utils.extmath.randomized_svd` для подробностей. .. versionadded:: 1.1	10
	power_iteration_normalizer power_iteration_normalizer: {'auto', 'QR', 'LU', 'none'}, по умолчанию='auto' Нормализатор степенной итерации для рандомизированного решателя SVD. Не используется ARPACK. См. :func:`~sklearn.utils.extmath.randomized_svd` для получения дополнительной информации. .. versionadded:: 1.1	'auto'
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Используется, когда применяются решатели 'arpack' или 'randomized'. Передайте целое число для воспроизводимых результатов при многократных вызовах функции. См. :term:`Глоссарий `. .. versionadded:: 0.18.0	None

	штраф penalty: {'l1', 'l2'}, default='l2' Определяет норму, используемую в штрафе. 'l2' penalty - стандарт, используемый в SVC. 'l1' приводит к ``coef_`` векторы, которые являются разреженными.	'l2'
	потеря loss: {'hinge', 'squared_hinge'}, по умолчанию='squared_hinge' Определяет функцию потерь. 'hinge' — стандартная потеря SVM (используется, например, классом SVC), в то время как 'squared_hinge' является квадрат потерь на шарнире. Комбинация ``penalty='l1'`` и ``loss='hinge'`` не поддерживается.	'squared_hinge'
	dual dual: "auto" или bool, по умолчанию="auto" Выберите алгоритм для решения двойственной или прямой задачи задача оптимизации. Предпочитайте dual=False, когда n_samples > n_features. `dual="auto"` автоматически выберет значение параметра, на основе значений `n_samples`, `n_features`, `loss`, `multi_class` и `penalty`. Если `n_samples` < `n_features` и оптимизатор поддерживает выбранные `loss`, `multi_class` и `penalty`, тогда dual будет установлен в True, иначе он будет установлен в False. .. versionchanged:: 1.3 Опция `"auto"` добавлена в версии 1.3 и будет использоваться по умолчанию в версии 1.5.	False
	tol tol: float, default=1e-4 Допуск для критериев остановки.	0.0001
	C C: float, default=1.0 Параметр регуляризации. Сила регуляризации обратно пропорционально C. Должно быть строго положительным. Для интуитивной визуализации эффектов масштабирования параметр регуляризации C, см. :ref:`sphx_glr_auto_examples_svm_plot_svm_scale_c.py`.	1
	multi_class multi_class: {'ovr', 'crammer_singer'}, default='ovr' Определяет стратегию многоклассовой классификации, если `y` содержит более чем два класса. ``"ovr"`` обучает n_classes классификаторов "один против всех", в то время как ``"crammer_singer"`` оптимизирует совместную целевую функцию по всем классам. Хотя `crammer_singer` интересен с теоретической точки зрения поскольку он последователен, он редко используется на практике, так как редко приводит к лучшей точности и требует больше вычислений. Если выбран ``"crammer_singer"``, опции loss, penalty и dual будет проигнорирован.	'ovr'
	fit_intercept fit_intercept: bool, по умолчанию=True Определяет, нужно ли подгонять свободный член. Если установлено в True, вектор признаков расширена для включения свободного члена: `[x_1, ..., x_n, 1]`, где 1 соответствует свободному члену. Если установлено в False, свободный член не будет используется в вычислениях (т.е. ожидается, что данные уже центрированы).	True
	intercept_scaling intercept_scaling: float, по умолчанию=1.0 Когда `fit_intercept` равен True, вектор экземпляра x становится ``[x_1, ..., x_n, intercept_scaling]``, т.е. “синтетический” признак с постоянное значение, равное `intercept_scaling`, добавляется к экземпляру вектор. Свободный член становится intercept_scaling * синтетический признак вес. Обратите внимание, что liblinear внутренне штрафует intercept, обрабатывая его как любой другой термин в векторе признаков. Чтобы уменьшить влияние регуляризации на пересечение, `intercept_scaling` параметр может быть установлен в значение больше 1; чем выше значение `intercept_scaling`, тем меньше влияние регуляризации на него. Затем веса становятся `[w_x_1, ..., w_x_n, w_intercept*intercept_scaling]`, где `w_x_1, ..., w_x_n` представляют веса признаков и вес пересечения масштабируются на `intercept_scaling`. Это масштабирование позволяет члену пересечения иметь различное поведение регуляризации по сравнению с другими признаками.	1
	class_weight class_weight: dict или 'balanced', по умолчанию=None Установить параметр C класса i в ``class_weight[i]C`` для SVC. Если не указано, предполагается, что все классы имеют вычисление градиента с Режим "balanced" использует значения y для автоматической настройки веса, обратно пропорциональные частотам классов во входных данных как ``n_samples / (n_classes np.bincount(y))``.	None
	verbose verbose: int, по умолчанию=0 Включить подробный вывод. Обратите внимание, что эта настройка использует настройка времени выполнения на процесс в liblinear, которая, если включена, может не работать правильно в многопоточном контексте.	0
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет псевдослучайной генерацией чисел для перемешивания данных для двойственный координатный спуск (если ``dual=True``). Когда ``dual=False`` базовая реализация :class:`LinearSVC` не является случайной и ``random_state`` не влияет на результаты. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	None
	max_iter max_iter: int, по умолчанию=1000 Максимальное количество итераций для выполнения.	10000

Выбор уменьшения размерности с помощью Pipeline и GridSearchCV#

Иллюстрация Pipeline и GridSearchCV#

Кэширование преобразователей внутри Pipeline#

Эта страница

Иллюстрация `Pipeline` и `GridSearchCV`#

Кэширование преобразователей внутри `Pipeline`#