Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Конвейер ANOVA SVM#

Этот пример показывает, как выбор признаков может быть легко интегрирован в конвейер машинного обучения.

Мы также показываем, что вы можете легко проверить часть конвейера.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Мы начнем с генерации набора данных для бинарной классификации. Затем мы разделим набор данных на два подмножества.

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(
    n_features=20,
    n_informative=3,
    n_redundant=0,
    n_classes=2,
    n_clusters_per_class=2,
    random_state=42,
)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

Распространённая ошибка при выборе признаков — поиск подмножества дискриминативных признаков на полном наборе данных, вместо использования только обучающего набора. Использование scikit-learn Pipeline предотвращает такую ошибку.

Здесь мы продемонстрируем, как построить конвейер, где первым шагом будет отбор признаков.

При вызове fit на обучающих данных, будет выбран подмножество признаков, и индекс этих выбранных признаков будет сохранен. Селектор признаков затем уменьшит количество признаков и передаст это подмножество классификатору, который будет обучен.

from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.pipeline import make_pipeline
from sklearn.svm import LinearSVC

anova_filter = SelectKBest(f_classif, k=3)
clf = LinearSVC()
anova_svm = make_pipeline(anova_filter, clf)
anova_svm.fit(X_train, y_train)

Pipeline(steps=[('selectkbest', SelectKBest(k=3)), ('linearsvc', LinearSVC())])

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

После завершения обучения мы можем делать прогнозы на новых, невидимых выборках. В этом случае селектор признаков выберет только наиболее дискриминативные признаки на основе информации, сохранённой во время обучения. Затем данные будут переданы классификатору, который сделает прогноз.

Здесь мы показываем итоговые метрики через отчёт о классификации.

from sklearn.metrics import classification_report

y_pred = anova_svm.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.80      0.86        15
           1       0.75      0.90      0.82        10

    accuracy                           0.84        25
   macro avg       0.84      0.85      0.84        25
weighted avg       0.85      0.84      0.84        25

Имейте в виду, что вы можете проверить шаг в конвейере. Например, нас может интересовать параметры классификатора. Поскольку мы выбрали три признака, мы ожидаем получить три коэффициента.

anova_svm[-1].coef_

array([[0.75788833, 0.27161955, 0.26113448]])

Однако мы не знаем, какие признаки были выбраны из исходного набора данных. Мы могли бы действовать несколькими способами. Здесь мы инвертируем преобразование этих коэффициентов, чтобы получить информацию об исходном пространстве.

anova_svm[:-1].inverse_transform(anova_svm[-1].coef_)

array([[0.        , 0.        , 0.75788833, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.27161955,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.26113448]])

Мы видим, что признаки с ненулевыми коэффициентами являются выбранными признаками на первом шаге.

Общее время выполнения скрипта: (0 минут 0.016 секунд)

Связанные примеры

Рекурсивное исключение признаков с перекрестной проверкой

Основанный на модели и последовательный отбор признаков

Пользовательская стратегия повторного обучения для поиска по сетке с кросс-валидацией

Одномерный отбор признаков

Галерея, созданная Sphinx-Gallery

	шаги steps: список кортежей Список кортежей (имя шага, оценщик), которые должны быть соединены в цепочку последовательный порядок. Для совместимости с API scikit-learn, все шаги должен определять `fit`. Все не последние шаги также должны определять `transform`. См. :ref:`Комбинирование оценщиков ` для получения дополнительной информации.	[('selectkbest', ...), ('linearsvc', ...)]
	transform_input transform_input: list of str, default=None Имена параметров :term:`metadata`, которые должны быть преобразованы конвейер перед передачей его шагу, который его потребляет. Это позволяет преобразовывать некоторые входные аргументы для ``fit`` (кроме ``X``) для преобразования шагами конвейера до шага, который требует их. Требование определяется через :ref:`маршрутизацию метаданных `. Например, это можно использовать для передачи набора валидации через конвейер. Вы можете установить это только если включена маршрутизация метаданных, что вы можно включить, используя ``sklearn.set_config(enable_metadata_routing=True)``. .. versionadded:: 1.6	None
	память memory: строка или объект с интерфейсом joblib.Memory, по умолчанию=None Используется для кэширования обученных трансформеров конвейера. Последний шаг никогда не будет кэшироваться, даже если это трансформер. По умолчанию, никакие кэширование выполняется. Если задана строка, это путь к директория кэширования. Включение кэширования запускает клонирование преобразователей перед обучением. Следовательно, экземпляр трансформатора, переданный в конвейер не может быть проверен напрямую. Используйте атрибут `named_steps` или ``steps`` для проверки оценщиков внутри конвейера. Кэширование трансформеры выгодны, когда подгонка занимает много времени. См. :ref:`sphx_glr_auto_examples_neighbors_plot_caching_nearest_neighbors.py` для примера о том, как включить кэширование.	None
	verbose verbose: bool, default=False Если True, затраченное время на обучение каждого шага будет выводиться по мере его выполнения. завершено.	False

	штраф penalty: {'l1', 'l2'}, default='l2' Определяет норму, используемую в штрафе. 'l2' penalty - стандарт, используемый в SVC. 'l1' приводит к ``coef_`` векторы, которые являются разреженными.	'l2'
	потеря loss: {'hinge', 'squared_hinge'}, по умолчанию='squared_hinge' Определяет функцию потерь. 'hinge' — стандартная потеря SVM (используется, например, классом SVC), в то время как 'squared_hinge' является квадрат потерь на шарнире. Комбинация ``penalty='l1'`` и ``loss='hinge'`` не поддерживается.	'squared_hinge'
	dual dual: "auto" или bool, по умолчанию="auto" Выберите алгоритм для решения двойственной или прямой задачи задача оптимизации. Предпочитайте dual=False, когда n_samples > n_features. `dual="auto"` автоматически выберет значение параметра, на основе значений `n_samples`, `n_features`, `loss`, `multi_class` и `penalty`. Если `n_samples` < `n_features` и оптимизатор поддерживает выбранные `loss`, `multi_class` и `penalty`, тогда dual будет установлен в True, иначе он будет установлен в False. .. versionchanged:: 1.3 Опция `"auto"` добавлена в версии 1.3 и будет использоваться по умолчанию в версии 1.5.	'auto'
	tol tol: float, default=1e-4 Допуск для критериев остановки.	0.0001
	C C: float, default=1.0 Параметр регуляризации. Сила регуляризации обратно пропорционально C. Должно быть строго положительным. Для интуитивной визуализации эффектов масштабирования параметр регуляризации C, см. :ref:`sphx_glr_auto_examples_svm_plot_svm_scale_c.py`.	1.0
	multi_class multi_class: {'ovr', 'crammer_singer'}, default='ovr' Определяет стратегию многоклассовой классификации, если `y` содержит более чем два класса. ``"ovr"`` обучает n_classes классификаторов "один против всех", в то время как ``"crammer_singer"`` оптимизирует совместную целевую функцию по всем классам. Хотя `crammer_singer` интересен с теоретической точки зрения поскольку он последователен, он редко используется на практике, так как редко приводит к лучшей точности и требует больше вычислений. Если выбран ``"crammer_singer"``, опции loss, penalty и dual будет проигнорирован.	'ovr'
	fit_intercept fit_intercept: bool, по умолчанию=True Определяет, нужно ли подгонять свободный член. Если установлено в True, вектор признаков расширена для включения свободного члена: `[x_1, ..., x_n, 1]`, где 1 соответствует свободному члену. Если установлено в False, свободный член не будет используется в вычислениях (т.е. ожидается, что данные уже центрированы).	True
	intercept_scaling intercept_scaling: float, по умолчанию=1.0 Когда `fit_intercept` равен True, вектор экземпляра x становится ``[x_1, ..., x_n, intercept_scaling]``, т.е. “синтетический” признак с постоянное значение, равное `intercept_scaling`, добавляется к экземпляру вектор. Свободный член становится intercept_scaling * синтетический признак вес. Обратите внимание, что liblinear внутренне штрафует intercept, обрабатывая его как любой другой термин в векторе признаков. Чтобы уменьшить влияние регуляризации на пересечение, `intercept_scaling` параметр может быть установлен в значение больше 1; чем выше значение `intercept_scaling`, тем меньше влияние регуляризации на него. Затем веса становятся `[w_x_1, ..., w_x_n, w_intercept*intercept_scaling]`, где `w_x_1, ..., w_x_n` представляют веса признаков и вес пересечения масштабируются на `intercept_scaling`. Это масштабирование позволяет члену пересечения иметь различное поведение регуляризации по сравнению с другими признаками.	1
	class_weight class_weight: dict или 'balanced', по умолчанию=None Установить параметр C класса i в ``class_weight[i]C`` для SVC. Если не указано, предполагается, что все классы имеют вычисление градиента с Режим "balanced" использует значения y для автоматической настройки веса, обратно пропорциональные частотам классов во входных данных как ``n_samples / (n_classes np.bincount(y))``.	None
	verbose verbose: int, по умолчанию=0 Включить подробный вывод. Обратите внимание, что эта настройка использует настройка времени выполнения на процесс в liblinear, которая, если включена, может не работать правильно в многопоточном контексте.	0
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет псевдослучайной генерацией чисел для перемешивания данных для двойственный координатный спуск (если ``dual=True``). Когда ``dual=False`` базовая реализация :class:`LinearSVC` не является случайной и ``random_state`` не влияет на результаты. Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	None
	max_iter max_iter: int, по умолчанию=1000 Максимальное количество итераций для выполнения.	1000

	score_func score_func: вызываемый, по умолчанию=f_classif Функция, принимающая два массива X и y и возвращающая пару массивов (оценки, p-значения) или одиночный массив с оценками. По умолчанию используется f_classif (см. ниже "Смотрите также"). Функция по умолчанию только работает с задачами классификации. .. versionadded:: 0.18
	k k: int или "all", по умолчанию=10 Количество лучших признаков для выбора. Опция "all" обходит выбор, для использования в поиске параметров.	3

Конвейер ANOVA SVM#

Эта страница