SelectKBest#
-
класс sklearn.feature_selection.SelectKBest(score_func=
f_classif> , *, k=10)[источник]# Выбор признаков по k наивысшим оценкам.
Подробнее в Руководство пользователя.
- Параметры:
- score_funcвызываемый объект, по умолчанию=f_classif
Функция, принимающая два массива X и y и возвращающая пару массивов (scores, pvalues) или один массив с оценками. По умолчанию используется f_classif (см. ниже «Смотрите также»). Функция по умолчанию работает только с задачами классификации.
Добавлено в версии 0.18.
- kint или "all", по умолчанию=10
Количество лучших признаков для выбора. Опция "all" обходит выбор, для использования в поиске параметров.
- Атрибуты:
- scores_массивоподобный формы (n_features,)
Оценки признаков.
- pvalues_массивоподобный формы (n_features,)
p-значения оценок признаков, None если
score_funcвозвращались только оценки.- n_features_in_int
Количество признаков, замеченных во время fit.
Добавлено в версии 0.24.
- feature_names_in_ndarray формы (
n_features_in_,) Имена признаков, наблюдаемых во время fit. Определено только когда
Xимеет имена признаков, которые все являются строками.Добавлено в версии 1.0.
Смотрите также
f_classifANOVA F-значение между меткой/признаком для задач классификации.
mutual_info_classifВзаимная информация для дискретной цели.
chi2Статистики хи-квадрат неотрицательных признаков для задач классификации.
f_regressionF-значение между меткой/признаком для задач регрессии.
mutual_info_regressionВзаимная информация для непрерывной цели.
SelectPercentileВыбор признаков на основе процентиля наивысших оценок.
SelectFprВыбор признаков на основе теста ложноположительной частоты.
SelectFdrВыберите признаки на основе оцененного уровня ложных открытий.
SelectFweВыбор признаков на основе семейной ошибки.
GenericUnivariateSelectОдномерный селектор признаков с настраиваемым режимом.
Примечания
Связи между признаками с равными оценками будут разорваны неопределенным способом.
Этот фильтр поддерживает неконтролируемый выбор признаков, который требует только
Xдля вычисления оценок.Примеры
>>> from sklearn.datasets import load_digits >>> from sklearn.feature_selection import SelectKBest, chi2 >>> X, y = load_digits(return_X_y=True) >>> X.shape (1797, 64) >>> X_new = SelectKBest(chi2, k=20).fit_transform(X, y) >>> X_new.shape (1797, 20)
- fit(X, y=None)[источник]#
Запустить функцию оценки на (X, y) и получить соответствующие признаки.
- Параметры:
- Xarray-like формы (n_samples, n_features)
Обучающие входные выборки.
- yarray-like формы (n_samples,) или None
Целевые значения (метки классов в классификации, вещественные числа в регрессии). Если селектор неконтролируемый, то
yможет быть установлено вNone.
- Возвращает:
- selfobject
Возвращает сам экземпляр.
- fit_transform(X, y=None, **fit_params)[источник]#
Обучение на данных с последующим преобразованием.
Обучает преобразователь на
Xиyс необязательными параметрамиfit_paramsи возвращает преобразованную версиюX.- Параметры:
- Xarray-like формы (n_samples, n_features)
Входные выборки.
- yarray-like формы (n_samples,) или (n_samples, n_outputs), default=None
Целевые значения (None для неконтролируемых преобразований).
- **fit_paramsdict
Дополнительные параметры обучения. Передавайте только если оценщик принимает дополнительные параметры в своем
fitметод.
- Возвращает:
- X_newndarray массив формы (n_samples, n_features_new)
Преобразованный массив.
- get_feature_names_out(input_features=None)[источник]#
Маскировать имена признаков в соответствии с выбранными признаками.
- Параметры:
- input_featuresarray-like из str или None, по умолчанию=None
Входные признаки.
Если
input_featuresявляетсяNone, затемfeature_names_in_используется как имена признаков в. Еслиfeature_names_in_не определено, тогда генерируются следующие имена входных признаков:["x0", "x1", ..., "x(n_features_in_ - 1)"].Если
input_featuresявляется массивоподобным, тогдаinput_featuresдолжен соответствоватьfeature_names_in_iffeature_names_in_определен.
- Возвращает:
- feature_names_outndarray из str объектов
Преобразованные имена признаков.
- 6332()[источник]#
Получить маршрутизацию метаданных этого объекта.
Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.
- Возвращает:
- маршрутизацияMetadataRequest
A
MetadataRequestИнкапсуляция информации о маршрутизации.
- get_params(глубокий=True)[источник]#
Получить параметры для этого оценщика.
- Параметры:
- глубокийbool, по умолчанию=True
Если True, вернет параметры для этого оценщика и вложенных подобъектов, которые являются оценщиками.
- Возвращает:
- paramsdict
Имена параметров, сопоставленные с их значениями.
- get_support(индексы=False)[источник]#
Получить маску или целочисленный индекс выбранных признаков.
- Параметры:
- индексыbool, по умолчанию=False
Если True, возвращаемое значение будет массивом целых чисел, а не булевой маской.
- Возвращает:
- поддержкамассив
Индекс, который выбирает сохраняемые признаки из вектора признаков. Если
indicesравно False, это булев массив формы [# входных признаков], в котором элемент равен True, если соответствующий признак выбран для сохранения. Еслиindicesесли True, это целочисленный массив формы [# выходных признаков], значения которого являются индексами входного вектора признаков.
- inverse_transform(X)[источник]#
Обратить операцию преобразования.
- Параметры:
- Xмассив формы [n_samples, n_selected_features]
Входные образцы.
- Возвращает:
- X_originalмассив формы [n_samples, n_original_features]
Xсо столбцами нулей, вставленными там, где признаки были бы удалены с помощьюtransform.
- set_output(*, преобразовать=None)[источник]#
Установить контейнер вывода.
См. Введение API set_output для примера использования API.
- Параметры:
- преобразовать{“default”, “pandas”, “polars”}, по умолчанию=None
Настройка вывода
transformиfit_transform."default": Формат вывода трансформера по умолчанию"pandas": DataFrame вывод"polars": Вывод PolarsNone: Конфигурация преобразования не изменена
Добавлено в версии 1.4:
"polars"опция была добавлена.
- Возвращает:
- selfэкземпляр estimator
Экземпляр оценщика.
- set_params(**params)[источник]#
Установить параметры этого оценщика.
Метод работает как на простых оценщиках, так и на вложенных объектах (таких как
Pipeline). Последние имеют параметры видачтобы можно было обновить каждый компонент вложенного объекта.__ - Параметры:
- **paramsdict
Параметры оценщика.
- Возвращает:
- selfэкземпляр estimator
Экземпляр оценщика.
- преобразовать(X)[источник]#
Уменьшить X до выбранных признаков.
- Параметры:
- Xмассив формы [n_samples, n_features]
Входные образцы.
- Возвращает:
- X_rмассив формы [n_samples, n_selected_features]
Входные выборки только с выбранными признаками.
Примеры галереи#
Выбор уменьшения размерности с помощью Pipeline и GridSearchCV
Объединение нескольких методов извлечения признаков