VarianceThreshold#

класс sklearn.feature_selection.VarianceThreshold(порог=0.0)[источник]#

Селектор признаков, который удаляет все признаки с низкой дисперсией.

Этот алгоритм выбора признаков рассматривает только признаки (X), а не желаемые выходы (y), и поэтому может использоваться для обучения без учителя.

Подробнее в Руководство пользователя.

Параметры:

порогfloat, по умолчанию=0: Признаки с дисперсией обучающей выборки ниже этого порога будут удалены. По умолчанию сохраняются все признаки с ненулевой дисперсией, т.е. удаляются признаки, имеющие одинаковое значение во всех образцах.

Атрибуты:

variances_массив, форма (n_features,): Дисперсии отдельных признаков.
n_features_in_int: Количество признаков, замеченных во время fit.

Добавлено в версии 0.24.
feature_names_in_ndarray формы (n_features_in_,): Имена признаков, наблюдаемых во время fit. Определено только когда X имеет имена признаков, которые все являются строками.

Добавлено в версии 1.0.

Смотрите также

SelectFromModel: Мета-трансформер для выбора признаков на основе весов важности.
SelectPercentile: Выбор признаков в соответствии с процентилем наивысших оценок.
SequentialFeatureSelector: Преобразователь, выполняющий последовательный отбор признаков.

Примечания

Допускает NaN во входных данных. Вызывает ValueError, если ни один признак в X не соответствует порогу дисперсии.

Примеры

Следующий набор данных имеет целочисленные признаки, два из которых одинаковы в каждом образце. Они удаляются при настройке по умолчанию для порога:

>>> from sklearn.feature_selection import VarianceThreshold
>>> X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]
>>> selector = VarianceThreshold()
>>> selector.fit_transform(X)
array([[2, 0],
       [1, 4],
       [1, 1]])

fit(X, y=None)[источник]#

Изучить эмпирические дисперсии из X.

Параметры:

X{array-like, sparse matrix}, форма (n_samples, n_features): Данные, для которых вычисляются дисперсии, где n_samples это количество образцов и n_features это количество признаков.
yлюбой, по умолчанию=None: Игнорируется. Этот параметр существует только для совместимости с sklearn.pipeline.Pipeline.

Возвращает:

selfobject: Возвращает сам экземпляр.

fit_transform(X, y=None, **fit_params)[источник]#

Обучение на данных с последующим преобразованием.

Обучает преобразователь на X и y с необязательными параметрами fit_params и возвращает преобразованную версию X.

Параметры:

Xarray-like формы (n_samples, n_features): Входные выборки.
yarray-like формы (n_samples,) или (n_samples, n_outputs), default=None: Целевые значения (None для неконтролируемых преобразований).
**fit_paramsdict: Дополнительные параметры обучения. Передавайте только если оценщик принимает дополнительные параметры в своем fit метод.

Возвращает:

X_newndarray массив формы (n_samples, n_features_new): Преобразованный массив.

get_feature_names_out(input_features=None)[источник]#

Маскировать имена признаков в соответствии с выбранными признаками.

Параметры:

input_featuresarray-like из str или None, по умолчанию=None

Входные признаки.

Если input_features является None, затем feature_names_in_ используется как имена признаков в. Если feature_names_in_ не определено, тогда генерируются следующие имена входных признаков: ["x0", "x1", ..., "x(n_features_in_ - 1)"].
Если input_features является массивоподобным, тогда input_features должен соответствовать feature_names_in_ if feature_names_in_ определен.

Возвращает:

feature_names_outndarray из str объектов: Преобразованные имена признаков.

6332()[источник]#

Получить маршрутизацию метаданных этого объекта.

Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.

Возвращает:

маршрутизацияMetadataRequest: A MetadataRequest Инкапсуляция информации о маршрутизации.

get_params(глубокий=True)[источник]#

Получить параметры для этого оценщика.

Параметры:

глубокийbool, по умолчанию=True: Если True, вернет параметры для этого оценщика и вложенных подобъектов, которые являются оценщиками.

Возвращает:

paramsdict: Имена параметров, сопоставленные с их значениями.

get_support(индексы=False)[источник]#

Получить маску или целочисленный индекс выбранных признаков.

Параметры:

индексыbool, по умолчанию=False: Если True, возвращаемое значение будет массивом целых чисел, а не булевой маской.

Возвращает:

поддержкамассив: Индекс, который выбирает сохраняемые признаки из вектора признаков. Если indices равно False, это булев массив формы [# входных признаков], в котором элемент равен True, если соответствующий признак выбран для сохранения. Если indices если True, это целочисленный массив формы [# выходных признаков], значения которого являются индексами входного вектора признаков.

inverse_transform(X)[источник]#

Обратить операцию преобразования.

Параметры:

Xмассив формы [n_samples, n_selected_features]: Входные образцы.

Возвращает:

X_originalмассив формы [n_samples, n_original_features]: X со столбцами нулей, вставленными там, где признаки были бы удалены с помощью transform.

set_output(*, преобразовать=None)[источник]#

Установить контейнер вывода.

См. Введение API set_output для примера использования API.

Параметры:

преобразовать{“default”, “pandas”, “polars”}, по умолчанию=None

Настройка вывода transform и fit_transform.

"default": Формат вывода трансформера по умолчанию
"pandas": DataFrame вывод
"polars": Вывод Polars
None: Конфигурация преобразования не изменена

Добавлено в версии 1.4: "polars" опция была добавлена.

Возвращает:

selfэкземпляр estimator: Экземпляр оценщика.

set_params(**params)[источник]#

Установить параметры этого оценщика.

Метод работает как на простых оценщиках, так и на вложенных объектах (таких как Pipeline). Последние имеют параметры вида __ чтобы можно было обновить каждый компонент вложенного объекта.

Параметры:

**paramsdict: Параметры оценщика.

Возвращает:

selfэкземпляр estimator: Экземпляр оценщика.

преобразовать(X)[источник]#

Уменьшить X до выбранных признаков.

Параметры:

Xмассив формы [n_samples, n_features]: Входные образцы.

Возвращает:

X_rмассив формы [n_samples, n_selected_features]: Входные выборки только с выбранными признаками.

VarianceThreshold#

Эта страница