MissingIndicator#

класс sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', разреженный='auto', error_on_new=True)[источник]#

Бинарные индикаторы пропущенных значений.

Обратите внимание, что этот компонент обычно не должен использоваться в базовом Pipeline состоящий из трансформеров и классификатора, но может быть добавлен с использованием FeatureUnion или ColumnTransformer.

Подробнее в Руководство пользователя.

Добавлено в версии 0.20.

Параметры:
missing_valuesint, float, str, np.nan или None, по умолчанию=np.nan

Заполнитель для пропущенных значений. Все вхождения missing_values будут импутированы. Для датафреймов pandas с нуллабельными целочисленными типами данных с пропущенными значениями, missing_values должно быть установлено в np.nan, поскольку pd.NA будет преобразовано в np.nan.

features{‘missing-only’, ‘all’}, по умолчанию ‘missing-only’

Должна ли маска импутера представлять все или подмножество признаков.

  • Если 'missing-only' (по умолчанию), маска импутера будет представлять только признаки, содержащие пропущенные значения во время обучения.

  • Если 'all', маска импутера будет представлять все признаки.

разреженныйbool или 'auto', по умолчанию='auto'

Должен ли формат маски импутера быть разреженным или плотным.

  • Если 'auto' (по умолчанию), маска импутера будет того же типа, что и входные данные.

  • Если True, маска импутера будет разреженной матрицей.

  • Если False, маска импутера будет массивом numpy.

error_on_newbool, по умолчанию=True

Если True, transform выдаст ошибку, когда есть признаки с пропущенными значениями, у которых нет пропущенных значений в fit. Это применимо только когда features='missing-only'.

Атрибуты:
features_ndarray формы (n_missing_features,) или (n_features,)

Индексы признаков, которые будут возвращены при вызове transform. Они вычисляются во время fit. Если features='all', features_ равно range(n_features).

n_features_in_int

Количество признаков, замеченных во время fit.

Добавлено в версии 0.24.

feature_names_in_ndarray формы (n_features_in_,)

Имена признаков, наблюдаемых во время fit. Определено только когда X имеет имена признаков, которые все являются строками.

Добавлено в версии 1.0.

Смотрите также

SimpleImputer

Одномерное заполнение пропущенных значений.

IterativeImputer

Многомерное заполнение пропущенных значений.

Примеры

>>> import numpy as np
>>> from sklearn.impute import MissingIndicator
>>> X1 = np.array([[np.nan, 1, 3],
...                [4, 0, np.nan],
...                [8, 1, 0]])
>>> X2 = np.array([[5, 1, np.nan],
...                [np.nan, 2, 3],
...                [2, 4, 0]])
>>> indicator = MissingIndicator()
>>> indicator.fit(X1)
MissingIndicator()
>>> X2_tr = indicator.transform(X2)
>>> X2_tr
array([[False,  True],
       [ True, False],
       [False, False]])
fit(X, y=None)[источник]#

Настроить преобразователь на X.

Параметры:
X{array-like, sparse matrix} формы (n_samples, n_features)

Входные данные, где n_samples — это количество образцов и n_features это количество признаков.

yИгнорируется

Не используется, присутствует для согласованности API по соглашению.

Возвращает:
selfobject

Обученный оценщик.

fit_transform(X, y=None)[источник]#

Сгенерировать индикатор пропущенных значений для X.

Параметры:
X{array-like, sparse matrix} формы (n_samples, n_features)

Входные данные для завершения.

yИгнорируется

Не используется, присутствует для согласованности API по соглашению.

Возвращает:
Xt{ndarray, разреженная матрица} формы (n_samples, n_features) или (n_samples, n_features_with_missing)

Индикатор пропущенных значений для входных данных. Тип данных Xt будет логическим.

get_feature_names_out(input_features=None)[источник]#

Получить имена выходных признаков для преобразования.

Параметры:
input_featuresarray-like из str или None, по умолчанию=None

Входные признаки.

  • Если input_features является None, затем feature_names_in_ используется как имена признаков в. Если feature_names_in_ не определено, тогда генерируются следующие имена входных признаков: ["x0", "x1", ..., "x(n_features_in_ - 1)"].

  • Если input_features является массивоподобным, тогда input_features должен соответствовать feature_names_in_ if feature_names_in_ определен.

Возвращает:
feature_names_outndarray из str объектов

Преобразованные имена признаков.

6332()[источник]#

Получить маршрутизацию метаданных этого объекта.

Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.

Возвращает:
маршрутизацияMetadataRequest

A MetadataRequest Инкапсуляция информации о маршрутизации.

get_params(глубокий=True)[источник]#

Получить параметры для этого оценщика.

Параметры:
глубокийbool, по умолчанию=True

Если True, вернет параметры для этого оценщика и вложенных подобъектов, которые являются оценщиками.

Возвращает:
paramsdict

Имена параметров, сопоставленные с их значениями.

set_output(*, преобразовать=None)[источник]#

Установить контейнер вывода.

См. Введение API set_output для примера использования API.

Параметры:
преобразовать{“default”, “pandas”, “polars”}, по умолчанию=None

Настройка вывода transform и fit_transform.

  • "default": Формат вывода трансформера по умолчанию

  • "pandas": DataFrame вывод

  • "polars": Вывод Polars

  • None: Конфигурация преобразования не изменена

Добавлено в версии 1.4: "polars" опция была добавлена.

Возвращает:
selfэкземпляр estimator

Экземпляр оценщика.

set_params(**params)[источник]#

Установить параметры этого оценщика.

Метод работает как на простых оценщиках, так и на вложенных объектах (таких как Pipeline). Последние имеют параметры вида __ чтобы можно было обновить каждый компонент вложенного объекта.

Параметры:
**paramsdict

Параметры оценщика.

Возвращает:
selfэкземпляр estimator

Экземпляр оценщика.

преобразовать(X)[источник]#

Сгенерировать индикатор пропущенных значений для X.

Параметры:
X{array-like, sparse matrix} формы (n_samples, n_features)

Входные данные для завершения.

Возвращает:
Xt{ndarray, разреженная матрица} формы (n_samples, n_features) или (n_samples, n_features_with_missing)

Индикатор пропущенных значений для входных данных. Тип данных Xt будет логическим.