MissingIndicator#
- класс sklearn.impute.MissingIndicator(*, missing_values=nan, features='missing-only', разреженный='auto', error_on_new=True)[источник]#
Бинарные индикаторы пропущенных значений.
Обратите внимание, что этот компонент обычно не должен использоваться в базовом
Pipelineсостоящий из трансформеров и классификатора, но может быть добавлен с использованиемFeatureUnionилиColumnTransformer.Подробнее в Руководство пользователя.
Добавлено в версии 0.20.
- Параметры:
- missing_valuesint, float, str, np.nan или None, по умолчанию=np.nan
Заполнитель для пропущенных значений. Все вхождения
missing_valuesбудут импутированы. Для датафреймов pandas с нуллабельными целочисленными типами данных с пропущенными значениями,missing_valuesдолжно быть установлено вnp.nan, посколькуpd.NAбудет преобразовано вnp.nan.- features{‘missing-only’, ‘all’}, по умолчанию ‘missing-only’
Должна ли маска импутера представлять все или подмножество признаков.
Если
'missing-only'(по умолчанию), маска импутера будет представлять только признаки, содержащие пропущенные значения во время обучения.Если
'all', маска импутера будет представлять все признаки.
- разреженныйbool или 'auto', по умолчанию='auto'
Должен ли формат маски импутера быть разреженным или плотным.
Если
'auto'(по умолчанию), маска импутера будет того же типа, что и входные данные.Если
True, маска импутера будет разреженной матрицей.Если
False, маска импутера будет массивом numpy.
- error_on_newbool, по умолчанию=True
Если
True,transformвыдаст ошибку, когда есть признаки с пропущенными значениями, у которых нет пропущенных значений вfit. Это применимо только когдаfeatures='missing-only'.
- Атрибуты:
- features_ndarray формы (n_missing_features,) или (n_features,)
Индексы признаков, которые будут возвращены при вызове
transform. Они вычисляются во времяfit. Еслиfeatures='all',features_равноrange(n_features).- n_features_in_int
Количество признаков, замеченных во время fit.
Добавлено в версии 0.24.
- feature_names_in_ndarray формы (
n_features_in_,) Имена признаков, наблюдаемых во время fit. Определено только когда
Xимеет имена признаков, которые все являются строками.Добавлено в версии 1.0.
Смотрите также
SimpleImputerОдномерное заполнение пропущенных значений.
IterativeImputerМногомерное заполнение пропущенных значений.
Примеры
>>> import numpy as np >>> from sklearn.impute import MissingIndicator >>> X1 = np.array([[np.nan, 1, 3], ... [4, 0, np.nan], ... [8, 1, 0]]) >>> X2 = np.array([[5, 1, np.nan], ... [np.nan, 2, 3], ... [2, 4, 0]]) >>> indicator = MissingIndicator() >>> indicator.fit(X1) MissingIndicator() >>> X2_tr = indicator.transform(X2) >>> X2_tr array([[False, True], [ True, False], [False, False]])
- fit(X, y=None)[источник]#
Настроить преобразователь на
X.- Параметры:
- X{array-like, sparse matrix} формы (n_samples, n_features)
Входные данные, где
n_samples— это количество образцов иn_featuresэто количество признаков.- yИгнорируется
Не используется, присутствует для согласованности API по соглашению.
- Возвращает:
- selfobject
Обученный оценщик.
- fit_transform(X, y=None)[источник]#
Сгенерировать индикатор пропущенных значений для
X.- Параметры:
- X{array-like, sparse matrix} формы (n_samples, n_features)
Входные данные для завершения.
- yИгнорируется
Не используется, присутствует для согласованности API по соглашению.
- Возвращает:
- Xt{ndarray, разреженная матрица} формы (n_samples, n_features) или (n_samples, n_features_with_missing)
Индикатор пропущенных значений для входных данных. Тип данных
Xtбудет логическим.
- get_feature_names_out(input_features=None)[источник]#
Получить имена выходных признаков для преобразования.
- Параметры:
- input_featuresarray-like из str или None, по умолчанию=None
Входные признаки.
Если
input_featuresявляетсяNone, затемfeature_names_in_используется как имена признаков в. Еслиfeature_names_in_не определено, тогда генерируются следующие имена входных признаков:["x0", "x1", ..., "x(n_features_in_ - 1)"].Если
input_featuresявляется массивоподобным, тогдаinput_featuresдолжен соответствоватьfeature_names_in_iffeature_names_in_определен.
- Возвращает:
- feature_names_outndarray из str объектов
Преобразованные имена признаков.
- 6332()[источник]#
Получить маршрутизацию метаданных этого объекта.
Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.
- Возвращает:
- маршрутизацияMetadataRequest
A
MetadataRequestИнкапсуляция информации о маршрутизации.
- get_params(глубокий=True)[источник]#
Получить параметры для этого оценщика.
- Параметры:
- глубокийbool, по умолчанию=True
Если True, вернет параметры для этого оценщика и вложенных подобъектов, которые являются оценщиками.
- Возвращает:
- paramsdict
Имена параметров, сопоставленные с их значениями.
- set_output(*, преобразовать=None)[источник]#
Установить контейнер вывода.
См. Введение API set_output для примера использования API.
- Параметры:
- преобразовать{“default”, “pandas”, “polars”}, по умолчанию=None
Настройка вывода
transformиfit_transform."default": Формат вывода трансформера по умолчанию"pandas": DataFrame вывод"polars": Вывод PolarsNone: Конфигурация преобразования не изменена
Добавлено в версии 1.4:
"polars"опция была добавлена.
- Возвращает:
- selfэкземпляр estimator
Экземпляр оценщика.
- set_params(**params)[источник]#
Установить параметры этого оценщика.
Метод работает как на простых оценщиках, так и на вложенных объектах (таких как
Pipeline). Последние имеют параметры видачтобы можно было обновить каждый компонент вложенного объекта.__ - Параметры:
- **paramsdict
Параметры оценщика.
- Возвращает:
- selfэкземпляр estimator
Экземпляр оценщика.
- преобразовать(X)[источник]#
Сгенерировать индикатор пропущенных значений для
X.- Параметры:
- X{array-like, sparse matrix} формы (n_samples, n_features)
Входные данные для завершения.
- Возвращает:
- Xt{ndarray, разреженная матрица} формы (n_samples, n_features) или (n_samples, n_features_with_missing)
Индикатор пропущенных значений для входных данных. Тип данных
Xtбудет логическим.