make_column_transformer#

sklearn.compose.make_column_transformer(*преобразователи, остаток='drop', sparse_threshold=0.3, n_jobs=None, verbose=False, verbose_feature_names_out=True, force_int_remainder_cols='устаревший')[источник]#

Создать ColumnTransformer из заданных преобразователей.

Это сокращение для конструктора ColumnTransformer; оно не требует и не разрешает именования преобразователей. Вместо этого им будут автоматически присвоены имена на основе их типов. Оно также не позволяет взвешивание с transformer_weights.

Подробнее в Руководство пользователя.

Параметры:

*трансформерыкортежи

Кортежи вида (transformer, columns), указывающие объекты-трансформеры, которые должны быть применены к подмножествам данных.

преобразователь{‘drop’, ‘passthrough’} или оценщик: Оценщик должен поддерживать fit и преобразовать. Специальные строки 'drop' и 'passthrough' также принимаются, чтобы указать удалить столбцы или передать их без преобразования, соответственно.
столбцыstr, array-like из str, int, array-like из int, slice, array-like из bool или callable: Индексирует данные по второй оси. Целые числа интерпретируются как позиционные столбцы, в то время как строки могут ссылаться на столбцы DataFrame по имени. Скалярная строка или целое число должны использоваться там, где transformer ожидает, что X будет одномерным массивоподобным объектом (вектором), иначе двумерный массив будет передан трансформатору. Вызываемый объект получает входные данные X и может возвращать любой из вышеперечисленных. Чтобы выбрать несколько столбцов по имени или типу данных, вы можете использовать make_column_selector.

остаток{‘drop’, ‘passthrough’} или estimator, default=’drop’

По умолчанию, только указанные столбцы в transformers преобразуются и объединяются в выходных данных, а неуказанные столбцы удаляются. (по умолчанию 'drop'). Указав remainder='passthrough', все оставшиеся столбцы, которые не были указаны в transformers будет автоматически пропущен. Это подмножество столбцов объединяется с выходом преобразователей. Установив remainder чтобы быть оценщиком, оставшиеся неуказанные столбцы будут использовать remainder оценщик. Оценщик должен поддерживать fit и преобразовать.

sparse_thresholdfloat, default=0.3

Если преобразованный выход состоит из смеси разреженных и плотных данных, он будет сложен как разреженная матрица, если плотность ниже этого значения. Используйте sparse_threshold=0 всегда возвращать плотные данные. Когда преобразованный вывод состоит полностью из разреженных или плотных данных, результат стекирования будет разреженным или плотным соответственно, и это ключевое слово будет проигнорировано.

n_jobsint, default=None

Количество параллельно выполняемых задач. None означает 1, если только не в joblib.parallel_backend контекст. -1 означает использование всех процессоров. См. Глоссарий для получения дополнительной информации.

verbosebool, по умолчанию=False

Если True, затраченное время на обучение каждого преобразователя будет выводиться по завершении.

verbose_feature_names_outbool, по умолчанию=True

Если True, ColumnTransformer.get_feature_names_out будет добавлять префикс ко всем именам признаков с именем преобразователя, который сгенерировал этот признак. Если False, ColumnTransformer.get_feature_names_out не будет добавлять префиксы к именам признаков и выдаст ошибку, если имена признаков не уникальны.

Добавлено в версии 1.0.

force_int_remainder_colsbool, по умолчанию=True

Этот параметр не оказывает влияния.

Примечание

Если вы не обращаетесь к списку столбцов для оставшихся столбцов в ColumnTransformer.transformers_ атрибут fitted, вам не нужно устанавливать этот параметр.

Добавлено в версии 1.5.

Изменено в версии 1.7: Значение по умолчанию для force_int_remainder_cols изменится с True to False в версии 1.7.

Устарело с версии 1.7: force_int_remainder_cols устарел и будет удалён в версии 1.9.

Возвращает:

ct: Кластеризация Mean Shift на синтетических 2D данных с 3 классами.ColumnTransformer: Возвращает ColumnTransformer объект.

Смотрите также

ColumnTransformer: Класс, позволяющий объединять выходы нескольких объектов-трансформеров, используемых на подмножествах столбцов данных, в единое пространство признаков.

Примеры

>>> from sklearn.preprocessing import StandardScaler, OneHotEncoder
>>> from sklearn.compose import make_column_transformer
>>> make_column_transformer(
...     (StandardScaler(), ['numerical_column']),
...     (OneHotEncoder(), ['categorical_column']))
ColumnTransformer(transformers=[('standardscaler', StandardScaler(...),
                                 ['numerical_column']),
                                ('onehotencoder', OneHotEncoder(...),
                                 ['categorical_column'])])

Примеры галереи#

Поддержка категориальных признаков в градиентном бустинге

Объедините предикторы с помощью стекинга

Распространённые ошибки в интерпретации коэффициентов линейных моделей

Отображение оценщиков и сложных конвейеров

Основные новости выпуска scikit-learn 0.23

make_column_transformer#

Примеры галереи#

Эта страница