make_column_transformer#
- sklearn.compose.make_column_transformer(*преобразователи, остаток='drop', sparse_threshold=0.3, n_jobs=None, verbose=False, verbose_feature_names_out=True, force_int_remainder_cols='устаревший')[источник]#
Создать ColumnTransformer из заданных преобразователей.
Это сокращение для конструктора ColumnTransformer; оно не требует и не разрешает именования преобразователей. Вместо этого им будут автоматически присвоены имена на основе их типов. Оно также не позволяет взвешивание с
transformer_weights.Подробнее в Руководство пользователя.
- Параметры:
- *трансформерыкортежи
Кортежи вида (transformer, columns), указывающие объекты-трансформеры, которые должны быть применены к подмножествам данных.
- преобразователь{‘drop’, ‘passthrough’} или оценщик
Оценщик должен поддерживать fit и преобразовать. Специальные строки 'drop' и 'passthrough' также принимаются, чтобы указать удалить столбцы или передать их без преобразования, соответственно.
- столбцыstr, array-like из str, int, array-like из int, slice, array-like из bool или callable
Индексирует данные по второй оси. Целые числа интерпретируются как позиционные столбцы, в то время как строки могут ссылаться на столбцы DataFrame по имени. Скалярная строка или целое число должны использоваться там, где
transformerожидает, что X будет одномерным массивоподобным объектом (вектором), иначе двумерный массив будет передан трансформатору. Вызываемый объект получает входные данныеXи может возвращать любой из вышеперечисленных. Чтобы выбрать несколько столбцов по имени или типу данных, вы можете использоватьmake_column_selector.
- остаток{‘drop’, ‘passthrough’} или estimator, default=’drop’
По умолчанию, только указанные столбцы в
transformersпреобразуются и объединяются в выходных данных, а неуказанные столбцы удаляются. (по умолчанию'drop'). Указавremainder='passthrough', все оставшиеся столбцы, которые не были указаны вtransformersбудет автоматически пропущен. Это подмножество столбцов объединяется с выходом преобразователей. Установивremainderчтобы быть оценщиком, оставшиеся неуказанные столбцы будут использоватьremainderоценщик. Оценщик должен поддерживать fit и преобразовать.- sparse_thresholdfloat, default=0.3
Если преобразованный выход состоит из смеси разреженных и плотных данных, он будет сложен как разреженная матрица, если плотность ниже этого значения. Используйте
sparse_threshold=0всегда возвращать плотные данные. Когда преобразованный вывод состоит полностью из разреженных или плотных данных, результат стекирования будет разреженным или плотным соответственно, и это ключевое слово будет проигнорировано.- n_jobsint, default=None
Количество параллельно выполняемых задач.
Noneозначает 1, если только не вjoblib.parallel_backendконтекст.-1означает использование всех процессоров. См. Глоссарий для получения дополнительной информации.- verbosebool, по умолчанию=False
Если True, затраченное время на обучение каждого преобразователя будет выводиться по завершении.
- verbose_feature_names_outbool, по умолчанию=True
Если True,
ColumnTransformer.get_feature_names_outбудет добавлять префикс ко всем именам признаков с именем преобразователя, который сгенерировал этот признак. Если False,ColumnTransformer.get_feature_names_outне будет добавлять префиксы к именам признаков и выдаст ошибку, если имена признаков не уникальны.Добавлено в версии 1.0.
- force_int_remainder_colsbool, по умолчанию=True
Этот параметр не оказывает влияния.
Примечание
Если вы не обращаетесь к списку столбцов для оставшихся столбцов в
ColumnTransformer.transformers_атрибут fitted, вам не нужно устанавливать этот параметр.Добавлено в версии 1.5.
Изменено в версии 1.7: Значение по умолчанию для
force_int_remainder_colsизменится сTruetoFalseв версии 1.7.Устарело с версии 1.7:
force_int_remainder_colsустарел и будет удалён в версии 1.9.
- Возвращает:
- ct: Кластеризация Mean Shift на синтетических 2D данных с 3 классами.ColumnTransformer
Возвращает
ColumnTransformerобъект.
Смотрите также
ColumnTransformerКласс, позволяющий объединять выходы нескольких объектов-трансформеров, используемых на подмножествах столбцов данных, в единое пространство признаков.
Примеры
>>> from sklearn.preprocessing import StandardScaler, OneHotEncoder >>> from sklearn.compose import make_column_transformer >>> make_column_transformer( ... (StandardScaler(), ['numerical_column']), ... (OneHotEncoder(), ['categorical_column'])) ColumnTransformer(transformers=[('standardscaler', StandardScaler(...), ['numerical_column']), ('onehotencoder', OneHotEncoder(...), ['categorical_column'])])
Примеры галереи#
Поддержка категориальных признаков в градиентном бустинге
Распространённые ошибки в интерпретации коэффициентов линейных моделей