Binarizer#

класс sklearn.preprocessing.Binarizer(*, порог=0.0, copy=True)[источник]#

Бинаризация данных (установка значений признаков в 0 или 1) в соответствии с порогом.

Значения больше порога отображаются в 1, а значения меньше или равные порогу — в 0. При пороге по умолчанию 0 только положительные значения отображаются в 1.

Бинаризация — это распространенная операция над текстовыми данными подсчета, где аналитик может решить учитывать только наличие или отсутствие признака, а не количественное количество вхождений, например.

Также может использоваться как этап предварительной обработки для оценщиков, которые рассматривают булевы случайные переменные (например, моделируемые с помощью распределения Бернулли в байесовской настройке).

Подробнее в Руководство пользователя.

Параметры:
порогfloat, по умолчанию=0.0

Значения признаков ниже или равные этому заменяются на 0, выше — на 1. Порог не может быть меньше 0 для операций с разреженными матрицами.

copybool, по умолчанию=True

Установите в False для выполнения бинаризации на месте и избежания копирования (если вход уже является массивом numpy или разреженной матрицей CSR scipy.sparse).

Атрибуты:
n_features_in_int

Количество признаков, замеченных во время fit.

Добавлено в версии 0.24.

feature_names_in_ndarray формы (n_features_in_,)

Имена признаков, наблюдаемых во время fit. Определено только когда X имеет имена признаков, которые все являются строками.

Добавлено в версии 1.0.

Смотрите также

binarize

коммуникация вокруг scikit-learn

KBinsDiscretizer

Бинирование непрерывных данных в интервалы.

OneHotEncoder

Закодировать категориальные признаки как однократно закодированный числовой массив.

Примечания

Если входные данные представлены разреженной матрицей, только ненулевые значения подвергаются обновлению с помощью Binarizer класс.

Этот оценщик без состояния и не требует обучения. Однако мы рекомендуем вызывать fit_transform вместо transform, так как проверка параметров выполняется только в fit.

Примеры

>>> from sklearn.preprocessing import Binarizer
>>> X = [[ 1., -1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1., -1.]]
>>> transformer = Binarizer().fit(X)  # fit does nothing.
>>> transformer
Binarizer()
>>> transformer.transform(X)
array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])
fit(X, y=None)[источник]#

Проверяет только параметры оценщика.

Этот метод позволяет: (i) проверить параметры оценщика и (ii) быть совместимым с API трансформеров scikit-learn.

Параметры:
X{array-like, sparse matrix} формы (n_samples, n_features)

Данные.

yNone

Игнорируется.

Возвращает:
selfobject

Обученный преобразователь.

fit_transform(X, y=None, **fit_params)[источник]#

Обучение на данных с последующим преобразованием.

Обучает преобразователь на X и y с необязательными параметрами fit_params и возвращает преобразованную версию X.

Параметры:
Xarray-like формы (n_samples, n_features)

Входные выборки.

yarray-like формы (n_samples,) или (n_samples, n_outputs), default=None

Целевые значения (None для неконтролируемых преобразований).

**fit_paramsdict

Дополнительные параметры обучения. Передавайте только если оценщик принимает дополнительные параметры в своем fit метод.

Возвращает:
X_newndarray массив формы (n_samples, n_features_new)

Преобразованный массив.

get_feature_names_out(input_features=None)[источник]#

Получить имена выходных признаков для преобразования.

Параметры:
input_featuresarray-like из str или None, по умолчанию=None

Входные признаки.

  • Если input_features является None, затем feature_names_in_ используется как имена признаков в. Если feature_names_in_ не определено, тогда генерируются следующие имена входных признаков: ["x0", "x1", ..., "x(n_features_in_ - 1)"].

  • Если input_features является массивоподобным, тогда input_features должен соответствовать feature_names_in_ if feature_names_in_ определен.

Возвращает:
feature_names_outndarray из str объектов

То же, что и входные признаки.

6332()[источник]#

Получить маршрутизацию метаданных этого объекта.

Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.

Возвращает:
маршрутизацияMetadataRequest

A MetadataRequest Инкапсуляция информации о маршрутизации.

get_params(глубокий=True)[источник]#

Получить параметры для этого оценщика.

Параметры:
глубокийbool, по умолчанию=True

Если True, вернет параметры для этого оценщика и вложенных подобъектов, которые являются оценщиками.

Возвращает:
paramsdict

Имена параметров, сопоставленные с их значениями.

set_output(*, преобразовать=None)[источник]#

Установить контейнер вывода.

См. Введение API set_output для примера использования API.

Параметры:
преобразовать{“default”, “pandas”, “polars”}, по умолчанию=None

Настройка вывода transform и fit_transform.

  • "default": Формат вывода трансформера по умолчанию

  • "pandas": DataFrame вывод

  • "polars": Вывод Polars

  • None: Конфигурация преобразования не изменена

Добавлено в версии 1.4: "polars" опция была добавлена.

Возвращает:
selfэкземпляр estimator

Экземпляр оценщика.

set_params(**params)[источник]#

Установить параметры этого оценщика.

Метод работает как на простых оценщиках, так и на вложенных объектах (таких как Pipeline). Последние имеют параметры вида __ чтобы можно было обновить каждый компонент вложенного объекта.

Параметры:
**paramsdict

Параметры оценщика.

Возвращает:
selfэкземпляр estimator

Экземпляр оценщика.

set_transform_request(*, copy: bool | None | str = '$UNCHANGED$') Binarizer[источник]#

Настроить, следует ли запрашивать передачу метаданных в transform метод.

Обратите внимание, что этот метод актуален только тогда, когда этот оценщик используется как под-оценщик внутри мета-оценщик и маршрутизация метаданных включена с помощью enable_metadata_routing=True (см. sklearn.set_config). Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.

Варианты для каждого параметра:

  • True: запрашиваются метаданные и передаются transform если предоставлено. Запрос игнорируется, если метаданные не предоставлены.

  • False: метаданные не запрашиваются, и мета-оценщик не передаст их в transform.

  • None: метаданные не запрашиваются, и мета-оценщик выдаст ошибку, если пользователь предоставит их.

  • str: метаданные должны передаваться мета-оценщику с этим заданным псевдонимом вместо исходного имени.

По умолчанию (sklearn.utils.metadata_routing.UNCHANGED) сохраняет существующий запрос. Это позволяет изменять запрос для некоторых параметров, но не для других.

Добавлено в версии 1.3.

Параметры:
copystr, True, False или None, по умолчанию=sklearn.utils.metadata_routing.UNCHANGED

Маршрутизация метаданных для copy параметр в transform.

Возвращает:
selfobject

Обновленный объект.

преобразовать(X, copy=None)[источник]#

Бинаризовать каждый элемент X.

Параметры:
X{array-like, sparse matrix} формы (n_samples, n_features)

Данные для бинаризации, элемент за элементом. Матрицы scipy.sparse должны быть в формате CSR, чтобы избежать ненужного копирования.

copybool

Копировать входные данные X или нет.

Возвращает:
X_tr{ndarray, разреженная матрица} формы (n_samples, n_features)

Преобразованный массив.