Binarizer#
- класс sklearn.preprocessing.Binarizer(*, порог=0.0, copy=True)[источник]#
Бинаризация данных (установка значений признаков в 0 или 1) в соответствии с порогом.
Значения больше порога отображаются в 1, а значения меньше или равные порогу — в 0. При пороге по умолчанию 0 только положительные значения отображаются в 1.
Бинаризация — это распространенная операция над текстовыми данными подсчета, где аналитик может решить учитывать только наличие или отсутствие признака, а не количественное количество вхождений, например.
Также может использоваться как этап предварительной обработки для оценщиков, которые рассматривают булевы случайные переменные (например, моделируемые с помощью распределения Бернулли в байесовской настройке).
Подробнее в Руководство пользователя.
- Параметры:
- порогfloat, по умолчанию=0.0
Значения признаков ниже или равные этому заменяются на 0, выше — на 1. Порог не может быть меньше 0 для операций с разреженными матрицами.
- copybool, по умолчанию=True
Установите в False для выполнения бинаризации на месте и избежания копирования (если вход уже является массивом numpy или разреженной матрицей CSR scipy.sparse).
- Атрибуты:
Смотрите также
binarizeкоммуникация вокруг scikit-learn
KBinsDiscretizerБинирование непрерывных данных в интервалы.
OneHotEncoderЗакодировать категориальные признаки как однократно закодированный числовой массив.
Примечания
Если входные данные представлены разреженной матрицей, только ненулевые значения подвергаются обновлению с помощью
Binarizerкласс.Этот оценщик без состояния и не требует обучения. Однако мы рекомендуем вызывать
fit_transformвместоtransform, так как проверка параметров выполняется только вfit.Примеры
>>> from sklearn.preprocessing import Binarizer >>> X = [[ 1., -1., 2.], ... [ 2., 0., 0.], ... [ 0., 1., -1.]] >>> transformer = Binarizer().fit(X) # fit does nothing. >>> transformer Binarizer() >>> transformer.transform(X) array([[1., 0., 1.], [1., 0., 0.], [0., 1., 0.]])
- fit(X, y=None)[источник]#
Проверяет только параметры оценщика.
Этот метод позволяет: (i) проверить параметры оценщика и (ii) быть совместимым с API трансформеров scikit-learn.
- Параметры:
- X{array-like, sparse matrix} формы (n_samples, n_features)
Данные.
- yNone
Игнорируется.
- Возвращает:
- selfobject
Обученный преобразователь.
- fit_transform(X, y=None, **fit_params)[источник]#
Обучение на данных с последующим преобразованием.
Обучает преобразователь на
Xиyс необязательными параметрамиfit_paramsи возвращает преобразованную версиюX.- Параметры:
- Xarray-like формы (n_samples, n_features)
Входные выборки.
- yarray-like формы (n_samples,) или (n_samples, n_outputs), default=None
Целевые значения (None для неконтролируемых преобразований).
- **fit_paramsdict
Дополнительные параметры обучения. Передавайте только если оценщик принимает дополнительные параметры в своем
fitметод.
- Возвращает:
- X_newndarray массив формы (n_samples, n_features_new)
Преобразованный массив.
- get_feature_names_out(input_features=None)[источник]#
Получить имена выходных признаков для преобразования.
- Параметры:
- input_featuresarray-like из str или None, по умолчанию=None
Входные признаки.
Если
input_featuresявляетсяNone, затемfeature_names_in_используется как имена признаков в. Еслиfeature_names_in_не определено, тогда генерируются следующие имена входных признаков:["x0", "x1", ..., "x(n_features_in_ - 1)"].Если
input_featuresявляется массивоподобным, тогдаinput_featuresдолжен соответствоватьfeature_names_in_iffeature_names_in_определен.
- Возвращает:
- feature_names_outndarray из str объектов
То же, что и входные признаки.
- 6332()[источник]#
Получить маршрутизацию метаданных этого объекта.
Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.
- Возвращает:
- маршрутизацияMetadataRequest
A
MetadataRequestИнкапсуляция информации о маршрутизации.
- get_params(глубокий=True)[источник]#
Получить параметры для этого оценщика.
- Параметры:
- глубокийbool, по умолчанию=True
Если True, вернет параметры для этого оценщика и вложенных подобъектов, которые являются оценщиками.
- Возвращает:
- paramsdict
Имена параметров, сопоставленные с их значениями.
- set_output(*, преобразовать=None)[источник]#
Установить контейнер вывода.
См. Введение API set_output для примера использования API.
- Параметры:
- преобразовать{“default”, “pandas”, “polars”}, по умолчанию=None
Настройка вывода
transformиfit_transform."default": Формат вывода трансформера по умолчанию"pandas": DataFrame вывод"polars": Вывод PolarsNone: Конфигурация преобразования не изменена
Добавлено в версии 1.4:
"polars"опция была добавлена.
- Возвращает:
- selfэкземпляр estimator
Экземпляр оценщика.
- set_params(**params)[источник]#
Установить параметры этого оценщика.
Метод работает как на простых оценщиках, так и на вложенных объектах (таких как
Pipeline). Последние имеют параметры видачтобы можно было обновить каждый компонент вложенного объекта.__ - Параметры:
- **paramsdict
Параметры оценщика.
- Возвращает:
- selfэкземпляр estimator
Экземпляр оценщика.
- set_transform_request(*, copy: bool | None | str = '$UNCHANGED$') Binarizer[источник]#
Настроить, следует ли запрашивать передачу метаданных в
transformметод.Обратите внимание, что этот метод актуален только тогда, когда этот оценщик используется как под-оценщик внутри мета-оценщик и маршрутизация метаданных включена с помощью
enable_metadata_routing=True(см.sklearn.set_config). Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.Варианты для каждого параметра:
True: запрашиваются метаданные и передаютсяtransformесли предоставлено. Запрос игнорируется, если метаданные не предоставлены.False: метаданные не запрашиваются, и мета-оценщик не передаст их вtransform.None: метаданные не запрашиваются, и мета-оценщик выдаст ошибку, если пользователь предоставит их.str: метаданные должны передаваться мета-оценщику с этим заданным псевдонимом вместо исходного имени.
По умолчанию (
sklearn.utils.metadata_routing.UNCHANGED) сохраняет существующий запрос. Это позволяет изменять запрос для некоторых параметров, но не для других.Добавлено в версии 1.3.
- Параметры:
- copystr, True, False или None, по умолчанию=sklearn.utils.metadata_routing.UNCHANGED
Маршрутизация метаданных для
copyпараметр вtransform.
- Возвращает:
- selfobject
Обновленный объект.
- преобразовать(X, copy=None)[источник]#
Бинаризовать каждый элемент X.
- Параметры:
- X{array-like, sparse matrix} формы (n_samples, n_features)
Данные для бинаризации, элемент за элементом. Матрицы scipy.sparse должны быть в формате CSR, чтобы избежать ненужного копирования.
- copybool
Копировать входные данные X или нет.
- Возвращает:
- X_tr{ndarray, разреженная матрица} формы (n_samples, n_features)
Преобразованный массив.