Нормализатор#

класс sklearn.preprocessing.Нормализатор(norm='l2', *, copy=True)[источник]#

Нормализовать образцы индивидуально до единичной нормы.

Каждый образец (т.е. каждая строка матрицы данных) хотя бы с одним ненулевым компонентом масштабируется независимо от других образцов так, чтобы его норма (l1, l2 или inf) равнялась единице.

Этот трансформер способен работать как с плотными массивами numpy, так и с scipy.sparse матрицами (используйте формат CSR, если хотите избежать нагрузки от копирования / конвертации).

Масштабирование входных данных до единичных норм — распространённая операция для классификации текста или кластеризации, например. Например, скалярное произведение двух l2-нормированных TF-IDF векторов — это косинусное сходство векторов и базовая метрика сходства для векторной пространственной модели, обычно используемой сообществом информационного поиска.

Для примера визуализации обратитесь к Сравнение Normalizer с другими масштабаторами.

Подробнее в Руководство пользователя.

Параметры:

norm{‘l1’, ‘l2’, ‘max’}, по умолчанию=’l2’: Норма, используемая для нормализации каждого ненулевого образца. Если используется norm='max', значения будут перемасштабированы по максимуму абсолютных значений.
copybool, по умолчанию=True: Установите значение False для выполнения нормализации строк на месте и избежания копирования (если входные данные уже являются массивом numpy или разреженной матрицей CSR scipy.sparse).

Атрибуты:

n_features_in_int: Количество признаков, замеченных во время fit.

Добавлено в версии 0.24.
feature_names_in_ndarray формы (n_features_in_,): Имена признаков, наблюдаемых во время fit. Определено только когда X имеет имена признаков, которые все являются строками.

Добавлено в версии 1.0.

Смотрите также

normalize: коммуникация вокруг scikit-learn

Примечания

Этот оценщик без состояния и не требует обучения. Однако мы рекомендуем вызывать fit_transform вместо transform, так как проверка параметров выполняется только в fit.

Примеры

>>> from sklearn.preprocessing import Normalizer
>>> X = [[4, 1, 2, 2],
...      [1, 3, 9, 3],
...      [5, 7, 5, 1]]
>>> transformer = Normalizer().fit(X)  # fit does nothing.
>>> transformer
Normalizer()
>>> transformer.transform(X)
array([[0.8, 0.2, 0.4, 0.4],
       [0.1, 0.3, 0.9, 0.3],
       [0.5, 0.7, 0.5, 0.1]])

fit(X, y=None)[источник]#

Проверяет только параметры оценщика.

Этот метод позволяет: (i) проверить параметры оценщика и (ii) быть совместимым с API трансформеров scikit-learn.

Параметры:

X{array-like, sparse matrix} формы (n_samples, n_features): Данные для оценки параметров нормализации.
yИгнорируется: Не используется, присутствует здесь для согласованности API по соглашению.

Возвращает:

selfobject: Обученный преобразователь.

fit_transform(X, y=None, **fit_params)[источник]#

Обучение на данных с последующим преобразованием.

Обучает преобразователь на X и y с необязательными параметрами fit_params и возвращает преобразованную версию X.

Параметры:

Xarray-like формы (n_samples, n_features): Входные выборки.
yarray-like формы (n_samples,) или (n_samples, n_outputs), default=None: Целевые значения (None для неконтролируемых преобразований).
**fit_paramsdict: Дополнительные параметры обучения. Передавайте только если оценщик принимает дополнительные параметры в своем fit метод.

Возвращает:

X_newndarray массив формы (n_samples, n_features_new): Преобразованный массив.

get_feature_names_out(input_features=None)[источник]#

Получить имена выходных признаков для преобразования.

Параметры:

input_featuresarray-like из str или None, по умолчанию=None

Входные признаки.

Если input_features является None, затем feature_names_in_ используется как имена признаков в. Если feature_names_in_ не определено, тогда генерируются следующие имена входных признаков: ["x0", "x1", ..., "x(n_features_in_ - 1)"].
Если input_features является массивоподобным, тогда input_features должен соответствовать feature_names_in_ if feature_names_in_ определен.

Возвращает:

feature_names_outndarray из str объектов: То же, что и входные признаки.

6332()[источник]#

Получить маршрутизацию метаданных этого объекта.

Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.

Возвращает:

маршрутизацияMetadataRequest: A MetadataRequest Инкапсуляция информации о маршрутизации.

get_params(глубокий=True)[источник]#

Получить параметры для этого оценщика.

Параметры:

глубокийbool, по умолчанию=True: Если True, вернет параметры для этого оценщика и вложенных подобъектов, которые являются оценщиками.

Возвращает:

paramsdict: Имена параметров, сопоставленные с их значениями.

set_output(*, преобразовать=None)[источник]#

Установить контейнер вывода.

См. Введение API set_output для примера использования API.

Параметры:

преобразовать{“default”, “pandas”, “polars”}, по умолчанию=None

Настройка вывода transform и fit_transform.

"default": Формат вывода трансформера по умолчанию
"pandas": DataFrame вывод
"polars": Вывод Polars
None: Конфигурация преобразования не изменена

Добавлено в версии 1.4: "polars" опция была добавлена.

Возвращает:

selfэкземпляр estimator: Экземпляр оценщика.

set_params(**params)[источник]#

Установить параметры этого оценщика.

Метод работает как на простых оценщиках, так и на вложенных объектах (таких как Pipeline). Последние имеют параметры вида __ чтобы можно было обновить каждый компонент вложенного объекта.

Параметры:

**paramsdict: Параметры оценщика.

Возвращает:

selfэкземпляр estimator: Экземпляр оценщика.

set_transform_request(*, copy: bool | None | str = '$UNCHANGED$') → Нормализатор[источник]#

Настроить, следует ли запрашивать передачу метаданных в transform метод.

Обратите внимание, что этот метод актуален только тогда, когда этот оценщик используется как под-оценщик внутри мета-оценщик и маршрутизация метаданных включена с помощью enable_metadata_routing=True (см. sklearn.set_config). Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.

Варианты для каждого параметра:

True: запрашиваются метаданные и передаются transform если предоставлено. Запрос игнорируется, если метаданные не предоставлены.
False: метаданные не запрашиваются, и мета-оценщик не передаст их в transform.
None: метаданные не запрашиваются, и мета-оценщик выдаст ошибку, если пользователь предоставит их.
str: метаданные должны передаваться мета-оценщику с этим заданным псевдонимом вместо исходного имени.

По умолчанию (sklearn.utils.metadata_routing.UNCHANGED) сохраняет существующий запрос. Это позволяет изменять запрос для некоторых параметров, но не для других.

Добавлено в версии 1.3.

Параметры:

copystr, True, False или None, по умолчанию=sklearn.utils.metadata_routing.UNCHANGED: Маршрутизация метаданных для copy параметр в transform.

Возвращает:

selfobject: Обновленный объект.

преобразовать(X, copy=None)[источник]#

Масштабировать каждую ненулевую строку X до единичной нормы.

Параметры:

X{array-like, sparse matrix} формы (n_samples, n_features): Данные для нормализации, построчно. scipy.sparse матрицы должны быть в формате CSR, чтобы избежать ненужного копирования.
copybool, по умолчанию=None: Копировать входные данные X или нет.

Возвращает: