7. Преобразования наборов данных#

scikit-learn предоставляет библиотеку преобразователей, которые могут очищать (см. Предобработка данных), reduce (см. Неконтролируемое снижение размерности), расширить (см. Аппроксимация ядра) или генерировать (см. Извлечение признаков) представления признаков.

Как и другие оценщики, они представлены классами с fit метод, который изучает параметры модели (например, среднее и стандартное отклонение для нормализации) из обучающего набора, и transform метод, который применяет эту модель преобразования к новым данным. fit_transform может быть более удобным и эффективным для одновременного моделирования и преобразования обучающих данных.

Объединение таких преобразователей, параллельно или последовательно, рассматривается в Конвейеры и составные оценщики. Парные метрики, сходства и ядра охватывает преобразование пространств признаков в матрицы сходства, в то время как Преобразование целевой переменной (y) рассматривает преобразования целевого пространства (например, категориальные метки) для использования в scikit-learn.