7. Преобразования наборов данных#
scikit-learn предоставляет библиотеку преобразователей, которые могут очищать (см. Предобработка данных), reduce (см. Неконтролируемое снижение размерности), расширить (см. Аппроксимация ядра) или генерировать (см. Извлечение признаков) представления признаков.
Как и другие оценщики, они представлены классами с fit метод,
который изучает параметры модели (например, среднее и стандартное отклонение для нормализации) из обучающего набора, и transform метод, который применяет
эту модель преобразования к новым данным. fit_transform может быть более удобным и эффективным для одновременного моделирования и преобразования обучающих данных.
Объединение таких преобразователей, параллельно или последовательно, рассматривается в Конвейеры и составные оценщики. Парные метрики, сходства и ядра охватывает преобразование пространств признаков в матрицы сходства, в то время как Преобразование целевой переменной (y) рассматривает преобразования целевого пространства (например, категориальные метки) для использования в scikit-learn.
- 7.1. Конвейеры и составные оценщики
- 7.2. Извлечение признаков
- 7.3. Предобработка данных
- 7.3.1. Стандартизация, или удаление среднего и масштабирование дисперсии
- 7.3.2. Нелинейное преобразование
- 7.3.3. Нормализация
- 7.3.4. Кодирование категориальных признаков
- 7.3.5. Дискретизация
- 7.3.6. Импутация пропущенных значений
- 7.3.7. Генерация полиномиальных признаков
- 7.3.8. Пользовательские преобразователи
- 7.4. Вменение пропущенных значений
- 7.4.1. Одномерное vs. Многомерное заполнение
- 7.4.2. Одномерная импутация признаков
- 7.4.3. Многомерное заполнение пропусков в признаках
- 7.4.4. Импутация ближайших соседей
- 7.4.5. Сохранение постоянного количества признаков
- 7.4.6. Отметка импутированных значений
- 7.4.7. Оценщики, которые обрабатывают значения NaN
- 7.5. Неконтролируемое снижение размерности
- 7.6. Случайное проецирование
- 7.7. Аппроксимация ядра
- 7.8. Парные метрики, сходства и ядра
- 7.9. Преобразование целевой переменной предсказания (
y)