Сравнение Target Encoder с другими кодировщиками#

The TargetEncoder использует значение целевой переменной для кодирования каждого категориального признака. В этом примере мы сравним три различных подхода к обработке категориальных признаков: TargetEncoder, OrdinalEncoder, OneHotEncoder и удаление категории.

Примечание

fit(X, y).transform(X) . Наличие образца fit_transform(X, y) поскольку используется схема перекрестного обучения в fit_transform для кодирования. См. Руководство пользователя подробности.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Загрузка данных из OpenML#

Сначала мы загружаем набор данных обзоров вин, где целевой переменной являются баллы, выставленные рецензентом:

from sklearn.datasets import fetch_openml

wine_reviews = fetch_openml(data_id=42074, as_frame=True)

df = wine_reviews.frame
df.head()
страна описание обозначение точки цена провинция region_1 region_2 разнообразие винодельня
0 США Это потрясающее 100% сортовое вино происходит из ... Мартас-Винъярд 96 235.0 Калифорния Napa Valley Napa Каберне Совиньон Хайтц
1 Испания Спелые ароматы инжира, ежевики и чёрной смородины... Carodorum Selección Especial Reserva 96 110.0 Северная Испания Торо NaN Tinta de Toro Бодега Кармен Родригес
2 США Mac Watson чтит память вина, которое когда-то было... Специальный отбор позднего урожая 96 90.0 Калифорния Knights Valley Sonoma Совиньон Блан Macauley
3 США Это провело 20 месяцев в 30% нового французского дуба, ... Резерв 96 65.0 Oregon Долина Уилламетт Долина Уилламетт Pinot Noir Понци
4 Франция Это лучшее вино от La Bégude, названное в честь... La Brûlade 95 66.0 Provence Bandol NaN Прованс красное купаж Domaine de la Bégude


Для этого примера мы используем следующий подмножество числовых и категориальных признаков в данных. Целевая переменная — непрерывные значения от 80 до 100:

numerical_features = ["price"]
categorical_features = [
    "country",
    "province",
    "region_1",
    "region_2",
    "variety",
    "winery",
]
target_name = "points"

X = df[numerical_features + categorical_features]
y = df[target_name]

_ = y.hist()
plot target encoder

Обучение и оценка конвейеров с различными кодировщиками#

В этом разделе мы оценим конвейеры с HistGradientBoostingRegressor с различными стратегиями кодирования. Сначала перечислим кодировщики, которые будем использовать для предобработки категориальных признаков:

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, TargetEncoder

categorical_preprocessors = [
    ("drop", "drop"),
    ("ordinal", OrdinalEncoder(handle_unknown="use_encoded_value", unknown_value=-1)),
    (
        "one_hot",
        OneHotEncoder(handle_unknown="ignore", max_categories=20, sparse_output=False),
    ),
    ("target", TargetEncoder(target_type="continuous")),
]

Далее мы оцениваем модели с помощью перекрестной проверки и записываем результаты:

from sklearn.ensemble import HistGradientBoostingRegressor
from sklearn.model_selection import cross_validate
from sklearn.pipeline import make_pipeline

n_cv_folds = 3
max_iter = 20
results = []


def evaluate_model_and_store(name, pipe):
    result = cross_validate(
        pipe,
        X,
        y,
        scoring="neg_root_mean_squared_error",
        cv=n_cv_folds,
        return_train_score=True,
    )
    rmse_test_score = -result["test_score"]
    rmse_train_score = -result["train_score"]
    results.append(
        {
            "preprocessor": name,
            "rmse_test_mean": rmse_test_score.mean(),
            "rmse_test_std": rmse_train_score.std(),
            "rmse_train_mean": rmse_train_score.mean(),
            "rmse_train_std": rmse_train_score.std(),
        }
    )


for name, categorical_preprocessor in categorical_preprocessors:
    preprocessor = ColumnTransformer(
        [
            ("numerical", "passthrough", numerical_features),
            ("categorical", categorical_preprocessor, categorical_features),
        ]
    )
    pipe = make_pipeline(
        preprocessor, HistGradientBoostingRegressor(random_state=0, max_iter=max_iter)
    )
    evaluate_model_and_store(name, pipe)

Нативная поддержка категориальных признаков#

В этом разделе мы строим и оцениваем конвейер, использующий нативную поддержку категориальных признаков в HistGradientBoostingRegressor, которая поддерживает только до 255 уникальных категорий. В нашем наборе данных большинство категориальных признаков имеют более 255 уникальных категорий:

n_unique_categories = df[categorical_features].nunique().sort_values(ascending=False)
n_unique_categories
winery      14810
region_1     1236
variety       632
province      455
country        48
region_2       18
dtype: int64

Чтобы обойти указанное ограничение, мы группируем категориальные признаки на признаки с низкой и высокой кардинальностью. Признаки с высокой кардинальностью будут закодированы через target encoding, а признаки с низкой кардинальностью будут использовать нативную категориальную поддержку в градиентном бустинге.

high_cardinality_features = n_unique_categories[n_unique_categories > 255].index
low_cardinality_features = n_unique_categories[n_unique_categories <= 255].index
mixed_encoded_preprocessor = ColumnTransformer(
    [
        ("numerical", "passthrough", numerical_features),
        (
            "high_cardinality",
            TargetEncoder(target_type="continuous"),
            high_cardinality_features,
        ),
        (
            "low_cardinality",
            OrdinalEncoder(handle_unknown="use_encoded_value", unknown_value=-1),
            low_cardinality_features,
        ),
    ],
    verbose_feature_names_out=False,
)

# The output of the of the preprocessor must be set to pandas so the
# gradient boosting model can detect the low cardinality features.
mixed_encoded_preprocessor.set_output(transform="pandas")
mixed_pipe = make_pipeline(
    mixed_encoded_preprocessor,
    HistGradientBoostingRegressor(
        random_state=0, max_iter=max_iter, categorical_features=low_cardinality_features
    ),
)
mixed_pipe
Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('numerical', 'passthrough',
                                                  ['price']),
                                                 ('high_cardinality',
                                                  TargetEncoder(target_type='continuous'),
                                                  Index(['winery', 'region_1', 'variety', 'province'], dtype='object')),
                                                 ('low_cardinality',
                                                  OrdinalEncoder(handle_unknown='use_encoded_value',
                                                                 unknown_value=-1),
                                                  Index(['country', 'region_2'], dtype='object'))],
                                   verbose_feature_names_out=False)),
                ('histgradientboostingregressor',
                 HistGradientBoostingRegressor(categorical_features=Index(['country', 'region_2'], dtype='object'),
                                               max_iter=20, random_state=0))])
В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.


Наконец, мы оцениваем конвейер с помощью перекрестной проверки и записываем результаты:

evaluate_model_and_store("mixed_target", mixed_pipe)


Построение графиков результатов#

В этом разделе мы отображаем результаты, строя графики оценок тестовой и обучающей выборок:

import matplotlib.pyplot as plt
import pandas as pd

results_df = (
    pd.DataFrame(results).set_index("preprocessor").sort_values("rmse_test_mean")
)

fig, (ax1, ax2) = plt.subplots(
    1, 2, figsize=(12, 8), sharey=True, constrained_layout=True
)
xticks = range(len(results_df))
name_to_color = dict(
    zip((r["preprocessor"] for r in results), ["C0", "C1", "C2", "C3", "C4"])
)

for subset, ax in zip(["test", "train"], [ax1, ax2]):
    mean, std = f"rmse_{subset}_mean", f"rmse_{subset}_std"
    data = results_df[[mean, std]].sort_values(mean)
    ax.bar(
        x=xticks,
        height=data[mean],
        yerr=data[std],
        width=0.9,
        color=[name_to_color[name] for name in data.index],
    )
    ax.set(
        title=f"RMSE ({subset.title()})",
        xlabel="Encoding Scheme",
        xticks=xticks,
        xticklabels=data.index,
    )
RMSE (Test), RMSE (Train)

При оценке прогностической производительности на тестовом наборе, удаление категорий показывает наихудшие результаты, а кодировщики целевой переменной — наилучшие. Это можно объяснить следующим образом:

  • Удаление категориальных признаков делает конвейер менее выразительным и приводит к недообучению;

  • Из-за высокой кардинальности и для сокращения времени обучения схема one-hot кодирования использует max_categories=20 что предотвращает чрезмерное расширение признаков, которое может привести к недообучению.

  • Если бы мы не установили max_categories=20, схема one-hot кодирования, вероятно, привела бы к переобучению конвейера, так как количество признаков взрывается с редкими вхождениями категорий, которые коррелируют с целью случайно (только на обучающей выборке);

  • Порядковое кодирование накладывает произвольный порядок на признаки, которые затем обрабатываются как числовые значения с помощью HistGradientBoostingRegressor. Поскольку эта модель группирует числовые признаки в 256 бинов на признак, многие несвязанные категории могут быть сгруппированы вместе, и в результате весь конвейер может недообучаться;

  • При использовании кодировщика целевой переменной происходит то же самое бинирование, но поскольку закодированные значения статистически упорядочены по маргинальной связи с целевой переменной, бинирование, используемое HistGradientBoostingRegressor имеет смысл и приводит к хорошим результатам: комбинация сглаженного целевого кодирования и бинирования работает как хорошая стратегия регуляризации против переобучения, не слишком ограничивая выразительность конвейера.

Общее время выполнения скрипта: (0 минут 21.865 секунд)

Связанные примеры

Поддержка категориальных признаков в градиентном бустинге

Поддержка категориальных признаков в градиентном бустинге

Внутренняя перекрестная подгонка Target Encoder

Внутренняя перекрестная подгонка Target Encoder

Трансформер столбцов со смешанными типами

Трансформер столбцов со смешанными типами

Основные нововведения выпуска scikit-learn 1.4

Основные нововведения выпуска scikit-learn 1.4

Галерея, созданная Sphinx-Gallery