Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Выбор модели гауссовской смеси#

Этот пример показывает, что выбор модели может быть выполнен с Гауссовыми смесями (GMM) с использованием информационно-теоретические критерии. Выбор модели касается как типа ковариации, так и количества компонентов в модели.

В этом случае как информационный критерий Акаике (AIC), так и байесовский информационный критерий (BIC) дают правильный результат, но мы демонстрируем только последний, так как BIC лучше подходит для идентификации истинной модели среди набора кандидатов. В отличие от байесовских процедур, такие выводы не требуют априорных предположений.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Генерация данных#

Мы генерируем две компоненты (каждая содержит n_samples) путем случайного выборки из стандартного нормального распределения, возвращаемого numpy.random.randn. Один компонент остаётся сферическим, но смещённым и перемасштабированным. Другой деформируется, чтобы иметь более общую ковариационную матрицу.

import numpy as np

n_samples = 500
np.random.seed(0)
C = np.array([[0.0, -0.1], [1.7, 0.4]])
component_1 = np.dot(np.random.randn(n_samples, 2), C)  # general
component_2 = 0.7 * np.random.randn(n_samples, 2) + np.array([-4, 1])  # spherical

X = np.concatenate([component_1, component_2])

Мы можем визуализировать различные компоненты:

import matplotlib.pyplot as plt

plt.scatter(component_1[:, 0], component_1[:, 1], s=0.8)
plt.scatter(component_2[:, 0], component_2[:, 1], s=0.8)
plt.title("Gaussian Mixture components")
plt.axis("equal")
plt.show()

Обучение и выбор модели#

Мы варьируем количество компонентов от 1 до 6 и тип используемых параметров ковариации:

"full": каждый компонент имеет свою общую ковариационную матрицу.
"tied": все компоненты используют одну и ту же общую ковариационную матрицу.
"diag": каждый компонент имеет свою собственную диагональную ковариационную матрицу.
"spherical": каждый компонент имеет свою собственную единичную дисперсию.

Мы оцениваем различные модели и сохраняем лучшую модель (с наименьшим BIC). Это делается с помощью GridSearchCV и пользовательская функция оценки, которая возвращает отрицательный балл BIC, как GridSearchCV разработан для максимизировать оценка (максимизация отрицательного BIC эквивалентна минимизации BIC).

Лучший набор параметров и оценщик хранятся в best_parameters_ и best_estimator_, соответственно.

from sklearn.mixture import GaussianMixture
from sklearn.model_selection import GridSearchCV


def gmm_bic_score(estimator, X):
    """Callable to pass to GridSearchCV that will use the BIC score."""
    # Make it negative since GridSearchCV expects a score to maximize
    return -estimator.bic(X)


param_grid = {
    "n_components": range(1, 7),
    "covariance_type": ["spherical", "tied", "diag", "full"],
}
grid_search = GridSearchCV(
    GaussianMixture(), param_grid=param_grid, scoring=gmm_bic_score
)
grid_search.fit(X)

GridSearchCV(estimator=GaussianMixture(),
             param_grid={'covariance_type': ['spherical', 'tied', 'diag',
                                             'full'],
                         'n_components': range(1, 7)},
             scoring=)

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Построить график оценок BIC#

Чтобы упростить построение графика, мы можем создать pandas.DataFrame из результатов кросс-валидации, выполненной при поиске по сетке. Мы обратно инвертируем знак оценки BIC, чтобы показать эффект её минимизации.

import pandas as pd

df = pd.DataFrame(grid_search.cv_results_)[
    ["param_n_components", "param_covariance_type", "mean_test_score"]
]
df["mean_test_score"] = -df["mean_test_score"]
df = df.rename(
    columns={
        "param_n_components": "Number of components",
        "param_covariance_type": "Type of covariance",
        "mean_test_score": "BIC score",
    }
)
df.sort_values(by="BIC score").head()

	Количество компонент	Тип ковариации	оценка BIC
19	2	полный	1046.829429
20	3	полный	1084.038689
21	4	полный	1114.517272
22	5	полный	1148.512281
23	6	полный	1179.977890

import seaborn as sns

sns.catplot(
    data=df,
    kind="bar",
    x="Number of components",
    y="BIC score",
    hue="Type of covariance",
)
plt.show()

В данном случае модель с 2 компонентами и полной ковариацией (что соответствует истинной генеративной модели) имеет наименьший показатель BIC и поэтому выбрана при поиске по сетке.

Построить график лучшей модели#

Мы строим эллипс, чтобы показать каждую гауссову компоненту выбранной модели. Для этой цели необходимо найти собственные значения ковариационных матриц, как возвращённые covariances_ атрибут. Форма таких матриц зависит от covariance_type:

"full": (n_components, n_features, n_features)
"tied": (n_features, n_features)
"diag": (n_components, n_features)
"spherical": (n_components,)

from matplotlib.patches import Ellipse
from scipy import linalg

color_iter = sns.color_palette("tab10", 2)[::-1]
Y_ = grid_search.predict(X)

fig, ax = plt.subplots()

for i, (mean, cov, color) in enumerate(
    zip(
        grid_search.best_estimator_.means_,
        grid_search.best_estimator_.covariances_,
        color_iter,
    )
):
    v, w = linalg.eigh(cov)
    if not np.any(Y_ == i):
        continue
    plt.scatter(X[Y_ == i, 0], X[Y_ == i, 1], 0.8, color=color)

    angle = np.arctan2(w[0][1], w[0][0])
    angle = 180.0 * angle / np.pi  # convert to degrees
    v = 2.0 * np.sqrt(2.0) * np.sqrt(v)
    ellipse = Ellipse(mean, v[0], v[1], angle=180.0 + angle, color=color)
    ellipse.set_clip_box(fig.bbox)
    ellipse.set_alpha(0.5)
    ax.add_artist(ellipse)

plt.title(
    f"Selected GMM: {grid_search.best_params_['covariance_type']} model, "
    f"{grid_search.best_params_['n_components']} components"
)
plt.axis("equal")
plt.show()

Общее время выполнения скрипта: (0 минут 1.557 секунд)

Связанные примеры

Эллипсоиды гауссовской смеси

Выбор модели Lasso с помощью информационных критериев

Линейный и квадратичный дискриминантный анализ с эллипсоидом ковариации

Гауссова смесь моделей синусоидальной кривой

Галерея, созданная Sphinx-Gallery

	estimator оценщик: объект оценщика Предполагается, что это реализует интерфейс оценщика scikit-learn. Либо оценщик должен предоставлять функцию ``score``, или ``scoring`` должны быть переданы.	GaussianMixture()
	param_grid param_grid: словарь или список словарей Словарь с именами параметров (`str`) в качестве ключей и списками настройки параметров для перебора в качестве значений или список таких словарями, в этом случае сетки, охватываемые каждым словарем в списке исследуются. Это позволяет осуществлять поиск по любой последовательности наборов параметров.	{'covariance_type': ['spherical', 'tied', ...], 'n_components': range(1, 7)}
	оценка scoring: str, callable, list, tuple или dict, по умолчанию=None Стратегия оценки производительности кросс-валидированной модели на тестовый набор. Если `scoring` представляет собой единичную оценку, можно использовать: - одиночная строка (см. :ref:`scoring_string_names`); - вызываемый объект (см. :ref:`scoring_callable`), который возвращает одно значение; - `None`, `estimator`'s :ref:`критерий оценки по умолчанию ` используется. Если `scoring` представляет несколько оценок, можно использовать: - список или кортеж уникальных строк; - вызываемый объект, возвращающий словарь, где ключи — это метрика имена и значения — это оценки метрик; - словарь с именами метрик в качестве ключей и вызываемыми объектами в качестве значений. См. :ref:`multimetric_grid_search` для примера.
	n_jobs n_jobs: int, default=None Количество параллельно выполняемых задач. ``None`` означает 1, если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование всех процессоров. См. :term:`Глоссарий ` для получения дополнительной информации. .. versionchanged:: v0.20 `n_jobs` значение по умолчанию изменено с 1 на None	None
	refit refit: bool, str или callable, по умолчанию=True Переобучение оценщика с использованием наилучших найденных параметров на всем набора данных. Для оценки по нескольким метрикам это должно быть `str`, обозначающий scorer, который будет использоваться для поиска наилучших параметров для повторного обучения оценщик в конце. Когда существуют соображения, отличные от максимальной оценки в выбора лучшего оценщика, ``refit`` может быть установлен в функцию, которая возвращает выбранный ``best_index_`` по ``cv_results_``. В этом случае случае, ``best_estimator_`` и ``best_params_`` будут установлены в соответствии с возвращенным ``best_index_``, в то время как ``best_score_`` атрибут будет недоступен. Переобученный оценщик доступен в ``best_estimator_`` атрибут и позволяет использовать ``predict`` непосредственно на этом экземпляр ``GridSearchCV``. Также для оценки по нескольким метрикам атрибуты ``best_index_``, ``best_score_`` и ``best_params_`` будут доступны только если ``refit`` установлен, и все они будут определены относительно этого конкретного scorer. См. параметр ``scoring`` для получения дополнительной информации о нескольких метриках оценка. См. :ref:`sphx_glr_auto_examples_model_selection_plot_grid_search_digits.py` чтобы увидеть, как разработать пользовательскую стратегию выбора с использованием вызываемого объекта через `refit`. См. :ref:`этот пример ` для примера использования ``refit=callable`` для балансировки модели сложность и кросс-валидированный балл. .. versionchanged:: 0.20 Добавлена поддержка callable.	True
	cv cv: int, генератор перекрестной проверки или итерируемый объект, по умолчанию=None Определяет стратегию разделения для кросс-валидации. Возможные значения для cv: - None, чтобы использовать стандартную 5-кратную перекрёстную проверку, - целое число, чтобы указать количество фолдов в `(Stratified)KFold`, - :term:`CV splitter`, - Итерируемый объект, возвращающий (обучающая, тестовая) разбиения в виде массивов индексов. Для целочисленных/None входов, если оценщик является классификатором и ``y`` либо бинарная, либо многоклассовая, используется :class:`StratifiedKFold`. Во всех в других случаях используется :class:`KFold`. Эти разделители создаются с `shuffle=False`, чтобы разбиения были одинаковыми при всех вызовах. См. :ref:`Руководство пользователя ` для различных стратегии перекрестной проверки, которые можно использовать здесь. .. versionchanged:: 0.22 Значение по умолчанию ``cv``, если None, изменено с 3-кратной на 5-кратную перекрестную проверку.	None
	verbose verbose: int Управляет подробностью вывода: чем выше, тем больше сообщений. - >1 : время вычисления для каждого фолда и кандидата параметра отображается; - >2 : оценка также отображается; - >3 : также отображаются индексы фолда и кандидатных параметров вместе со временем начала вычислений.	0
	pre_dispatch pre_dispatch: int или str, по умолчанию='2n_jobs' Управляет количеством задач, отправляемых во время параллельного выполнение. Уменьшение этого числа может быть полезно, чтобы избежать взрывное увеличение потребления памяти при отправке большего количества задач чем могут обработать процессоры. Этот параметр может быть: - None, в этом случае все задачи немедленно создаются и запускаются. Используйте это для легких и быстро выполняемых задач, чтобы избежать задержек из-за выполнения по требованию создание заданий - Целое число, указывающее точное общее количество создаваемых задач - Строка, задающая выражение как функцию от n_jobs, например '2n_jobs'	'2*n_jobs'
	error_score error_score: 'raise' или числовое значение, по умолчанию=np.nan Значение, присваиваемое оценке при возникновении ошибки в обучении оценщика. Если установлено значение 'raise', ошибка вызывается. Если задано числовое значение, Вызывается предупреждение FitFailedWarning. Этот параметр не влияет на повторную подгонку шаг, который всегда будет вызывать ошибку.	nan
	return_train_score return_train_score: bool, default=False Если ``False``, атрибут ``cv_results_`` не будет включать обучающие . Наличие разных классов моделей с соответствующими именами упрощает пользователям поиск этих регрессионных моделей. Во-вторых, если бы все 5 упомянутых линейных моделей были объединены в один класс, были бы параметры с множеством опций, такие как Вычисление обучающих оценок используется для получения представления о том, как различные настройки параметров влияют на компромисс между переобучением и недообучением. Однако вычисление оценок на обучающем наборе может быть вычислительно дорого и не является строго необходимым для выбора параметров, которые дают наилучшую обобщающую производительность. .. versionadded:: 0.19 SpectralClustering Значение по умолчанию изменено с ``True`` на ``False``	False

	n_components n_components: int, по умолчанию=1 Количество компонентов смеси.	2
	covariance_type covariance_type: {'full', 'tied', 'diag', 'spherical'}, default='full' Строка, описывающая тип параметров ковариации для использования. Должен быть одним из: - 'full': каждый компонент имеет свою общую ковариационную матрицу. - 'tied': все компоненты используют одну и ту же общую ковариационную матрицу. - 'diag': каждый компонент имеет свою собственную диагональную ковариационную матрицу. - 'spherical': каждый компонент имеет свою собственную единичную дисперсию. Пример использования `covariance_type` см. в :ref:`sphx_glr_auto_examples_mixture_plot_gmm_selection.py`.	'full'
	tol tol: float, по умолчанию=1e-3 Порог сходимости. Итерации EM остановятся, когда нижняя граница среднего прироста ниже этого порога.	0.001
	reg_covar reg_covar: float, по умолчанию=1e-6 Неотрицательная регуляризация, добавленная к диагонали ковариации. Позволяет гарантировать, что ковариационные матрицы все положительны.	1e-06
	max_iter max_iter: int, по умолчанию=100 Количество итераций EM для выполнения.	100
	n_init n_init: int, по умолчанию=1 Количество инициализаций для выполнения. Сохраняются лучшие результаты.	1
	init_params init_params: {'kmeans', 'k-means++', 'random', 'random_from_data'}, по умолчанию='kmeans' Метод, используемый для инициализации весов, средних значений и точности. Строка должна быть одной из: - 'kmeans' : ответственности инициализируются с помощью kmeans. - 'k-means++' : использовать метод k-means++ для инициализации. - 'random' : ответственности инициализируются случайным образом. - 'random_from_data' : начальные средние значения случайно выбираются из точек данных. .. versionchanged:: v1.1 `init_params` теперь принимает 'random_from_data' и 'k-means++' как методы инициализации.	'kmeans'
	weights_init weights_init: array-like формы (n_components, ), по умолчанию=None Начальные веса, предоставленные пользователем. Если None, веса инициализируются с помощью метода `init_params`.	None
	means_init means_init: array-like формы (n_components, n_features), по умолчанию=None Пользовательские начальные средние, Если значение None, средние инициализируются с помощью метода `init_params`.	None
	precisions_init precisions_init: array-like, default=None Предоставленные пользователем начальные точности (обратные ковариации матрицы). Если он None, точности инициализируются с использованием 'init_params' метод. Форма зависит от 'covariance_type':: (n_components,) если 'spherical', (n_features, n_features) if 'tied', (n_components, n_features) если 'diag', (n_components, n_features, n_features) если 'full'	None
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет случайным начальным числом, передаваемым выбранному методу для инициализации параметры (см. `init_params`). Кроме того, он управляет генерацией случайных выборок из подобранное распределение (см. метод `sample`). Передайте целое число для воспроизводимого вывода при множественных вызовах функции. См. :term:`Глоссарий `.	None
	warm_start warm_start: bool, default=False Если 'warm_start' равен True, решение последнего обучения используется как инициализация для следующего вызова fit(). Это может ускорить сходимости при многократном вызове fit на схожих задачах. В этом случае 'n_init' игнорируется и выполняется только одна инициализация происходит при первом вызове. См. :term:`Глоссарий `.	False
	verbose verbose: int, по умолчанию=0 Включить подробный вывод. Если 1, то он выводит текущий инициализации и каждого шага итерации. Если больше 1, то он также выводит логарифм вероятности и затраченное время для каждого шага.	0
	verbose_interval verbose_interval: целое число, по умолчанию=10 Количество итераций, выполненных перед следующим выводом.	10