Примечание

Перейти в конец чтобы скачать полный пример кода или запустить этот пример в браузере через JupyterLite или Binder.

Пример IsolationForest#

Пример использования IsolationForest для обнаружения аномалий.

The Isolation Forest представляет собой ансамбль "деревьев изоляции", которые "изолируют" наблюдения с помощью рекурсивного случайного разбиения, что может быть представлено древовидной структурой. Количество разбиений, необходимых для изоляции образца, меньше для выбросов и больше для нормальных точек.

В данном примере мы демонстрируем два способа визуализации границы решения Isolation Forest, обученного на игрушечном наборе данных.

# Authors: The scikit-learn developers
# SPDX-License-Identifier: BSD-3-Clause

Генерация данных#

Мы генерируем два кластера (каждый содержит n_samples) путем случайного выборки из стандартного нормального распределения, возвращаемого numpy.random.randn. Один из них сферический, а другой слегка деформирован.

Для согласованности с IsolationForest обозначениях, выбросы (т.е. гауссовы кластеры) имеют истинную метку 1 тогда как выбросы (созданные с помощью numpy.random.uniform) присваивается метка -1.

import numpy as np

from sklearn.model_selection import train_test_split

n_samples, n_outliers = 120, 40
rng = np.random.RandomState(0)
covariance = np.array([[0.5, -0.1], [0.7, 0.4]])
cluster_1 = 0.4 * rng.randn(n_samples, 2) @ covariance + np.array([2, 2])  # general
cluster_2 = 0.3 * rng.randn(n_samples, 2) + np.array([-2, -2])  # spherical
outliers = rng.uniform(low=-4, high=4, size=(n_outliers, 2))

X = np.concatenate([cluster_1, cluster_2, outliers])
y = np.concatenate(
    [np.ones((2 * n_samples), dtype=int), -np.ones((n_outliers), dtype=int)]
)

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

Мы можем визуализировать полученные кластеры:

import matplotlib.pyplot as plt

scatter = plt.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
handles, labels = scatter.legend_elements()
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.title("Gaussian inliers with \nuniformly distributed outliers")
plt.show()

Gaussian inliers with uniformly distributed outliers

Обучение модели#

from sklearn.ensemble import IsolationForest

clf = IsolationForest(max_samples=100, random_state=0)
clf.fit(X_train)

IsolationForest(max_samples=100, random_state=0)

В среде Jupyter, пожалуйста, перезапустите эту ячейку, чтобы показать HTML-представление, или доверьтесь блокноту.
На GitHub HTML-представление не может отображаться, попробуйте загрузить эту страницу с помощью nbviewer.org.

Построить дискретную границу решений#

Мы используем класс DecisionBoundaryDisplay для визуализации дискретной границы решений. Цвет фона показывает, предсказывается ли образец в данной области как выброс или нет. Точечная диаграмма отображает истинные метки.

import matplotlib.pyplot as plt

from sklearn.inspection import DecisionBoundaryDisplay

disp = DecisionBoundaryDisplay.from_estimator(
    clf,
    X,
    response_method="predict",
    alpha=0.5,
)
disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
disp.ax_.set_title("Binary decision boundary \nof IsolationForest")
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.show()

Binary decision boundary of IsolationForest

Построить границу принятия решений по длине пути#

Установкой response_method="decision_function", фон DecisionBoundaryDisplay представляет меру нормальности наблюдения. Такой показатель задается средней длиной пути по лесу случайных деревьев, который, в свою очередь, задается глубиной листа (или, что эквивалентно, количеством разбиений), необходимой для изоляции данного образца.

Когда лес случайных деревьев коллективно создает короткие пути для изоляции некоторых конкретных образцов, они с высокой вероятностью являются аномалиями, и мера нормальности близка к 0. Аналогично, большие пути соответствуют значениям, близким к 1 и с большей вероятностью являются инлайерами.

disp = DecisionBoundaryDisplay.from_estimator(
    clf,
    X,
    response_method="decision_function",
    alpha=0.5,
)
disp.ax_.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor="k")
disp.ax_.set_title("Path length decision boundary \nof IsolationForest")
plt.axis("square")
plt.legend(handles=handles, labels=["outliers", "inliers"], title="true class")
plt.colorbar(disp.ax_.collections[1])
plt.show()

Path length decision boundary of IsolationForest

Общее время выполнения скрипта: (0 минут 0.406 секунд)

Связанные примеры

Сравнение алгоритмов обнаружения аномалий для выявления выбросов на игрушечных наборах данных

Двухклассовый AdaBoost

Классификация методом ближайших соседей

Регрессия Тейла-Сена

Галерея, созданная Sphinx-Gallery

	n_estimators n_estimators: int, default=100 Количество базовых оценщиков в ансамбле.	100
	max_samples max_samples: "auto", int или float, по умолчанию="auto" Количество образцов для выборки из X для обучения каждого базового оценщика. - Если int, то извлекается `max_samples` выборок. - Если float, то выбирается `max_samples * X.shape[0]` выборок. - Если "auto", то `max_samples=min(256, n_samples)`. Если max_samples больше количества предоставленных образцов, все выборки будут использованы для всех деревьев (без выборки).	100
	contamination contamination: 'auto' или float, по умолчанию='auto' Уровень загрязнения набора данных, т.е. доля выбросов в наборе данных. Используется при подгонке для определения порога на основе оценок образцов. - Если 'auto', порог определяется как в оригинальная статья. - Если float, загрязнение должно быть в диапазоне (0, 0.5]. .. versionchanged:: 0.22 Значение по умолчанию для ``contamination`` изменилось с 0.1 в ``'auto'``.	'auto'
	max_features max_features: int или float, по умолчанию=1.0 Количество признаков, выбираемых из X для обучения каждого базового оценщика. - Если int, то выбирать `max_features` признаков. - Если float, то выбирает `max(1, int(max_features * n_features_in_))` признаков. Примечание: использование числа с плавающей точкой меньше 1.0 или целого числа меньше количества функции позволят выполнить субдискретизацию признаков и приведут к увеличению времени выполнения.	1.0
	bootstrap bootstrap: bool, по умолчанию=False Если True, отдельные деревья обучаются на случайных подмножествах обучающих данные, выбранные с возвращением. Если False, выборка без возвращения выполняется.	False
	n_jobs n_jobs: int, default=None Количество параллельных задач для выполнения метода :meth:`fit`. ``None`` означает 1 если не в контексте :obj:`joblib.parallel_backend`. ``-1`` означает использование все процессоры. См. :term:`Глоссарий ` для получения дополнительной информации.	None
	random_state random_state: int, экземпляр RandomState или None, по умолчанию=None Управляет псевдослучайностью выбора признака и значения разделения для каждого шага ветвления и каждого дерева в лесу. Передайте целое число для воспроизводимых результатов при многократных вызовах функции. См. :term:`Глоссарий `.	0
	verbose verbose: int, по умолчанию=0 Управляет подробностью вывода процесса построения дерева.	0
	warm_start warm_start: bool, default=False Когда установлено в ``True``, повторно использовать решение предыдущего вызова fit и добавьте больше оценщиков в ансамбль, в противном случае просто обучите весь новый лес. См. :term:`Глоссарий `. .. versionadded:: 0.21	False