LedoitWolf#

класс sklearn.covariance.LedoitWolf(*, store_precision=True, assume_centered=False, block_size=1000)[источник]#

Оценщик LedoitWolf.

Ledoit-Wolf — это особая форма сжатия, где коэффициент сжатия вычисляется по формуле O. Ledoit и M. Wolf, как описано в статье «A Well-Conditioned Estimator for Large-Dimensional Covariance Matrices», Ledoit and Wolf, Journal of Multivariate Analysis, Volume 88, Issue 2, February 2004, pages 365-411.

Подробнее в Руководство пользователя.

Параметры:

store_precisionbool, по умолчанию=True: Указать, хранится ли оцененная точность.
assume_centeredbool, по умолчанию=False: Если True, данные не будут центрироваться перед вычислением. Полезно при работе с данными, среднее значение которых почти, но не совсем равно нулю. Если False (по умолчанию), данные будут центрироваться перед вычислением.
block_sizeint, по умолчанию=1000: Размер блоков, на которые будет разделена ковариационная матрица во время её оценки по Ледойту-Вольфу. Это чисто оптимизация памяти и не влияет на результаты.

Атрибуты:

covariance_ndarray формы (n_features, n_features): Оценочная ковариационная матрица.
location_ndarray формы (n_features,): Оцененное местоположение, т.е. оцененное среднее.
precision_ndarray формы (n_features, n_features): Оцененная псевдообратная матрица. (сохраняется только если store_precision равен True)
shrinkage_float: Коэффициент в выпуклой комбинации, используемый для вычисления сжатой оценки. Диапазон [0, 1].
n_features_in_int: Количество признаков, замеченных во время fit.

Добавлено в версии 0.24.
feature_names_in_ndarray формы (n_features_in_,): Имена признаков, наблюдаемых во время fit. Определено только когда X имеет имена признаков, которые все являются строками.

Добавлено в версии 1.0.

Смотрите также

EllipticEnvelope: Объект для обнаружения выбросов в наборе данных с гауссовым распределением.
EmpiricalCovariance: Оценка ковариации методом максимального правдоподобия.
GraphicalLasso: Оценка разреженной обратной ковариации с оценщиком, использующим штраф L1.
GraphicalLassoCV: Разреженная обратная ковариация с кросс-валидационным выбором штрафа l1.
MinCovDet: Минимальный определитель ковариации (робастная оценка ковариации).
OAS: Oracle Approximating Shrinkage Estimator.
ShrunkCovariance: Оценщик ковариации с сжатием.

Примечания

Регуляризованная ковариация:

(1 - shrinkage) * cov + shrinkage * mu * np.identity(n_features)

где mu = trace(cov) / n_features, а сжатие задаётся формулой Ледойта и Вольфа (см. References)

Ссылки

“A Well-Conditioned Estimator for Large-Dimensional Covariance Matrices”, Ledoit and Wolf, Journal of Multivariate Analysis, Volume 88, Issue 2, February 2004, pages 365-411.

Примеры

>>> import numpy as np
>>> from sklearn.covariance import LedoitWolf
>>> real_cov = np.array([[.4, .2],
...                      [.2, .8]])
>>> np.random.seed(0)
>>> X = np.random.multivariate_normal(mean=[0, 0],
...                                   cov=real_cov,
...                                   size=50)
>>> cov = LedoitWolf().fit(X)
>>> cov.covariance_
array([[0.4406, 0.1616],
       [0.1616, 0.8022]])
>>> cov.location_
array([ 0.0595 , -0.0075])

Смотрите также Оценка ковариации сжатием: LedoitWolf vs OAS и максимальное правдоподобие и Оценка Ледойта-Вольфа против OAS оценки для более подробных примеров.

отличается от(comp_cov, norm='frobenius', масштабирование=True, квадрат=True)[источник]#

Вычислить среднеквадратичную ошибку между двумя оценщиками ковариации.

Параметры:

comp_covarray-like формы (n_features, n_features): Ковариация для сравнения.
norm{“frobenius”, “spectral”}, по умолчанию=”frobenius”: Тип нормы, используемой для вычисления ошибки. Доступные типы ошибок: - 'frobenius' (по умолчанию): sqrt(tr(A^t.A)) - 'spectral': sqrt(max(eigenvalues(A^t.A)) где A - ошибка (comp_cov - self.covariance_).
масштабированиеbool, по умолчанию=True: Если True (по умолчанию), норма квадрата ошибки делится на n_features. Если False, норма квадрата ошибки не масштабируется.
квадратbool, по умолчанию=True: Вычислять ли квадрат нормы ошибки или норму ошибки. Если True (по умолчанию), возвращается квадрат нормы ошибки. Если False, возвращается норма ошибки.

Возвращает:

результатfloat: Среднеквадратичная ошибка (в смысле нормы Фробениуса) между self и comp_cov оценки ковариации.

fit(X, y=None)[источник]#

Обучить модель сжатой ковариации Ледойта-Вольфа на X.

Параметры:

Xarray-like формы (n_samples, n_features): Обучающие данные, где n_samples это количество образцов и n_features это количество признаков.
yИгнорируется: Не используется, присутствует для согласованности API по соглашению.

Возвращает:

selfobject: Возвращает сам экземпляр.

6332()[источник]#

Получить маршрутизацию метаданных этого объекта.

Пожалуйста, проверьте Руководство пользователя о том, как работает механизм маршрутизации.

Возвращает:

маршрутизацияMetadataRequest: A MetadataRequest Инкапсуляция информации о маршрутизации.

get_params(глубокий=True)[источник]#

Получить параметры для этого оценщика.

Параметры:

глубокийbool, по умолчанию=True: Если True, вернет параметры для этого оценщика и вложенных подобъектов, которые являются оценщиками.

Возвращает:

paramsdict: Имена параметров, сопоставленные с их значениями.

get_precision()[источник]#

Геттер для матрицы точности.

Возвращает:

precision_array-like формы (n_features, n_features): Матрица точности, связанная с текущим объектом ковариации.

mahalanobis(X)[источник]#

Вычислить квадратные расстояния Махаланобиса для заданных наблюдений.

Для подробного примера того, как выбросы влияют на расстояние Махаланобиса, см. Робастная оценка ковариации и релевантность расстояний Махаланобиса.

Параметры:

Xarray-like формы (n_samples, n_features): Наблюдения, для которых мы вычисляем расстояния Махаланобиса. Предполагается, что наблюдения взяты из того же распределения, что и данные, использованные при обучении.

Возвращает:

distndarray формы (n_samples,): Квадраты расстояний Махаланобиса наблюдений.

score(X_test, y=None)[источник]#

Вычислить логарифмическое правдоподобие X_test в рамках предполагаемой гауссовой модели.

Гауссова модель определяется её средним значением и ковариационной матрицей, которые представлены соответственно self.location_ и self.covariance_.

Параметры:

X_testarray-like формы (n_samples, n_features): Тестовые данные, для которых вычисляется правдоподобие, где n_samples это количество образцов и n_features это количество признаков. X_test предполагается, что он взят из того же распределения, что и данные, использованные при обучении (включая центрирование).
yИгнорируется: Не используется, присутствует для согласованности API по соглашению.

Возвращает:

resfloat: Логарифм правдоподобия X_test с self.location_ и self.covariance_ как оценщики среднего значения и ковариационной матрицы гауссовой модели соответственно.

set_params(**params)[источник]#

Установить параметры этого оценщика.

Метод работает как на простых оценщиках, так и на вложенных объектах (таких как Pipeline). Последние имеют параметры вида __ чтобы можно было обновить каждый компонент вложенного объекта.

Параметры: