incr_mean_variance_axis#

sklearn.utils.sparsefuncs.incr_mean_variance_axis(X, *, ось, last_mean, last_var, last_n, веса=None)[источник]#

Вычислить инкрементальное среднее и дисперсию вдоль оси на матрице CSR или CSC.

last_mean, last_var — это статистики, вычисленные на последнем шаге этой функцией. Обе должны быть инициализированы нулевыми массивами соответствующего размера, т.е. количеством признаков в X. last_n — это количество образцов, встреченных до сих пор.

Параметры:
XCSR или CSC разреженная матрица формы (n_samples, n_features)

Входные данные.

ось{0, 1}

Ось, вдоль которой должна быть вычислена ось.

last_meanndarray формы (n_features,) или (n_samples,), dtype=floating

Массив средних значений для обновления новыми данными X. Должен иметь форму (n_features,) если axis=0 или (n_samples,) если axis=1.

last_varndarray формы (n_features,) или (n_samples,), dtype=floating

Массив дисперсий для обновления новыми данными X. Должен иметь форму (n_features,) если axis=0 или (n_samples,) если axis=1.

last_nfloat или ndarray формы (n_features,) или (n_samples,), dtype=floating

Сумма весов, наблюдаемых до сих пор, исключая текущие веса. Если не float, должна иметь форму (n_features,) если axis=0 или (n_samples,) если axis=1. Если float, соответствует одинаковым весам для всех образцов (или признаков).

весаndarray of shape (n_samples,) or (n_features,), default=None

Если axis установлен в 0, форма (n_samples,) или если axis установлен в 1, форма (n_features,). Если установлено None, то выборки имеют равный вес.

Добавлено в версии 0.24.

Возвращает:
средние значенияndarray формы (n_features,) или (n_samples,), dtype=floating

Обновленные средние значения по признакам, если axis = 0, или по образцам, если axis = 1.

дисперсииndarray формы (n_features,) или (n_samples,), dtype=floating

Обновленные дисперсии по признакам, если axis = 0, или дисперсии по образцам, если axis = 1.

nndarray формы (n_features,) или (n_samples,), dtype=integral

Обновленное количество просмотренных образцов на признак, если axis=0, или количество просмотренных признаков на образец, если axis=1.

Если weights не None, n является суммой весов просмотренных выборок или признаков вместо фактического количества просмотренных выборок или признаков.

Примечания

NaN игнорируются в алгоритме.

Примеры

>>> from sklearn.utils import sparsefuncs
>>> from scipy import sparse
>>> import numpy as np
>>> indptr = np.array([0, 3, 4, 4, 4])
>>> indices = np.array([0, 1, 2, 2])
>>> data = np.array([8, 1, 2, 5])
>>> scale = np.array([2, 3, 2])
>>> csr = sparse.csr_matrix((data, indices, indptr))
>>> csr.todense()
matrix([[8, 1, 2],
        [0, 0, 5],
        [0, 0, 0],
        [0, 0, 0]])
>>> sparsefuncs.incr_mean_variance_axis(
...     csr, axis=0, last_mean=np.zeros(3), last_var=np.zeros(3), last_n=2
... )
(array([1.33, 0.167, 1.17]), array([8.88, 0.139, 3.47]),
array([6., 6., 6.]))