numpy.corrcoef#

numpy.corrcoef(x, y=None, rowvar=True, *, dtype=None)[источник]#

Возвращает коэффициенты корреляции Пирсона.

Пожалуйста, обратитесь к документации для cov для более подробной информации. Связь между матрицей коэффициентов корреляции, R, и ковариационная матрица, C, является

\[R_{ij} = \frac{ C_{ij} } { \sqrt{ C_{ii} C_{jj} } }\]

Значения R находятся в диапазоне от -1 до 1 включительно.

Параметры:
xarray_like

Одномерный или двумерный массив, содержащий несколько переменных и наблюдений. Каждая строка x представляет переменную, а каждый столбец — отдельное наблюдение всех этих переменных. Также см. rowvar ниже.

yarray_like, необязательный

Дополнительный набор переменных и наблюдений. y имеет ту же форму, что и x.

rowvarbool, необязательно

Если rowvar равно True (по умолчанию), то каждая строка представляет переменную, с наблюдениями в столбцах. В противном случае отношение транспонировано: каждый столбец представляет переменную, а строки содержат наблюдения.

dtypeтип данных, опционально

Тип данных результата. По умолчанию возвращаемый тип данных будет иметь по крайней мере numpy.float64 точность.

Новое в версии 1.20.

Возвращает:
Rndarray

Матрица коэффициентов корреляции переменных.

Смотрите также

cov

Ковариационная матрица

Примечания

Из-за округления с плавающей точкой результирующий массив может не быть эрмитовым, диагональные элементы могут не равняться 1, и элементы могут не удовлетворять неравенству abs(a) <= 1. Вещественные и мнимые части обрезаются до интервала [-1, 1] в попытке улучшить ситуацию, но это мало помогает в комплексном случае.

Примеры

>>> import numpy as np

В этом примере мы генерируем два случайных массива, xarr и yarr, и вычислять коэффициенты корреляции Пирсона по строкам и столбцам, R. Поскольку rowvar по умолчанию истинно, мы сначала находим построчные коэффициенты корреляции Пирсона между переменными xarr.

>>> import numpy as np
>>> rng = np.random.default_rng(seed=42)
>>> xarr = rng.random((3, 3))
>>> xarr
array([[0.77395605, 0.43887844, 0.85859792],
       [0.69736803, 0.09417735, 0.97562235],
       [0.7611397 , 0.78606431, 0.12811363]])
>>> R1 = np.corrcoef(xarr)
>>> R1
array([[ 1.        ,  0.99256089, -0.68080986],
       [ 0.99256089,  1.        , -0.76492172],
       [-0.68080986, -0.76492172,  1.        ]])

Если мы добавим другой набор переменных и наблюдений yarr, мы можем вычислить построчные коэффициенты корреляции Пирсона между переменными в xarr и yarr.

>>> yarr = rng.random((3, 3))
>>> yarr
array([[0.45038594, 0.37079802, 0.92676499],
       [0.64386512, 0.82276161, 0.4434142 ],
       [0.22723872, 0.55458479, 0.06381726]])
>>> R2 = np.corrcoef(xarr, yarr)
>>> R2
array([[ 1.        ,  0.99256089, -0.68080986,  0.75008178, -0.934284  ,
        -0.99004057],
       [ 0.99256089,  1.        , -0.76492172,  0.82502011, -0.97074098,
        -0.99981569],
       [-0.68080986, -0.76492172,  1.        , -0.99507202,  0.89721355,
         0.77714685],
       [ 0.75008178,  0.82502011, -0.99507202,  1.        , -0.93657855,
        -0.83571711],
       [-0.934284  , -0.97074098,  0.89721355, -0.93657855,  1.        ,
         0.97517215],
       [-0.99004057, -0.99981569,  0.77714685, -0.83571711,  0.97517215,
         1.        ]])

Наконец, если мы используем опцию rowvar=False, столбцы теперь рассматриваются как переменные, и мы найдём построчные коэффициенты корреляции Пирсона между переменными в xarr и yarr.

>>> R3 = np.corrcoef(xarr, yarr, rowvar=False)
>>> R3
array([[ 1.        ,  0.77598074, -0.47458546, -0.75078643, -0.9665554 ,
         0.22423734],
       [ 0.77598074,  1.        , -0.92346708, -0.99923895, -0.58826587,
        -0.44069024],
       [-0.47458546, -0.92346708,  1.        ,  0.93773029,  0.23297648,
         0.75137473],
       [-0.75078643, -0.99923895,  0.93773029,  1.        ,  0.55627469,
         0.47536961],
       [-0.9665554 , -0.58826587,  0.23297648,  0.55627469,  1.        ,
        -0.46666491],
       [ 0.22423734, -0.44069024,  0.75137473,  0.47536961, -0.46666491,
         1.        ]])