pointbiserialr#
- scipy.stats.pointbiserialr(x, y, *, ось=0, nan_policy='propagate', keepdims=False)[источник]#
Вычислить коэффициент точечно-бисериальной корреляции и его p-значение.
Точечно-бисериальная корреляция используется для измерения связи между бинарной переменной x и непрерывной переменной y. Как и другие коэффициенты корреляции, этот варьируется от -1 до +1, где 0 означает отсутствие корреляции. Корреляции -1 или +1 подразумевают детерминированную связь.
Эта функция может быть вычислена с использованием сокращенной формулы, но дает тот же результат, что и
pearsonr.- Параметры:
- xarray_like булевых значений
Входной массив.
- yarray_like
Входной массив.
- осьint или None, по умолчанию: 0
Если это целое число, ось входных данных, по которой вычисляется статистика. Статистика каждого среза по оси (например, строки) входных данных появится в соответствующем элементе вывода. Если
None, вход будет сведён в одномерный массив перед вычислением статистики.- nan_policy{‘propagate’, ‘omit’, ‘raise’}
Определяет, как обрабатывать входные значения NaN.
propagate: если NaN присутствует в срезе оси (например, строке), вдоль которой вычисляется статистика, соответствующая запись вывода будет NaN.omit: NaN будут пропущены при выполнении расчета. Если в срезе оси, вдоль которого вычисляется статистика, остается недостаточно данных, соответствующая запись вывода будет NaN.raise: если присутствует NaN, тоValueErrorбудет вызвано исключение.
- keepdimsbool, по умолчанию: False
Если установлено значение True, оси, которые были сокращены, остаются в результате как размерности с размером один. С этой опцией результат будет корректно транслироваться относительно входного массива.
- Возвращает:
- res: SignificanceResult
Объект, содержащий атрибуты:
- статистикаfloat
Значение R.
- p-значениеfloat
Двустороннее p-значение.
Примечания
pointbiserialrиспользует t-тест сn-1степеней свободы. Эквивалентноpearsonr.Значение точечно-бисериальной корреляции может быть вычислено из:
\[r_{pb} = \frac{\overline{Y_1} - \overline{Y_0}} {s_y} \sqrt{\frac{N_0 N_1} {N (N - 1)}}\]Где \(\overline{Y_{0}}\) и \(\overline{Y_{1}}\) являются средними значениями метрических наблюдений, закодированных как 0 и 1 соответственно; \(N_{0}\) и \(N_{1}\) являются количеством наблюдений, закодированных как 0 и 1 соответственно; \(N\) это общее количество наблюдений и \(s_{y}\) является стандартным отклонением всех метрических наблюдений.
Значение \(r_{pb}\) что значительно отличается от нуля, полностью эквивалентно значимой разнице в средних между двумя группами. Таким образом, t-критерий для независимых выборок с \(N-2\) степени свободы могут использоваться для проверки, является ли \(r_{pb}\) не равно нулю. Связь между t-статистикой для сравнения двух независимых групп и \(r_{pb}\) задается формулой:
\[t = \sqrt{N - 2}\frac{r_{pb}}{\sqrt{1 - r^{2}_{pb}}}\]Начиная с SciPy 1.9,
np.matrixвходные данные (не рекомендуется для нового кода) преобразуются вnp.ndarrayперед выполнением вычисления. В этом случае результатом будет скаляр илиnp.ndarrayподходящей формы вместо 2Dnp.matrix. Аналогично, хотя маскированные элементы маскированных массивов игнорируются, результатом будет скаляр илиnp.ndarrayвместо маскированного массива сmask=False.Ссылки
[1]J. Lev, "The Point Biserial Coefficient of Correlation", Ann. Math. Statist., Vol. 20, no.1, pp. 125-126, 1949.
[2]Р.Ф. Тейт, «Корреляция между дискретной и непрерывной переменной. Точечно-бисериальная корреляция.», Ann. Math. Statist., Vol. 25, № 3, стр. 603-607, 1954.
[3]Д. Корнброт “Точечная бисериальная корреляция”, В Wiley StatsRef: Справочник по статистике (ред. Н. Балакришнан и др.), 2014. DOI:10.1002/9781118445112.stat06227
Примеры
>>> import numpy as np >>> from scipy import stats >>> a = np.array([0, 0, 0, 1, 1, 1, 1]) >>> b = np.arange(7) >>> stats.pointbiserialr(a, b) (0.8660254037844386, 0.011724811003954652) >>> stats.pearsonr(a, b) (0.86602540378443871, 0.011724811003954626) >>> np.corrcoef(a, b) array([[ 1. , 0.8660254], [ 0.8660254, 1. ]])