scipy.special.smirnov#
-
scipy.special.smirnov(n, d, выход=None) =
'smirnov'> # Дополнительная кумулятивная функция распределения Колмогорова-Смирнова
Возвращает точную дополнительную кумулятивную функцию распределения Колмогорова-Смирнова (также известную как функция выживания) для Dn+ (или Dn-) для одностороннего теста равенства между эмпирическим и теоретическим распределением. Она равна вероятности того, что максимальная разница между теоретическим распределением и эмпирическим, основанным на n образцов больше, чем d.
- Параметры:
- nint
Количество образцов
- dfloat array_like
Отклонение между эмпирической CDF (ECDF) и целевой CDF.
- выходndarray, необязательно
Необязательный выходной массив для результатов функции
- Возвращает:
- скаляр или ndarray
Значение(я) smirnov(n, d), Prob(Dn+ >= d) (также Prob(Dn- >= d))
Смотрите также
smirnoviОбратная функция выживания для распределения
scipy.stats.ksoneПредоставляет функциональность как непрерывное распределение
kolmogorov,kolmogiФункции для двустороннего распределения
Примечания
smirnovиспользуется stats.kstest в применении критерия согласия Колмогорова-Смирнова. По историческим причинам эта функция доступна в scpy.special, но рекомендуемый способ для получения наиболее точных вычислений CDF/SF/PDF/PPF/ISF — использовать stats.ksone распределение.Примеры
>>> import numpy as np >>> from scipy.special import smirnov >>> from scipy.stats import norm
Показать вероятность разрыва не менее 0, 0.5 и 1.0 для выборки размера 5.
>>> smirnov(5, [0, 0.5, 1.0]) array([ 1. , 0.056, 0. ])
Сравните выборку размера 5 с N(0, 1), стандартным нормальным распределением со средним 0 и стандартным отклонением 1.
x является выборкой.
>>> x = np.array([-1.392, -0.135, 0.114, 0.190, 1.82])
>>> target = norm(0, 1) >>> cdfs = target.cdf(x) >>> cdfs array([0.0819612 , 0.44630594, 0.5453811 , 0.57534543, 0.9656205 ])
Построить эмпирическую CDF и статистики Колмогорова-Смирнова (Dn+, Dn-, Dn).
>>> n = len(x) >>> ecdfs = np.arange(n+1, dtype=float)/n >>> cols = np.column_stack([x, ecdfs[1:], cdfs, cdfs - ecdfs[:n], ... ecdfs[1:] - cdfs]) >>> with np.printoptions(precision=3): ... print(cols) [[-1.392 0.2 0.082 0.082 0.118] [-0.135 0.4 0.446 0.246 -0.046] [ 0.114 0.6 0.545 0.145 0.055] [ 0.19 0.8 0.575 -0.025 0.225] [ 1.82 1. 0.966 0.166 0.034]] >>> gaps = cols[:, -2:] >>> Dnpm = np.max(gaps, axis=0) >>> print(f'Dn-={Dnpm[0]:f}, Dn+={Dnpm[1]:f}') Dn-=0.246306, Dn+=0.224655 >>> probs = smirnov(n, Dnpm) >>> print(f'For a sample of size {n} drawn from N(0, 1):', ... f' Smirnov n={n}: Prob(Dn- >= {Dnpm[0]:f}) = {probs[0]:.4f}', ... f' Smirnov n={n}: Prob(Dn+ >= {Dnpm[1]:f}) = {probs[1]:.4f}', ... sep='\n') For a sample of size 5 drawn from N(0, 1): Smirnov n=5: Prob(Dn- >= 0.246306) = 0.4711 Smirnov n=5: Prob(Dn+ >= 0.224655) = 0.5245
Постройте эмпирическую функцию распределения и стандартную нормальную функцию распределения.
>>> import matplotlib.pyplot as plt >>> plt.step(np.concatenate(([-2.5], x, [2.5])), ... np.concatenate((ecdfs, [1])), ... where='post', label='Empirical CDF') >>> xx = np.linspace(-2.5, 2.5, 100) >>> plt.plot(xx, target.cdf(xx), '--', label='CDF for N(0, 1)')
Добавить вертикальные линии, отмечающие Dn+ и Dn-.
>>> iminus, iplus = np.argmax(gaps, axis=0) >>> plt.vlines([x[iminus]], ecdfs[iminus], cdfs[iminus], color='r', ... alpha=0.5, lw=4) >>> plt.vlines([x[iplus]], cdfs[iplus], ecdfs[iplus+1], color='m', ... alpha=0.5, lw=4)
>>> plt.grid(True) >>> plt.legend(framealpha=1, shadow=True) >>> plt.show()