epps_singleton_2samp#
- scipy.stats.epps_singleton_2samp(x, y, t=(0.4, 0.8), *, ось=0, nan_policy='propagate', keepdims=False)[источник]#
Вычислить статистику теста Эппса-Синглтона (ES).
Проверяет нулевую гипотезу о том, что две выборки имеют одинаковое базовое распределение вероятностей.
- Параметры:
- x, yarray-like
Две выборки наблюдений для тестирования. Входные данные не должны иметь более одного измерения. Выборки могут иметь разную длину, но обе должны содержать не менее пяти наблюдений.
- tподобный массиву, необязательный
Точки (t1, …, tn), где должна быть вычислена эмпирическая характеристическая функция. Это должны быть положительные различные числа. Значение по умолчанию (0.4, 0.8) предложено в [1]. Входные данные не должны иметь более одного измерения.
- осьint или None, по умолчанию: 0
Если это целое число, ось входных данных, по которой вычисляется статистика. Статистика каждого среза по оси (например, строки) входных данных появится в соответствующем элементе вывода. Если
None, вход будет сведён в одномерный массив перед вычислением статистики.- nan_policy{‘propagate’, ‘omit’, ‘raise’}
Определяет, как обрабатывать входные значения NaN.
propagate: если NaN присутствует в срезе оси (например, строке), вдоль которой вычисляется статистика, соответствующая запись вывода будет NaN.omit: NaN будут пропущены при выполнении расчета. Если в срезе оси, вдоль которого вычисляется статистика, остается недостаточно данных, соответствующая запись вывода будет NaN.raise: если присутствует NaN, тоValueErrorбудет вызвано исключение.
- keepdimsbool, по умолчанию: False
Если установлено значение True, оси, которые были сокращены, остаются в результате как размерности с размером один. С этой опцией результат будет корректно транслироваться относительно входного массива.
- Возвращает:
- статистикаfloat
Тестовая статистика.
- p-значениеfloat
Связанное p-значение на основе асимптотического распределения хи-квадрат.
Смотрите также
Примечания
Проверка того, генерируются ли две выборки одним и тем же базовым распределением, является классической задачей в статистике. Широко используемым тестом является тест Колмогорова-Смирнова (KS), который основан на эмпирической функции распределения. Эппс и Синглтон вводят тест, основанный на эмпирической характеристической функции в [1].
Одно преимущество теста ES по сравнению с тестом KS заключается в том, что он не предполагает непрерывное распределение. В [1], авторы заключают, что тест также имеет более высокую мощность, чем тест Колмогорова-Смирнова, во многих примерах. Они рекомендуют использовать тест ES для дискретных выборок, а также для непрерывных выборок с не менее чем 25 наблюдениями каждая, тогда как
anderson_ksampрекомендуется для меньших размеров выборки в непрерывном случае.P-значение вычисляется из асимптотического распределения тестовой статистики, которая следует
chi2распределения. Если размер выборки обоих x и y ниже 25, поправка для малых выборок, предложенная в [1] применяется к тестовой статистике.Значения по умолчанию для
tопределяются в [1] путём рассмотрения различных распределений и нахождения хороших значений, которые приводят к высокой мощности теста в целом. Таблица III в [1] даёт оптимальные значения для распределений, протестированных в этом исследовании. Значенияtмасштабируются полумежквартильным размахом в реализации, см. [1].Начиная с SciPy 1.9,
np.matrixвходные данные (не рекомендуется для нового кода) преобразуются вnp.ndarrayперед выполнением вычисления. В этом случае результатом будет скаляр илиnp.ndarrayподходящей формы вместо 2Dnp.matrix. Аналогично, хотя маскированные элементы маскированных массивов игнорируются, результатом будет скаляр илиnp.ndarrayвместо маскированного массива сmask=False.Ссылки
[1] (1,2,3,4,5,6,7)T. W. Epps и K. J. Singleton, "An omnibus test for the two-sample problem using the empirical characteristic function", Journal of Statistical Computation and Simulation 26, p. 177–203, 1986.
[2]S. J. Goerg и J. Kaiser, “Nonparametric testing of distributions - the Epps-Singleton two-sample test using the empirical characteristic function”, The Stata Journal 9(3), p. 454–465, 2009.