scipy.stats.

epps_singleton_2samp#

scipy.stats.epps_singleton_2samp(x, y, t=(0.4, 0.8), *, ось=0, nan_policy='propagate', keepdims=False)[источник]#

Вычислить статистику теста Эппса-Синглтона (ES).

Проверяет нулевую гипотезу о том, что две выборки имеют одинаковое базовое распределение вероятностей.

Параметры:

x, yarray-like

Две выборки наблюдений для тестирования. Входные данные не должны иметь более одного измерения. Выборки могут иметь разную длину, но обе должны содержать не менее пяти наблюдений.

tподобный массиву, необязательный

Точки (t1, …, tn), где должна быть вычислена эмпирическая характеристическая функция. Это должны быть положительные различные числа. Значение по умолчанию (0.4, 0.8) предложено в [1]. Входные данные не должны иметь более одного измерения.

осьint или None, по умолчанию: 0

Если это целое число, ось входных данных, по которой вычисляется статистика. Статистика каждого среза по оси (например, строки) входных данных появится в соответствующем элементе вывода. Если None, вход будет сведён в одномерный массив перед вычислением статистики.

nan_policy{‘propagate’, ‘omit’, ‘raise’}

Определяет, как обрабатывать входные значения NaN.

propagate: если NaN присутствует в срезе оси (например, строке), вдоль которой вычисляется статистика, соответствующая запись вывода будет NaN.
omit: NaN будут пропущены при выполнении расчета. Если в срезе оси, вдоль которого вычисляется статистика, остается недостаточно данных, соответствующая запись вывода будет NaN.
raise: если присутствует NaN, то ValueError будет вызвано исключение.

keepdimsbool, по умолчанию: False

Если установлено значение True, оси, которые были сокращены, остаются в результате как размерности с размером один. С этой опцией результат будет корректно транслироваться относительно входного массива.

Возвращает:

статистикаfloat: Тестовая статистика.
p-значениеfloat: Связанное p-значение на основе асимптотического распределения хи-квадрат.

Смотрите также

ks_2samp, anderson_ksamp

Примечания

Проверка того, генерируются ли две выборки одним и тем же базовым распределением, является классической задачей в статистике. Широко используемым тестом является тест Колмогорова-Смирнова (KS), который основан на эмпирической функции распределения. Эппс и Синглтон вводят тест, основанный на эмпирической характеристической функции в [1].

Одно преимущество теста ES по сравнению с тестом KS заключается в том, что он не предполагает непрерывное распределение. В [1], авторы заключают, что тест также имеет более высокую мощность, чем тест Колмогорова-Смирнова, во многих примерах. Они рекомендуют использовать тест ES для дискретных выборок, а также для непрерывных выборок с не менее чем 25 наблюдениями каждая, тогда как anderson_ksamp рекомендуется для меньших размеров выборки в непрерывном случае.

P-значение вычисляется из асимптотического распределения тестовой статистики, которая следует chi2 распределения. Если размер выборки обоих x и y ниже 25, поправка для малых выборок, предложенная в [1] применяется к тестовой статистике.

Значения по умолчанию для t определяются в [1] путём рассмотрения различных распределений и нахождения хороших значений, которые приводят к высокой мощности теста в целом. Таблица III в [1] даёт оптимальные значения для распределений, протестированных в этом исследовании. Значения t масштабируются полумежквартильным размахом в реализации, см. [1].

Начиная с SciPy 1.9, np.matrix входные данные (не рекомендуется для нового кода) преобразуются в np.ndarray перед выполнением вычисления. В этом случае результатом будет скаляр или np.ndarray подходящей формы вместо 2D np.matrix. Аналогично, хотя маскированные элементы маскированных массивов игнорируются, результатом будет скаляр или np.ndarray вместо маскированного массива с mask=False.

Ссылки

[1] (1,2,3,4,5,6,7)

T. W. Epps и K. J. Singleton, "An omnibus test for the two-sample problem using the empirical characteristic function", Journal of Statistical Computation and Simulation 26, p. 177–203, 1986.

[2]

S. J. Goerg и J. Kaiser, “Nonparametric testing of distributions - the Epps-Singleton two-sample test using the empirical characteristic function”, The Stata Journal 9(3), p. 454–465, 2009.