scipy.stats.

крускал#

scipy.stats.крускал(*образцы, nan_policy='propagate', ось=0, keepdims=False)[источник]#

Вычислить H-критерий Краскела-Уоллиса для независимых выборок.

Критерий Краскела-Уоллиса H проверяет нулевую гипотезу о том, что медиана популяции всех групп одинакова. Это непараметрическая версия ANOVA. Тест работает с 2 или более независимыми выборками, которые могут иметь разные размеры. Обратите внимание, что отклонение нулевой гипотезы не указывает, какая из групп отличается. Для определения различий между группами требуются пост-хок сравнения.

Параметры:
sample1, sample2, …array_like

Два или более массивов с выборочными измерениями могут быть переданы как аргументы. Выборки должны быть одномерными.

nan_policy{‘propagate’, ‘omit’, ‘raise’}

Определяет, как обрабатывать входные значения NaN.

  • propagate: если NaN присутствует в срезе оси (например, строке), вдоль которой вычисляется статистика, соответствующая запись вывода будет NaN.

  • omit: NaN будут пропущены при выполнении расчета. Если в срезе оси, вдоль которого вычисляется статистика, остается недостаточно данных, соответствующая запись вывода будет NaN.

  • raise: если присутствует NaN, то ValueError будет вызвано исключение.

осьint или None, по умолчанию: 0

Если это целое число, ось входных данных, по которой вычисляется статистика. Статистика каждого среза по оси (например, строки) входных данных появится в соответствующем элементе вывода. Если None, вход будет сведён в одномерный массив перед вычислением статистики.

keepdimsbool, по умолчанию: False

Если установлено значение True, оси, которые были сокращены, остаются в результате как размерности с размером один. С этой опцией результат будет корректно транслироваться относительно входного массива.

Возвращает:
статистикаfloat

Статистика H Краскела-Уоллиса, скорректированная на связи.

p-значениеfloat

P-значение для теста с предположением, что H имеет распределение хи-квадрат. Возвращаемое p-значение — это функция выживания распределения хи-квадрат, вычисленная в H.

Смотрите также

f_oneway

1-факторный дисперсионный анализ (ANOVA).

mannwhitneyu

Ранговый критерий Манна-Уитни для двух выборок.

friedmanchisquare

Критерий Фридмана для повторных измерений.

Примечания

Из-за предположения, что H имеет распределение хи-квадрат, количество выборок в каждой группе не должно быть слишком маленьким. Типичное правило - что каждая выборка должна содержать не менее 5 измерений.

Начиная с SciPy 1.9, np.matrix входные данные (не рекомендуется для нового кода) преобразуются в np.ndarray перед выполнением вычисления. В этом случае результатом будет скаляр или np.ndarray подходящей формы вместо 2D np.matrix. Аналогично, хотя маскированные элементы маскированных массивов игнорируются, результатом будет скаляр или np.ndarray вместо маскированного массива с mask=False.

Ссылки

[1]

W. H. Kruskal & W. W. Wallis, “Use of Ranks in One-Criterion Variance Analysis”, Journal of the American Statistical Association, Vol. 47, Issue 260, pp. 583-621, 1952.

Примеры

>>> from scipy import stats
>>> x = [1, 3, 5, 7, 9]
>>> y = [2, 4, 6, 8, 10]
>>> stats.kruskal(x, y)
KruskalResult(statistic=0.2727272727272734, pvalue=0.6015081344405895)
>>> x = [1, 1, 1]
>>> y = [2, 2, 2]
>>> z = [2, 2]
>>> stats.kruskal(x, y, z)
KruskalResult(statistic=7.0, pvalue=0.0301973834223185)