scipy.stats.

poisson_means_test#

scipy.stats.poisson_means_test(k1, n1, k2, n2, *, diff=0, альтернатива='two-sided')[источник]#

Выполняет тест средних Пуассона, также известный как «E-тест».

Это проверка нулевой гипотезы о том, что разница между средними двух распределений Пуассона равна diff. Выборки представлены как количество событий k1 и k2 наблюдаемые в пределах интервалов измерений (например, времени, пространства, количества наблюдений) размеров n1 и n2.

Параметры:
k1int

Количество событий, наблюдаемых из распределения 1.

n1: float

Размер выборки из распределения 1.

k2int

Количество событий, наблюдаемых из распределения 2.

n2float

Размер выборки из распределения 2.

difffloat, по умолчанию=0

Предполагаемая разница в средних между распределениями, лежащими в основе выборок.

альтернатива{‘two-sided’, ‘less’, ‘greater’}, необязательный

Определяет альтернативную гипотезу. Доступны следующие варианты (по умолчанию 'two-sided'):

  • ‘two-sided’: разница между средними распределений не равна diff

  • ‘less’: разница между средними распределений меньше чем diff

  • ‘greater’: разница между средними распределений больше, чем diff

Возвращает:
статистикаfloat

Тестовая статистика (см. [1] уравнение 3.3).

p-значениеfloat

Вероятность достижения такого экстремального значения тестовой статистики при нулевой гипотезе.

Примечания

Пусть:

\[X_1 \sim \mbox{Poisson}(\mathtt{n1}\lambda_1)\]

будет случайной величиной, независимой от

\[X_2 \sim \mbox{Poisson}(\mathtt{n2}\lambda_2)\]

и пусть k1 и k2 быть наблюдаемыми значениями \(X_1\) и \(X_2\), соответственно. Тогда poisson_means_test использует количество наблюдаемых событий k1 и k2 из выборок размера n1 и n2, соответственно, для проверки нулевой гипотезы о том, что

\[H_0: \lambda_1 - \lambda_2 = \mathtt{diff}\]

Преимущество E-теста в том, что он обладает хорошей мощностью для малых размеров выборки, что может снизить затраты на выборку [1]. Он был оценен и признан более мощным, чем сравнимый C-тест, иногда называемый точным тестом Пуассона.

Ссылки

[1] (1,2)

Krishnamoorthy, K., & Thomson, J. (2004). A more powerful test for comparing two Poisson means. Journal of Statistical Planning and Inference, 119(1), 23-35.

[2]

Przyborowski, J., & Wilenski, H. (1940). Homogeneity of results in testing samples from Poisson series: With an application to testing clover seed for dodder. Biometrika, 31(3/4), 313-323.

Примеры

Предположим, что садовод хочет проверить количество семян повилики (сорняка) в мешке с семенами клевера, которые он покупает у семенной компании. Ранее было установлено, что количество семян повилики в клевере следует распределению Пуассона.

Из мешка перед отправкой садоводу берётся образец весом 100 грамм. Образец анализируется, и в нём не обнаружено семян повилики; то есть, k1 равно 0. Однако по прибытии садовник берёт ещё одну 100-граммовую пробу из мешка. На этот раз в пробе находят три семени повилики; то есть, k2 равно 3. Садовник хочет узнать, является ли разница значимой и не обусловленной случайностью. Нулевая гипотеза состоит в том, что разница между двумя выборками обусловлена лишь случайностью, или что \(\lambda_1 - \lambda_2 = \mathtt{diff}\) где \(\mathtt{diff} = 0\)Альтернативная гипотеза состоит в том, что различие не случайно, или \(\lambda_1 - \lambda_2 \ne 0\)Садовник выбирает уровень значимости 5%, чтобы отвергнуть нулевую гипотезу в пользу альтернативной [2].

>>> import scipy.stats as stats
>>> res = stats.poisson_means_test(0, 100, 3, 100)
>>> res.statistic, res.pvalue
(-1.7320508075688772, 0.08837900929018157)

P-значение равно .088, что указывает на примерно 9% вероятность наблюдения значения статистики критерия при нулевой гипотезе. Это превышает 5%, поэтому садовод не отвергает нулевую гипотезу, так как различие нельзя считать значимым на этом уровне.