Критерий хи-квадрат#
The chi-square test проверяет нулевую гипотезу
о том, что данный набор категориальных данных имеет заданные частоты.
В [1], поведение птиц при поиске пищи исследовалось в старовозрастном лесу Орегона. В лесу 44% объема крон составляла пихта Дугласа, 24% - сосна желтая, 29% - пихта великая и 3% - лиственница западная. Авторы наблюдали за поведением нескольких видов птиц, одним из которых был красногрудый поползень. Они сделали 189 наблюдений за этим видом при поиске пищи, зафиксировав 43 («23%») наблюдений в пихте Дугласа, 52 («28%») в сосне желтой, 54 («29%») в пихте великой и 40 («21%») в лиственнице западной.
Используя критерий хи-квадрат, мы можем проверить нулевую гипотезу о том, что доли событий поиска пищи равны долям объёма кроны. Авторы статьи считали p-значение менее 1% значимым.
Используя приведенные выше пропорции объема кроны и наблюдаемых событий, мы можем вывести ожидаемые частоты.
import numpy as np
f_exp = np.array([44, 24, 29, 3]) / 100 * 189
Наблюдаемые частоты фуражирования были:
f_obs = np.array([43, 52, 54, 40])
Теперь мы можем сравнить наблюдаемые частоты с ожидаемыми частотами.
from scipy.stats import chisquare
chisquare(f_obs=f_obs, f_exp=f_exp)
Power_divergenceResult(statistic=np.float64(228.23515947653874), pvalue=np.float64(3.3295585338846486e-49))
P-значение значительно ниже выбранного уровня значимости. Следовательно, авторы считали различие значимым и заключили, что относительные доли событий поиска пищи не совпадают с относительными долями объёма кроны дерева.