somersd#
- scipy.stats.somersd(x, y=None, альтернатива='two-sided')[источник]#
Вычисляет асимметричную меру порядковой ассоциации Сомерса D.
Как у Кендалла \(\tau\), Somers’ \(D\) является мерой соответствия между двумя ранжировками. Обе статистики учитывают разницу между количеством согласованных и несогласованных пар в двух ранжировках \(X\) и \(Y\), и оба нормализованы так, что значения, близкие к 1, указывают на сильное согласие, а значения, близкие к -1, указывают на сильное несогласие. Они различаются способом нормализации. Чтобы показать связь, Somers' \(D\) может быть определена через тау Кендалла \(\tau_a\):
\[D(Y|X) = \frac{\tau_a(X, Y)}{\tau_a(X, X)}\]Предположим, первый ранг \(X\) имеет \(r\) различные ранги и второй ранг \(Y\) имеет \(s\) различные ранги. Эти два списка \(n\) рейтинги также можно рассматривать как \(r \times s\) таблица сопряженности, в которой элемент \(i, j\) это количество пар рангов с рангом \(i\) в ранжировании \(X\) и ранг \(j\) в ранжировании \(Y\). Соответственно,
somersdтакже позволяет вводить данные в виде единой двумерной таблицы сопряженности вместо двух отдельных одномерных ранжировок.Обратите внимание, что определение Somers’ \(D\) является асимметричным: в общем случае, \(D(Y|X) \neq D(X|Y)\).
somersd(x, y)вычисляет Somers' \(D(Y|X)\): переменная «строка» \(X\) рассматривается как независимая переменная, а "столбцовая" переменная \(Y\) зависит. Для Somers' \(D(X|Y)\), поменяйте местами входные списки или транспонируйте входную таблицу.- Параметры:
- xarray_like
1D массив рангов, рассматриваемый как (строчная) независимая переменная. Альтернативно, 2D таблица сопряженности.
- yarray_like, необязательный
Если x является одномерным массивом рангов, y является одномерным массивом рангов той же длины, рассматриваемым как (столбцовая) зависимая переменная. Если x является 2D, y игнорируется.
- альтернатива{‘two-sided’, ‘less’, ‘greater’}, необязательный
Определяет альтернативную гипотезу. По умолчанию ‘two-sided’. Доступны следующие варианты: * ‘two-sided’: ранговая корреляция ненулевая * ‘less’: ранговая корреляция отрицательная (меньше нуля) * ‘greater’: ранговая корреляция положительная (больше нуля)
- Возвращает:
- resSomersDResult
A SomersDResult объект со следующими полями:
- статистикаfloat
Сомерса \(D\) статистика.
- p-значениеfloat
p-значение для проверки гипотезы, нулевая гипотеза которой — отсутствие связи, \(D=0\). См. примечания для дополнительной информации.
- таблица2D массив
Таблица сопряженности, сформированная из рангов x и y (или предоставленную таблицу сопряженности, если x является двумерным массивом)
Смотрите также
kendalltauВычисляет тау Кендалла, другую меру корреляции.
weightedtauВычисляет взвешенную версию тау Кендалла.
spearmanrВычисляет коэффициент корреляции Спирмена.
pearsonrВычисляет коэффициент корреляции Пирсона.
Примечания
Эта функция следует подходу таблицы сопряжённости [2] и [3]. p-значения вычисляются на основе асимптотического приближения распределения тестовой статистики при нулевой гипотезе \(D=0\).
Теоретически, тесты гипотез, основанные на коэффициенте Кендалла \(tau\) и Сомерса \(D\) должны быть идентичны. Однако, p-значения, возвращаемые
kendalltauоснованы на нулевой гипотезе независимость между \(X\) и \(Y\) (т.е. популяция, из которой берутся пары в \(X\) и \(Y\) выборки содержат равное количество всех возможных пар), что более специфично, чем нулевая гипотеза \(D=0\) используется здесь. Если желательна нулевая гипотеза независимости, допустимо использовать p-значение, возвращаемоеkendalltauсо статистикой, возвращаемойsomersdи наоборот. Для получения дополнительной информации см. [2].Таблицы сопряженности форматируются в соответствии с соглашением, используемым в SAS и R: первый предоставленный ранг (
x) является «строковой» переменной, а второй предоставленный ранг (y) является «столбцовой» переменной. Это противоположно соглашению оригинальной статьи Сомерса [1].Ссылки
[1]Роберт Х. Сомерс, «Новая асимметричная мера связи для порядковых переменных», American Sociological Review, Vol. 27, No. 6, pp. 799–811, 1962.
[2] (1,2)Мортон Б. Браун и Жаклин К. Бенедетти, «Поведение выборки тестов для корреляции в двусторонних таблицах сопряжённости», Журнал Американской статистической ассоциации Том. 72, № 358, стр. 309–315, 1977.
[3]SAS Institute, Inc., "The FREQ Procedure (Book Excerpt)", SAS/STAT 9.2 Руководство пользователя, второе издание, SAS Publishing, 2009.
[4]Laerd Statistics, "Somers' d using SPSS Statistics", SPSS Статистические руководства и учебники по статистике, https://statistics.laerd.com/spss-tutorials/somers-d-using-spss-statistics.php, Дата обращения: 31 июля 2020 г.
Примеры
Мы вычисляем коэффициент Сомерса D для примера, приведенного в [4], в котором владелец сети отелей пытается определить связь между чистотой номеров и удовлетворенностью клиентов. Независимая переменная, чистота номеров, ранжирована по порядковой шкале: «ниже среднего (1)», «среднее (2)» или «выше среднего (3)». Зависимая переменная, удовлетворенность клиентов, ранжирована по второй шкале: «очень неудовлетворен (1)», «умеренно неудовлетворен (2)», «ни удовлетворен, ни неудовлетворен (3)», «умеренно удовлетворен (4)» или «очень удовлетворен (5)». 189 клиентов ответили на опрос, и результаты сведены в таблицу сопряженности, где чистота номеров — переменная «строк», а удовлетворенность клиентов — переменная «столбцов».
27
25
14
7
0
7
14
18
35
12
1
3
2
7
17
Например, 27 клиентов присвоили чистоте своей комнаты рейтинг «ниже среднего (1)» и соответствующую удовлетворенность «очень неудовлетворен (1)». Мы проводим анализ следующим образом.
>>> from scipy.stats import somersd >>> table = [[27, 25, 14, 7, 0], [7, 14, 18, 35, 12], [1, 3, 2, 7, 17]] >>> res = somersd(table) >>> res.statistic 0.6032766111513396 >>> res.pvalue 1.0007091191074533e-27
Значение статистики Сомерса D составляет примерно 0,6, что указывает на положительную корреляцию между чистотой комнаты и удовлетворенностью клиентов в выборке. The p-значение очень мало, что указывает на очень малую вероятность наблюдения такого экстремального значения статистики при нулевой гипотезе, что статистика всей популяции (из которой взята наша выборка из 189 клиентов) равна нулю. Это поддерживает альтернативную гипотезу о том, что истинное значение Somers’ D для популяции ненулевое.