Дискретные статистические распределения#

Обзор#

Дискретные случайные величины принимают только счётное число значений. Часто используемые распределения включены в SciPy и описаны в этом документе. Каждое дискретное распределение может принимать один дополнительный целочисленный параметр: \(L.\) Связь между общим распределением \(p\) и стандартное распределение \(p_{0}\) является

\[p\left(x\right) = p_{0}\left(x-L\right)\]

что позволяет сдвигать входные данные. Когда генератор распределения инициализирован, дискретное распределение может указывать либо начальные и конечные (целочисленные) значения \(a\) и \(b\) который должен быть таким, что

\[p_{0}\left(x\right) = 0\quad x < a \textrm{ or } x > b\]

в этом случае предполагается, что функция плотности вероятности задана на целых числах \(a+mk\leq b\) где \(k\) является неотрицательным целым числом ( \(0,1,2,\ldots\) ) и \(m\) является положительным целым множителем. Альтернативно, два списка \(x_{k}\) и \(p\left(x_{k}\right)\) может быть предоставлен напрямую, в этом случае внутренне создаётся словарь для вычисления вероятностей и генерации случайных величин.

Функция вероятности массы (PMF)#

Функция вероятности случайной величины X определяется как вероятность того, что случайная величина принимает конкретное значение.

\[p\left(x_{k}\right)=P\left[X=x_{k}\right]\]

Это также иногда называют функцией плотности вероятности, хотя технически

\[f\left(x\right)=\sum_{k}p\left(x_{k}\right)\delta\left(x-x_{k}\right)\]

это функция плотности вероятности для дискретного распределения [1] .

Интегральная функция распределения (CDF)#

Кумулятивная функция распределения равна

\[F\left(x\right)=P\left[X\leq x\right]=\sum_{x_{k}\leq x}p\left(x_{k}\right)\]

и также полезно уметь вычислять. Обратите внимание, что

\[F\left(x_{k}\right)-F\left(x_{k-1}\right)=p\left(x_{k}\right)\]

Функция выживания#

Функция выживания — это просто

\[S\left(x\right)=1-F\left(x\right)=P\left[X>k\right]\]

вероятность того, что случайная величина строго больше, чем \(k\) .

Функция процентной точки (обратная CDF)#

Функция процентной точки является обратной к функции кумулятивного распределения и

\[G\left(q\right)=F^{-1}\left(q\right)\]

для дискретных распределений это должно быть изменено для случаев, когда нет \(x_{k}\) такой, что \(F\left(x_{k}\right)=q.\) В этих случаях мы выбираем \(G\left(q\right)\) быть наименьшим значением \(x_{k}=G\left(q\right)\) для которого \(F\left(x_{k}\right)\geq q\) . Если \(q=0\) затем мы определяем \(G\left(0\right)=a-1\) . Это определение позволяет случайные величины определять таким же образом, как и с непрерывными случайными величинами, используя обратную функцию распределения на равномерном распределении для генерации случайных величин.

Обратная функция выживания#

Обратная функция выживания является обратной к функции выживания

\[Z\left(\alpha\right)=S^{-1}\left(\alpha\right)=G\left(1-\alpha\right)\]

и таким образом является наименьшим неотрицательным целым числом \(k\) для которого \(F\left(k\right)\geq1-\alpha\) или наименьшее неотрицательное целое число \(k\) для которого \(S\left(k\right)\leq\alpha.\)

Функции риска#

При необходимости, функция риска и кумулятивная функция риска могут быть определены как

\[h\left(x_{k}\right)=\frac{p\left(x_{k}\right)}{1-F\left(x_{k}\right)}\]

и

\[H\left(x\right)=\sum_{x_{k}\leq x}h\left(x_{k}\right)=\sum_{x_{k}\leq x}\frac{F\left(x_{k}\right)-F\left(x_{k-1}\right)}{1-F\left(x_{k}\right)}.\]

Моменты#

Некцентральные моменты определяются с использованием PDF

\[\mu_{m}^{\prime}=E\left[X^{m}\right]=\sum_{k}x_{k}^{m}p\left(x_{k}\right).\]

Центральные моменты вычисляются аналогично \(\mu=\mu_{1}^{\prime}\)

\begin{eqnarray*} \mu_{m}=E\left[\left(X-\mu\right)^{m}\right] & = & \sum_{k}\left(x_{k}-\mu\right)^{m}p\left(x_{k}\right)\\ & = & \sum_{k=0}^{m}\left(-1\right)^{m-k}\left(\begin{array}{c} m\\ k\end{array}\right)\mu^{m-k}\mu_{k}^{\prime}\end{eqnarray*}

Среднее значение — это первый момент

\[\mu=\mu_{1}^{\prime}=E\left[X\right]=\sum_{k}x_{k}p\left(x_{k}\right)\]

дисперсия — это второй центральный момент

\[\mu_{2}=E\left[\left(X-\mu\right)^{2}\right]=\sum_{x_{k}}x_{k}^{2}p\left(x_{k}\right)-\mu^{2}.\]

Асимметрия определяется как

\[\gamma_{1}=\frac{\mu_{3}}{\mu_{2}^{3/2}}\]

в то время как эксцесс (Фишера) равен

\[\gamma_{2}=\frac{\mu_{4}}{\mu_{2}^{2}}-3,\]

так что нормальное распределение имеет эксцесс, равный нулю.

Производящая функция моментов#

Производящая функция моментов определяется как

\[M_{X}\left(t\right)=E\left[e^{Xt}\right]=\sum_{x_{k}}e^{x_{k}t}p\left(x_{k}\right)\]

Моменты находятся как производные производящей функции моментов, вычисленные в \(0.\)

Подгонка данных#

Для подгонки данных к распределению обычно максимизируют функцию правдоподобия. В качестве альтернативы, некоторые распределения имеют хорошо известные несмещенные оценки с минимальной дисперсией. Они будут выбраны по умолчанию, но функция правдоподобия всегда будет доступна для минимизации.

Если \(f_{i}\left(k;\boldsymbol{\theta}\right)\) является функцией плотности вероятности случайной величины, где \(\boldsymbol{\theta}\) является вектором параметров ( например, \(L\) и \(S\) ), затем для коллекции \(N\) независимые выборки из этого распределения, совместное распределение случайного вектора \(\mathbf{k}\) является

\[f\left(\mathbf{k};\boldsymbol{\theta}\right)=\prod_{i=1}^{N}f_{i}\left(k_{i};\boldsymbol{\theta}\right).\]

Оценка максимального правдоподобия параметров \(\boldsymbol{\theta}\) являются параметрами, которые максимизируют эту функцию при \(\mathbf{x}\) фиксирован и задан данными:

\begin{eqnarray*} \hat{\boldsymbol{\theta}} & = & \arg\max_{\boldsymbol{\theta}}f\left(\mathbf{k};\boldsymbol{\theta}\right)\\ & = & \arg\min_{\boldsymbol{\theta}}l_{\mathbf{k}}\left(\boldsymbol{\theta}\right).\end{eqnarray*}

Где

\begin{eqnarray*} l_{\mathbf{k}}\left(\boldsymbol{\theta}\right) & = & -\sum_{i=1}^{N}\log f\left(k_{i};\boldsymbol{\theta}\right)\\ & = & -N\overline{\log f\left(k_{i};\boldsymbol{\theta}\right)}\end{eqnarray*}

Стандартное обозначение для среднего#

Мы будем использовать

\[\overline{y\left(\mathbf{x}\right)}=\frac{1}{N}\sum_{i=1}^{N}y\left(x_{i}\right)\]

где \(N\) должно быть понятно из контекста.

Сочетания#

Обратите внимание, что

\[k!=k\cdot\left(k-1\right)\cdot\left(k-2\right)\cdot\cdots\cdot1=\Gamma\left(k+1\right)\]

и имеет частные случаи

\begin{eqnarray*} 0! & \equiv & 1\\ k! & \equiv & 0\quad k<0\end{eqnarray*}

и

\[\begin{split}\left(\begin{array}{c} n\\ k\end{array}\right)=\frac{n!}{\left(n-k\right)!k!}.\end{split}\]

Если \(n<0\) или \(k<0\) или \(k>n\) мы определяем \(\left(\begin{array}{c} n\\ k\end{array}\right)=0\)

Дискретные распределения в scipy.stats#