Дискретные статистические распределения#
Обзор#
Дискретные случайные величины принимают только счётное число значений. Часто используемые распределения включены в SciPy и описаны в этом документе. Каждое дискретное распределение может принимать один дополнительный целочисленный параметр: \(L.\) Связь между общим распределением \(p\) и стандартное распределение \(p_{0}\) является
что позволяет сдвигать входные данные. Когда генератор распределения инициализирован, дискретное распределение может указывать либо начальные и конечные (целочисленные) значения \(a\) и \(b\) который должен быть таким, что
в этом случае предполагается, что функция плотности вероятности задана на целых числах \(a+mk\leq b\) где \(k\) является неотрицательным целым числом ( \(0,1,2,\ldots\) ) и \(m\) является положительным целым множителем. Альтернативно, два списка \(x_{k}\) и \(p\left(x_{k}\right)\) может быть предоставлен напрямую, в этом случае внутренне создаётся словарь для вычисления вероятностей и генерации случайных величин.
Функция вероятности массы (PMF)#
Функция вероятности случайной величины X определяется как вероятность того, что случайная величина принимает конкретное значение.
Это также иногда называют функцией плотности вероятности, хотя технически
это функция плотности вероятности для дискретного распределения [1] .
Интегральная функция распределения (CDF)#
Кумулятивная функция распределения равна
и также полезно уметь вычислять. Обратите внимание, что
Функция выживания#
Функция выживания — это просто
вероятность того, что случайная величина строго больше, чем \(k\) .
Функция процентной точки (обратная CDF)#
Функция процентной точки является обратной к функции кумулятивного распределения и
для дискретных распределений это должно быть изменено для случаев, когда нет \(x_{k}\) такой, что \(F\left(x_{k}\right)=q.\) В этих случаях мы выбираем \(G\left(q\right)\) быть наименьшим значением \(x_{k}=G\left(q\right)\) для которого \(F\left(x_{k}\right)\geq q\) . Если \(q=0\) затем мы определяем \(G\left(0\right)=a-1\) . Это определение позволяет случайные величины определять таким же образом, как и с непрерывными случайными величинами, используя обратную функцию распределения на равномерном распределении для генерации случайных величин.
Обратная функция выживания#
Обратная функция выживания является обратной к функции выживания
и таким образом является наименьшим неотрицательным целым числом \(k\) для которого \(F\left(k\right)\geq1-\alpha\) или наименьшее неотрицательное целое число \(k\) для которого \(S\left(k\right)\leq\alpha.\)
Функции риска#
При необходимости, функция риска и кумулятивная функция риска могут быть определены как
и
Моменты#
Некцентральные моменты определяются с использованием PDF
Центральные моменты вычисляются аналогично \(\mu=\mu_{1}^{\prime}\)
Среднее значение — это первый момент
дисперсия — это второй центральный момент
Асимметрия определяется как
в то время как эксцесс (Фишера) равен
так что нормальное распределение имеет эксцесс, равный нулю.
Производящая функция моментов#
Производящая функция моментов определяется как
Моменты находятся как производные производящей функции моментов, вычисленные в \(0.\)
Подгонка данных#
Для подгонки данных к распределению обычно максимизируют функцию правдоподобия. В качестве альтернативы, некоторые распределения имеют хорошо известные несмещенные оценки с минимальной дисперсией. Они будут выбраны по умолчанию, но функция правдоподобия всегда будет доступна для минимизации.
Если \(f_{i}\left(k;\boldsymbol{\theta}\right)\) является функцией плотности вероятности случайной величины, где \(\boldsymbol{\theta}\) является вектором параметров ( например, \(L\) и \(S\) ), затем для коллекции \(N\) независимые выборки из этого распределения, совместное распределение случайного вектора \(\mathbf{k}\) является
Оценка максимального правдоподобия параметров \(\boldsymbol{\theta}\) являются параметрами, которые максимизируют эту функцию при \(\mathbf{x}\) фиксирован и задан данными:
Где
Стандартное обозначение для среднего#
Мы будем использовать
где \(N\) должно быть понятно из контекста.
Сочетания#
Обратите внимание, что
и имеет частные случаи
и
Если \(n<0\) или \(k<0\) или \(k>n\) мы определяем \(\left(\begin{array}{c} n\\ k\end{array}\right)=0\)
Дискретные распределения в scipy.stats#
- Распределение Бернулли
- Бета-биномиальное распределение
- Бета-отрицательное биномиальное распределение
- субъекты наблюдаются для каждого лечения, и
- Распределение Больцмана (усечённое распределение Планка)
- Распределение Планка (дискретное экспоненциальное)
- Распределение Пуассона
- Геометрическое распределение
- Отрицательное биномиальное распределение
- Гипергеометрическое распределение
- Нецентральное гипергеометрическое распределение Фишера
- Распределение Уоллениуса (нецентральное гипергеометрическое распределение)
- Отрицательное гипергеометрическое распределение
- Распределение Ципфа (Дзета)
- Распределение Ципфа
- Логарифмическое (логарифмическое серийное, серийное) распределение
- Дискретное равномерное (randint) распределение
- Дискретное распределение Лапласа
- Распределение Юла-Саймона