pandas.core.groupby.DataFrameGroupBy.describe#

DataFrameGroupBy.describe(процентили=None, включать=None, exclude=None)[источник]#

Генерация описательной статистики.

Описательная статистика включает показатели, которые суммируют центральную тенденцию, дисперсию и форму распределения набора данных, исключая NaN значения.

Анализирует как числовые, так и объектные серии, а также DataFrame наборы столбцов со смешанными типами данных. Вывод будет варьироваться в зависимости от предоставленного. Обратитесь к примечаниям ниже для более подробной информации.

Параметры:

процентилисписок чисел, необязательный

Процентили для включения в вывод. Все должны находиться между 0 и 1. По умолчанию [.25, .5, .75], который возвращает 25-й, 50-й и 75-й процентили.

включать‘all’, список типов данных или None (по умолчанию), опционально

Белый список типов данных для включения в результат. Игнорируется для Series. Вот доступные опции:

‘all’ : Все столбцы входных данных будут включены в вывод.
Список типов данных : Ограничивает результаты предоставленными типами данных. Чтобы ограничить результат числовыми типами, отправьте numpy.number. Чтобы ограничить это только столбцами с объектами, передайте numpy.object тип данных. Строки также могут использоваться в стиле select_dtypes (например, df.describe(include=['O'])). Для выбора категориальных столбцов pandas используйте 'category'
None (по умолчанию): Результат будет включать все числовые столбцы.

excludeсписок типов данных или None (по умолчанию), опционально,

Черный список типов данных для исключения из результата. Игнорируется для Series. Вот доступные опции:

Список типов данных : Исключает указанные типы данных из результата. Чтобы исключить числовые типы, отправьте numpy.number. Чтобы исключить столбцы типа object, укажите тип данных numpy.object. Строки также могут использоваться в стиле select_dtypes (например, df.describe(exclude=['O'])). Чтобы исключить категориальные столбцы pandas, используйте 'category'
None (по умолчанию): результат ничего не исключит.

Возвращает:

Series или DataFrame: Сводная статистика предоставленного Series или Dataframe.

Смотрите также

DataFrame.count: Подсчитывает количество ненулевых/непустых наблюдений.
DataFrame.max: Максимум значений в объекте.
DataFrame.min: Минимум значений в объекте.
DataFrame.mean: Среднее значение.
DataFrame.std: Стандартное отклонение наблюдений.
DataFrame.select_dtypes: Подмножество DataFrame, включающее/исключающее столбцы на основе их типа данных.

Примечания

Для числовых данных индекс результата будет включать count, mean, std, min, max а также нижний, 50 и верхние процентили. По умолчанию нижний процентиль равен 25 а верхний процентиль равен 75. 50 процентиль совпадает с медианой.

Для данных типа object (например, строк или временных меток) индекс результата будет включать count, unique, top, и freq. top является наиболее распространенным значением. freq является наиболее частой частотой значения. Метки времени также включают first и last элементы.

Если несколько значений объектов имеют наибольшее количество, то count и top результаты будут произвольно выбраны из тех, которые имеют наибольшее количество.

Для смешанных типов данных, предоставленных через DataFrame, по умолчанию возвращается только анализ числовых столбцов. Если датафрейм состоит только из объектных и категориальных данных без числовых столбцов, по умолчанию возвращается анализ как объектных, так и категориальных столбцов. Если include='all' предоставляется как опция, результат будет включать объединение атрибутов каждого типа.

The включать и exclude параметры могут использоваться для ограничения того, какие столбцы в DataFrame анализируются для вывода. Параметры игнорируются при анализе Series.

Примеры

Описание числового Series.

>>> s = pd.Series([1, 2, 3])
>>> s.describe()
count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
dtype: float64

Описание категориальной переменной Series.

>>> s = pd.Series(['a', 'a', 'b', 'c'])
>>> s.describe()
count     4
unique    3
top       a
freq      2
dtype: object

Описание временной метки Series.

>>> s = pd.Series([
...     np.datetime64("2000-01-01"),
...     np.datetime64("2010-01-01"),
...     np.datetime64("2010-01-01")
... ])
>>> s.describe()
count                      3
mean     2006-09-01 08:00:00
min      2000-01-01 00:00:00
25%      2004-12-31 12:00:00
50%      2010-01-01 00:00:00
75%      2010-01-01 00:00:00
max      2010-01-01 00:00:00
dtype: object

Описание DataFrame. По умолчанию возвращаются только числовые поля.

>>> df = pd.DataFrame({'categorical': pd.Categorical(['d', 'e', 'f']),
...                    'numeric': [1, 2, 3],
...                    'object': ['a', 'b', 'c']
...                    })
>>> df.describe()
       numeric
count      3.0
mean       2.0
std        1.0
min        1.0
25%        1.5
50%        2.0
75%        2.5
max        3.0

Описание всех столбцов DataFrame независимо от типа данных.

>>> df.describe(include='all')  
       categorical  numeric object
count            3      3.0      3
unique           3      NaN      3
top              f      NaN      a
freq             1      NaN      1
mean           NaN      2.0    NaN
std            NaN      1.0    NaN
min            NaN      1.0    NaN
25%            NaN      1.5    NaN
50%            NaN      2.0    NaN
75%            NaN      2.5    NaN
max            NaN      3.0    NaN

Описание столбца из DataFrame обращаясь к нему как к атрибуту.

>>> df.numeric.describe()
count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
Name: numeric, dtype: float64

Включение только числовых столбцов в DataFrame описание.

>>> df.describe(include=[np.number])
       numeric
count      3.0
mean       2.0
std        1.0
min        1.0
25%        1.5
50%        2.0
75%        2.5
max        3.0

Включение только строковых столбцов в DataFrame описание.

>>> df.describe(include=[object])  
       object
count       3
unique      3
top         a
freq        1

Включение только категориальных столбцов из DataFrame описание.

>>> df.describe(include=['category'])
       categorical
count            3
unique           3
top              d
freq             1

Исключение числовых столбцов из DataFrame описание.

>>> df.describe(exclude=[np.number])  
       categorical object
count            3      3
unique           3      3
top              f      a
freq             1      1

Исключение столбцов типа object из DataFrame описание.

>>> df.describe(exclude=[object])  
       categorical  numeric
count            3      3.0
unique           3      NaN
top              f      NaN
freq             1      NaN
mean           NaN      2.0
std            NaN      1.0
min            NaN      1.0
25%            NaN      1.5
50%            NaN      2.0
75%            NaN      2.5
max            NaN      3.0