pandas.core.groupby.DataFrameGroupBy.describe#
- DataFrameGroupBy.describe(процентили=None, включать=None, exclude=None)[источник]#
Генерация описательной статистики.
Описательная статистика включает показатели, которые суммируют центральную тенденцию, дисперсию и форму распределения набора данных, исключая
NaNзначения.Анализирует как числовые, так и объектные серии, а также
DataFrameнаборы столбцов со смешанными типами данных. Вывод будет варьироваться в зависимости от предоставленного. Обратитесь к примечаниям ниже для более подробной информации.- Параметры:
- процентилисписок чисел, необязательный
Процентили для включения в вывод. Все должны находиться между 0 и 1. По умолчанию
[.25, .5, .75], который возвращает 25-й, 50-й и 75-й процентили.- включать‘all’, список типов данных или None (по умолчанию), опционально
Белый список типов данных для включения в результат. Игнорируется для
Series. Вот доступные опции:‘all’ : Все столбцы входных данных будут включены в вывод.
Список типов данных : Ограничивает результаты предоставленными типами данных. Чтобы ограничить результат числовыми типами, отправьте
numpy.number. Чтобы ограничить это только столбцами с объектами, передайтеnumpy.objectтип данных. Строки также могут использоваться в стилеselect_dtypes(например,df.describe(include=['O'])). Для выбора категориальных столбцов pandas используйте'category'None (по умолчанию): Результат будет включать все числовые столбцы.
- excludeсписок типов данных или None (по умолчанию), опционально,
Черный список типов данных для исключения из результата. Игнорируется для
Series. Вот доступные опции:Список типов данных : Исключает указанные типы данных из результата. Чтобы исключить числовые типы, отправьте
numpy.number. Чтобы исключить столбцы типа object, укажите тип данныхnumpy.object. Строки также могут использоваться в стилеselect_dtypes(например,df.describe(exclude=['O'])). Чтобы исключить категориальные столбцы pandas, используйте'category'None (по умолчанию): результат ничего не исключит.
- Возвращает:
- Series или DataFrame
Сводная статистика предоставленного Series или Dataframe.
Смотрите также
DataFrame.countПодсчитывает количество ненулевых/непустых наблюдений.
DataFrame.maxМаксимум значений в объекте.
DataFrame.minМинимум значений в объекте.
DataFrame.meanСреднее значение.
DataFrame.stdСтандартное отклонение наблюдений.
DataFrame.select_dtypesПодмножество DataFrame, включающее/исключающее столбцы на основе их типа данных.
Примечания
Для числовых данных индекс результата будет включать
count,mean,std,min,maxа также нижний,50и верхние процентили. По умолчанию нижний процентиль равен25а верхний процентиль равен75.50процентиль совпадает с медианой.Для данных типа object (например, строк или временных меток) индекс результата будет включать
count,unique,top, иfreq.topявляется наиболее распространенным значением.freqявляется наиболее частой частотой значения. Метки времени также включаютfirstиlastэлементы.Если несколько значений объектов имеют наибольшее количество, то
countиtopрезультаты будут произвольно выбраны из тех, которые имеют наибольшее количество.Для смешанных типов данных, предоставленных через
DataFrame, по умолчанию возвращается только анализ числовых столбцов. Если датафрейм состоит только из объектных и категориальных данных без числовых столбцов, по умолчанию возвращается анализ как объектных, так и категориальных столбцов. Еслиinclude='all'предоставляется как опция, результат будет включать объединение атрибутов каждого типа.The включать и exclude параметры могут использоваться для ограничения того, какие столбцы в
DataFrameанализируются для вывода. Параметры игнорируются при анализеSeries.Примеры
Описание числового
Series.>>> s = pd.Series([1, 2, 3]) >>> s.describe() count 3.0 mean 2.0 std 1.0 min 1.0 25% 1.5 50% 2.0 75% 2.5 max 3.0 dtype: float64
Описание категориальной переменной
Series.>>> s = pd.Series(['a', 'a', 'b', 'c']) >>> s.describe() count 4 unique 3 top a freq 2 dtype: object
Описание временной метки
Series.>>> s = pd.Series([ ... np.datetime64("2000-01-01"), ... np.datetime64("2010-01-01"), ... np.datetime64("2010-01-01") ... ]) >>> s.describe() count 3 mean 2006-09-01 08:00:00 min 2000-01-01 00:00:00 25% 2004-12-31 12:00:00 50% 2010-01-01 00:00:00 75% 2010-01-01 00:00:00 max 2010-01-01 00:00:00 dtype: object
Описание
DataFrame. По умолчанию возвращаются только числовые поля.>>> df = pd.DataFrame({'categorical': pd.Categorical(['d', 'e', 'f']), ... 'numeric': [1, 2, 3], ... 'object': ['a', 'b', 'c'] ... }) >>> df.describe() numeric count 3.0 mean 2.0 std 1.0 min 1.0 25% 1.5 50% 2.0 75% 2.5 max 3.0
Описание всех столбцов
DataFrameнезависимо от типа данных.>>> df.describe(include='all') categorical numeric object count 3 3.0 3 unique 3 NaN 3 top f NaN a freq 1 NaN 1 mean NaN 2.0 NaN std NaN 1.0 NaN min NaN 1.0 NaN 25% NaN 1.5 NaN 50% NaN 2.0 NaN 75% NaN 2.5 NaN max NaN 3.0 NaN
Описание столбца из
DataFrameобращаясь к нему как к атрибуту.>>> df.numeric.describe() count 3.0 mean 2.0 std 1.0 min 1.0 25% 1.5 50% 2.0 75% 2.5 max 3.0 Name: numeric, dtype: float64
Включение только числовых столбцов в
DataFrameописание.>>> df.describe(include=[np.number]) numeric count 3.0 mean 2.0 std 1.0 min 1.0 25% 1.5 50% 2.0 75% 2.5 max 3.0
Включение только строковых столбцов в
DataFrameописание.>>> df.describe(include=[object]) object count 3 unique 3 top a freq 1
Включение только категориальных столбцов из
DataFrameописание.>>> df.describe(include=['category']) categorical count 3 unique 3 top d freq 1
Исключение числовых столбцов из
DataFrameописание.>>> df.describe(exclude=[np.number]) categorical object count 3 3 unique 3 3 top f a freq 1 1
Исключение столбцов типа object из
DataFrameописание.>>> df.describe(exclude=[object]) categorical numeric count 3 3.0 unique 3 NaN top f NaN freq 1 NaN mean NaN 2.0 std NaN 1.0 min NaN 1.0 25% NaN 1.5 50% NaN 2.0 75% NaN 2.5 max NaN 3.0