pandas.Series.groupby#
-
Series.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, observed=
, dropna=True)[источник]# Группировать Series с помощью маппера или по Series столбцов.
Операция группировки включает комбинацию разделения объекта, применения функции и объединения результатов. Это можно использовать для группировки больших объемов данных и выполнения операций над этими группами.
- Параметры:
- byотображение, функция, метка, pd.Grouper или список таких
Используется для определения групп для groupby. Если
byявляется функцией, она вызывается для каждого значения индекса объекта. Если передан словарь или Series, значения Series или словаря будут использоваться для определения групп (значения Series сначала выравниваются; см..align()метод). Если передан список или ndarray длины, равной выбранной оси (см. руководство по groupby), значения используются как есть для определения групп. Метка или список меток может быть передан для группировки по столбцам вself. Обратите внимание, что кортеж интерпретируется как (одиночный) ключ.- ось{0 или 'index', 1 или 'columns'}, по умолчанию 0
Разделение по строкам (0) или столбцам (1). Для Series этот параметр не используется и по умолчанию равен 0.
Устарело с версии 2.1.0: Будет удалено и будет вести себя как axis=0 в будущей версии. Для
axis=1, сделайтеframe.T.groupby(...)вместо этого.- уровеньint, имя уровня или последовательность таких, по умолчанию None
Если ось является MultiIndex (иерархическим), группировка по определенному уровню или уровням. Не указывайте оба
byиlevel.- as_indexbool, по умолчанию True
Возвращает объект с метками групп в качестве индекса. Актуально только для ввода DataFrame. as_index=False фактически даёт вывод в "SQL-стиле". Этот аргумент не влияет на фильтрации (см. фильтрации в руководстве пользователя), такие как
head(),tail(),nth()и в преобразованиях (см. преобразования в руководстве пользователя).- sortbool, по умолчанию True
Сортировка ключей группировки. Получите лучшую производительность, отключив это. Обратите внимание, это не влияет на порядок наблюдений внутри каждой группы. Groupby сохраняет порядок строк внутри каждой группы. Если False, группы будут появляться в том же порядке, в котором они были в исходном DataFrame. Этот аргумент не влияет на фильтрации (см. фильтрации в руководстве пользователя), такие как
head(),tail(),nth()и в преобразованиях (см. преобразования в руководстве пользователя).Изменено в версии 2.0.0: Указание
sort=Falseс упорядоченным категориальным группировщиком больше не будет сортировать значения.- group_keysbool, по умолчанию True
При вызове apply и
byаргумент создаёт подобно-индексированный (т.е. преобразование) результат, добавьте ключи групп к индексу для идентификации частей. По умолчанию ключи групп не включаются, когда метки индекса (и столбца) результата совпадают с входными данными, и включаются в противном случае.Изменено в версии 1.5.0: Предупреждает, что
group_keysбольше не будет игнорироваться, когда результат изapplyявляется Series или DataFrame с похожим индексом. Указатьgroup_keysявно, чтобы включить ключи групп или нет.Изменено в версии 2.0.0:
group_keysтеперь по умолчаниюTrue.- observedbool, по умолчанию False
Это применяется только если какие-либо группировщики являются категориальными. Если True: показывать только наблюдаемые значения для категориальных группировщиков. Если False: показывать все значения для категориальных группировщиков.
Устарело с версии 2.1.0: Значение по умолчанию изменится на True в будущей версии pandas.
- dropnabool, по умолчанию True
Если True, и если ключи групп содержат значения NA, значения NA вместе со строкой/столбцом будут удалены. Если False, значения NA также будут рассматриваться как ключ в группах.
- Возвращает:
- pandas.api.typing.SeriesGroupBy
Возвращает объект groupby, содержащий информацию о группах.
Смотрите также
resampleУдобный метод для преобразования частоты и передискретизации временных рядов.
Примечания
См. руководство пользователя для более подробного использования и примеров, включая разделение объекта на группы, итерацию по группам, выбор группы, агрегацию и многое другое.
Примеры
>>> ser = pd.Series([390., 350., 30., 20.], ... index=['Falcon', 'Falcon', 'Parrot', 'Parrot'], ... name="Max Speed") >>> ser Falcon 390.0 Falcon 350.0 Parrot 30.0 Parrot 20.0 Name: Max Speed, dtype: float64 >>> ser.groupby(["a", "b", "a", "b"]).mean() a 210.0 b 185.0 Name: Max Speed, dtype: float64 >>> ser.groupby(level=0).mean() Falcon 370.0 Parrot 25.0 Name: Max Speed, dtype: float64 >>> ser.groupby(ser > 100).mean() Max Speed False 25.0 True 370.0 Name: Max Speed, dtype: float64
Группировка по индексам
Мы можем группировать по разным уровням иерархического индекса используя уровень параметр:
>>> arrays = [['Falcon', 'Falcon', 'Parrot', 'Parrot'], ... ['Captive', 'Wild', 'Captive', 'Wild']] >>> index = pd.MultiIndex.from_arrays(arrays, names=('Animal', 'Type')) >>> ser = pd.Series([390., 350., 30., 20.], index=index, name="Max Speed") >>> ser Animal Type Falcon Captive 390.0 Wild 350.0 Parrot Captive 30.0 Wild 20.0 Name: Max Speed, dtype: float64 >>> ser.groupby(level=0).mean() Animal Falcon 370.0 Parrot 25.0 Name: Max Speed, dtype: float64 >>> ser.groupby(level="Type").mean() Type Captive 210.0 Wild 185.0 Name: Max Speed, dtype: float64
Мы также можем выбрать включение NA в ключах группировки или нет, определив dropna параметр, значение по умолчанию True.
>>> ser = pd.Series([1, 2, 3, 3], index=["a", 'a', 'b', np.nan]) >>> ser.groupby(level=0).sum() a 3 b 3 dtype: int64
>>> ser.groupby(level=0, dropna=False).sum() a 3 b 3 NaN 3 dtype: int64
>>> arrays = ['Falcon', 'Falcon', 'Parrot', 'Parrot'] >>> ser = pd.Series([390., 350., 30., 20.], index=arrays, name="Max Speed") >>> ser.groupby(["a", "b", "a", np.nan]).mean() a 210.0 b 350.0 Name: Max Speed, dtype: float64
>>> ser.groupby(["a", "b", "a", np.nan], dropna=False).mean() a 210.0 b 350.0 NaN 20.0 Name: Max Speed, dtype: float64