pandas.Series.groupby#

Series.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, observed=, dropna=True)[источник]#

Группировать Series с помощью маппера или по Series столбцов.

Операция группировки включает комбинацию разделения объекта, применения функции и объединения результатов. Это можно использовать для группировки больших объемов данных и выполнения операций над этими группами.

Параметры:
byотображение, функция, метка, pd.Grouper или список таких

Используется для определения групп для groupby. Если by является функцией, она вызывается для каждого значения индекса объекта. Если передан словарь или Series, значения Series или словаря будут использоваться для определения групп (значения Series сначала выравниваются; см. .align() метод). Если передан список или ndarray длины, равной выбранной оси (см. руководство по groupby), значения используются как есть для определения групп. Метка или список меток может быть передан для группировки по столбцам в self. Обратите внимание, что кортеж интерпретируется как (одиночный) ключ.

ось{0 или 'index', 1 или 'columns'}, по умолчанию 0

Разделение по строкам (0) или столбцам (1). Для Series этот параметр не используется и по умолчанию равен 0.

Устарело с версии 2.1.0: Будет удалено и будет вести себя как axis=0 в будущей версии. Для axis=1, сделайте frame.T.groupby(...) вместо этого.

уровеньint, имя уровня или последовательность таких, по умолчанию None

Если ось является MultiIndex (иерархическим), группировка по определенному уровню или уровням. Не указывайте оба by и level.

as_indexbool, по умолчанию True

Возвращает объект с метками групп в качестве индекса. Актуально только для ввода DataFrame. as_index=False фактически даёт вывод в "SQL-стиле". Этот аргумент не влияет на фильтрации (см. фильтрации в руководстве пользователя), такие как head(), tail(), nth() и в преобразованиях (см. преобразования в руководстве пользователя).

sortbool, по умолчанию True

Сортировка ключей группировки. Получите лучшую производительность, отключив это. Обратите внимание, это не влияет на порядок наблюдений внутри каждой группы. Groupby сохраняет порядок строк внутри каждой группы. Если False, группы будут появляться в том же порядке, в котором они были в исходном DataFrame. Этот аргумент не влияет на фильтрации (см. фильтрации в руководстве пользователя), такие как head(), tail(), nth() и в преобразованиях (см. преобразования в руководстве пользователя).

Изменено в версии 2.0.0: Указание sort=False с упорядоченным категориальным группировщиком больше не будет сортировать значения.

group_keysbool, по умолчанию True

При вызове apply и by аргумент создаёт подобно-индексированный (т.е. преобразование) результат, добавьте ключи групп к индексу для идентификации частей. По умолчанию ключи групп не включаются, когда метки индекса (и столбца) результата совпадают с входными данными, и включаются в противном случае.

Изменено в версии 1.5.0: Предупреждает, что group_keys больше не будет игнорироваться, когда результат из apply является Series или DataFrame с похожим индексом. Указать group_keys явно, чтобы включить ключи групп или нет.

Изменено в версии 2.0.0: group_keys теперь по умолчанию True.

observedbool, по умолчанию False

Это применяется только если какие-либо группировщики являются категориальными. Если True: показывать только наблюдаемые значения для категориальных группировщиков. Если False: показывать все значения для категориальных группировщиков.

Устарело с версии 2.1.0: Значение по умолчанию изменится на True в будущей версии pandas.

dropnabool, по умолчанию True

Если True, и если ключи групп содержат значения NA, значения NA вместе со строкой/столбцом будут удалены. Если False, значения NA также будут рассматриваться как ключ в группах.

Возвращает:
pandas.api.typing.SeriesGroupBy

Возвращает объект groupby, содержащий информацию о группах.

Смотрите также

resample

Удобный метод для преобразования частоты и передискретизации временных рядов.

Примечания

См. руководство пользователя для более подробного использования и примеров, включая разделение объекта на группы, итерацию по группам, выбор группы, агрегацию и многое другое.

Примеры

>>> ser = pd.Series([390., 350., 30., 20.],
...                 index=['Falcon', 'Falcon', 'Parrot', 'Parrot'],
...                 name="Max Speed")
>>> ser
Falcon    390.0
Falcon    350.0
Parrot     30.0
Parrot     20.0
Name: Max Speed, dtype: float64
>>> ser.groupby(["a", "b", "a", "b"]).mean()
a    210.0
b    185.0
Name: Max Speed, dtype: float64
>>> ser.groupby(level=0).mean()
Falcon    370.0
Parrot     25.0
Name: Max Speed, dtype: float64
>>> ser.groupby(ser > 100).mean()
Max Speed
False     25.0
True     370.0
Name: Max Speed, dtype: float64

Группировка по индексам

Мы можем группировать по разным уровням иерархического индекса используя уровень параметр:

>>> arrays = [['Falcon', 'Falcon', 'Parrot', 'Parrot'],
...           ['Captive', 'Wild', 'Captive', 'Wild']]
>>> index = pd.MultiIndex.from_arrays(arrays, names=('Animal', 'Type'))
>>> ser = pd.Series([390., 350., 30., 20.], index=index, name="Max Speed")
>>> ser
Animal  Type
Falcon  Captive    390.0
        Wild       350.0
Parrot  Captive     30.0
        Wild        20.0
Name: Max Speed, dtype: float64
>>> ser.groupby(level=0).mean()
Animal
Falcon    370.0
Parrot     25.0
Name: Max Speed, dtype: float64
>>> ser.groupby(level="Type").mean()
Type
Captive    210.0
Wild       185.0
Name: Max Speed, dtype: float64

Мы также можем выбрать включение NA в ключах группировки или нет, определив dropna параметр, значение по умолчанию True.

>>> ser = pd.Series([1, 2, 3, 3], index=["a", 'a', 'b', np.nan])
>>> ser.groupby(level=0).sum()
a    3
b    3
dtype: int64
>>> ser.groupby(level=0, dropna=False).sum()
a    3
b    3
NaN  3
dtype: int64
>>> arrays = ['Falcon', 'Falcon', 'Parrot', 'Parrot']
>>> ser = pd.Series([390., 350., 30., 20.], index=arrays, name="Max Speed")
>>> ser.groupby(["a", "b", "a", np.nan]).mean()
a    210.0
b    350.0
Name: Max Speed, dtype: float64
>>> ser.groupby(["a", "b", "a", np.nan], dropna=False).mean()
a    210.0
b    350.0
NaN   20.0
Name: Max Speed, dtype: float64