pandas.unique#
- pandas.уникальный(values)[источник]#
Возвращает уникальные значения на основе хэш-таблицы.
Уникальные значения возвращаются в порядке появления. Это НЕ сортирует.
Значительно быстрее, чем numpy.unique для достаточно длинных последовательностей. Включает значения NA.
- Параметры:
- values1d array-like
- Возвращает:
- numpy.ndarray или ExtensionArray
Возвращаемое значение может быть:
Index: когда входные данные являются Index
Категориальный : когда входные данные имеют категориальный тип
ndarray : когда входные данные являются Series/ndarray
Возвращает numpy.ndarray или ExtensionArray.
Смотрите также
Index.uniqueВозвращает уникальные значения из индекса.
Series.uniqueВозвращает уникальные значения объекта Series.
Примеры
>>> pd.unique(pd.Series([2, 1, 3, 3])) array([2, 1, 3])
>>> pd.unique(pd.Series([2] + [1] * 5)) array([2, 1])
>>> pd.unique(pd.Series([pd.Timestamp("20160101"), pd.Timestamp("20160101")])) array(['2016-01-01T00:00:00.000000000'], dtype='datetime64[ns]')
>>> pd.unique( ... pd.Series( ... [ ... pd.Timestamp("20160101", tz="US/Eastern"), ... pd.Timestamp("20160101", tz="US/Eastern"), ... ] ... ) ... )
['2016-01-01 00:00:00-05:00'] Length: 1, dtype: datetime64[ns, US/Eastern] >>> pd.unique( ... pd.Index( ... [ ... pd.Timestamp("20160101", tz="US/Eastern"), ... pd.Timestamp("20160101", tz="US/Eastern"), ... ] ... ) ... ) DatetimeIndex(['2016-01-01 00:00:00-05:00'], dtype='datetime64[ns, US/Eastern]', freq=None)
>>> pd.unique(np.array(list("baabc"), dtype="O")) array(['b', 'a', 'c'], dtype=object)
Неупорядоченная категориальная переменная вернет категории в порядке их появления.
>>> pd.unique(pd.Series(pd.Categorical(list("baabc")))) ['b', 'a', 'c'] Categories (3, object): ['a', 'b', 'c']
>>> pd.unique(pd.Series(pd.Categorical(list("baabc"), categories=list("abc")))) ['b', 'a', 'c'] Categories (3, object): ['a', 'b', 'c']
Упорядоченная категория сохраняет порядок категорий.
>>> pd.unique( ... pd.Series( ... pd.Categorical(list("baabc"), categories=list("abc"), ordered=True) ... ) ... ) ['b', 'a', 'c'] Categories (3, object): ['a' < 'b' < 'c']
Массив кортежей
>>> pd.unique(pd.Series([("a", "b"), ("b", "a"), ("a", "c"), ("b", "a")]).values) array([('a', 'b'), ('b', 'a'), ('a', 'c')], dtype=object)