Начало работы#
Установка#
Введение в pandas#
При работе с табличными данными, такими как данные, хранящиеся в электронных таблицах или базах данных, pandas — это правильный инструмент для вас. pandas поможет вам исследовать, очищать и обрабатывать ваши данные. В pandas таблица данных называется DataFrame.
pandas поддерживает интеграцию со многими форматами файлов или источниками данных из коробки (csv, excel, sql, json, parquet,…). Импорт данных из каждого из этих
источников данных предоставляется функцией с префиксом read_*. Аналогично, to_* методы используются для хранения данных.
Выбор или фильтрация определенных строк и/или столбцов? Фильтрация данных по условию? Методы для срезов, выбора и извлечения необходимых данных доступны в pandas.
pandas предоставляет возможность построения графиков ваших данных из коробки, используя возможности Matplotlib. Вы можете выбрать тип графика (scatter, bar, boxplot,…) соответствующий вашим данным.
Нет необходимости перебирать все строки таблицы данных для выполнения вычислений. Манипуляции с данными в столбце работают поэлементно. Добавление столбца в DataFrame на основе существующих данных в других столбцах является простым.
Базовые статистики (среднее, медиана, минимум, максимум, количество…) легко вычисляются. Их или пользовательские агрегации можно применять ко всему набору данных, скользящему окну данных или сгруппированным по категориям. Последний подход также известен как метод разделения-применения-объединения.
Несколько таблиц могут быть объединены как по столбцам, так и по строкам, поскольку предоставляются операции объединения/слияния, подобные базам данных, для комбинирования нескольких таблиц данных.
pandas имеет отличную поддержку временных рядов и обширный набор инструментов для работы с датами, временем и данными с временным индексом.
Наборы данных содержат не только числовые данные. pandas предоставляет широкий спектр функций для очистки текстовых данных и извлечения полезной информации из них.
Переходя от…#
Знакомы ли вы с другим программным обеспечением для работы с табличными данными? Изучите эквивалентные операции в pandas по сравнению с программным обеспечением, которое вы уже знаете:
The Язык программирования R предоставляет
data.frame структуру данных и несколько пакетов, таких как
tidyverse используют и расширяют data.frame
для удобных функций обработки данных, аналогичных pandas.
Уже знакомо для SELECT, GROUP BY, JOIN, и т.д.?
Большинство этих манипуляций SQL имеют эквиваленты в pandas.
The data set включено в STATA
статистический программный пакет соответствует pandas DataFrame.
Многие операции, известные из STATA, имеют эквивалент в pandas.
Пользователи Excel или других программ для работы с электронными таблицами обнаружат, что многие концепции переносимы в pandas.
The SAS пакет статистического программного обеспечения
also предоставляет data set соответствующий pandas DataFrame.
Также векторные операции SAS, фильтрация, операции обработки строк,
и многое другое имеют аналогичные функции в pandas.
Учебные пособия#
Для быстрого обзора функциональности pandas, см. 10 минут до pandas.
Вы также можете обратиться к pandas шпаргалка для краткого руководства по манипулированию данными с помощью pandas.
Сообщество создает широкий спектр учебных материалов, доступных онлайн. Некоторые из этих материалов перечислены в разделе, созданном сообществом Обучающие материалы сообщества.