Руководство пользователя#
Руководство пользователя охватывает все аспекты pandas по тематическим областям. Каждый из подразделов представляет тему (например, «работа с пропущенными данными») и обсуждает, как pandas подходит к проблеме, с множеством примеров.
Пользователи, совершенно новые для pandas, должны начать с 10 минут для знакомства с pandas.
Для общего обзора основ pandas см. Введение в структуры данных и Основная базовая функциональность.
Дополнительная информация о любом конкретном методе может быть получена в справочник API.
Как читать эти руководства#
В этих руководствах вы увидите входной код внутри блоков кода, таких как:
import pandas as pd
pd.DataFrame({'A': [1, 2, 3]})
или:
In [1]: import pandas as pd
In [2]: pd.DataFrame({'A': [1, 2, 3]})
Out[2]:
A
0 1
1 2
2 3
Первый блок — стандартный ввод Python, а во втором In [1]: указывает, что входные данные находятся внутри блокнот. В Jupyter Notebooks последняя строка выводится на печать, а графики отображаются встроенными.
Например:
In [3]: a = 1
In [4]: a
Out[4]: 1
эквивалентно:
a = 1
print(a)
Руководства#
- 10 минут для знакомства с pandas
- Введение в структуры данных
- Основная базовая функциональность
- Инструменты ввода-вывода (текст, CSV, HDF5, …)
- CSV и текстовые файлы
- JSON
- HTML
- LaTeX
- XML
- Файлы Excel
- OpenDocument Spreadsheets
- Бинарные файлы Excel (.xlsb)
- Calamine (файлы Excel и ODS)
- Буфер обмена
- Сериализация (Pickling)
- msgpack
- HDF5 (PyTables)
- Feather
- Parquet
- ORC
- SQL-запросы
- Google BigQuery
- Формат Stata
- форматы SAS
- Форматы SPSS
- Другие форматы файлов
- Соображения производительности
- Функциональность PyArrow
- Индексирование и выбор данных
- Различные варианты индексирования
- Основы
- Доступ к атрибутам
- Диапазоны срезов
- Выбор по метке
- Выбор по позиции
- Выбор по вызываемому объекту
- Комбинирование позиционного и основанного на метках индексирования
- Выбор случайных образцов
- Установка с расширением
- Быстрое получение и установка скалярных значений
- Булева индексация
- Индексирование с помощью isin
- The
where()Метод и маскирование - Установка с расширением условно с использованием
numpy() - The
query()Метод - Дублирование данных
- Словареподобный
get()метод - Поиск значений по меткам индекса/столбцов
- Объекты Index
- Установить / сбросить индекс
- Возврат представления против копии
- MultiIndex / расширенная индексация
- Copy-on-Write (CoW)
- Слияние, объединение, конкатенация и сравнение
- Преобразование формы и сводные таблицы
- Работа с текстовыми данными
- Работа с пропущенными данными
- Дублирующиеся метки
- Категориальные данные
- Допускающий значения null целочисленный тип данных
- Обнуляемый логический тип данных
- Визуализация диаграмм
- Визуализация таблиц
- Объект Styler и настройка отображения
- Форматирование отображения
- Объект Styler и HTML
- Методы добавления стилей
- Стили таблиц
- Установка классов и ссылки на внешний CSS
- Функции Styler
- Всплывающие подсказки и заголовки
- Более точный контроль с помощью срезания
- Оптимизация
- Встроенные стили
- Совместное использование стилей
- Ограничения
- Другие интересные и полезные вещи
- Экспорт в Excel
- Экспорт в LaTeX
- Подробнее о CSS и HTML
- Расширяемость
- Группировка: разделение-применение-объединение
- Операции окон
- Функциональность временных рядов / работы с датами
- Обзор
- Временные метки vs. временные промежутки
- Преобразование в метки времени
- Генерация диапазонов временных меток
- Ограничения временных меток
- Индексирование
- Компоненты времени/даты
- Объекты DateOffset
- Методы экземпляров, связанные с временными рядами
- Ресемплинг
- Представление временного интервала
- Преобразование между представлениями
- Представление выходящих за пределы диапазонов
- Обработка часовых поясов
- Временные дельты
- Опции и настройки
- Улучшение производительности
- Масштабирование до больших наборов данных
- Разреженные структуры данных
- Руководство по миграции для нового типа данных строк (pandas 3.0)
- Часто задаваемые вопросы (FAQ)
- Кулинарная книга