8. Утилиты загрузки наборов данных#
The sklearn.datasets пакет включает некоторые небольшие игрушечные наборы данных и предоставляет помощников
для загрузки больших наборов данных, обычно используемых сообществом машинного обучения для тестирования
алгоритмов на данных из 'реального мира'.
Для оценки влияния масштаба набора данных (n_samples и
n_features), контролируя статистические свойства данных (обычно корреляцию и информативность признаков), также возможно генерировать синтетические данные.
Общий API для наборов данных. Существует три основных типа интерфейсов наборов данных, которые могут использоваться для получения наборов данных в зависимости от желаемого типа набора данных.
Загрузчики наборов данных. Они могут использоваться для загрузки небольших стандартных наборов данных, описанных в Игрушечные наборы данных раздел.
Загрузчики наборов данных. Они могут использоваться для загрузки и загрузки больших наборов данных, описанных в Реальные наборы данных раздел.
Функции загрузчиков и извлекателей возвращают Bunch
объект, содержащий как минимум два элемента:
массив формы n_samples * n_features с
ключом data (кроме 20newsgroups) и массив numpy длиной n_samples, содержащая целевые значения, с ключом target.
Объект Bunch — это словарь, который предоставляет свои ключи как атрибуты. Для получения дополнительной информации об объекте Bunch см. Bunch.
Также возможно для почти всех этих функций ограничить вывод кортежем, содержащим только данные и цель, установив
return_X_y параметр для True.
Наборы данных также содержат полное описание в своих DESCR атрибут и некоторые содержат feature_names и target_names. Подробности см. в описаниях наборов данных ниже.
Функции генерации наборов данных. Они могут быть использованы для генерации контролируемых синтетических наборов данных, описанных в Сгенерированные наборы данных раздел.
Эти функции возвращают кортеж (X, y) состоящий из n_samples *
n_features numpy array X и массив длины n_samples
содержащий целевые значения y.
Кроме того, существуют различные инструменты для загрузки наборов данных других форматов или из других источников, описанные в Загрузка других наборов данных раздел.
- 8.1. Игрушечные наборы данных
- 8.2. Реальные наборы данных
- 8.2.1. Набор данных лиц Olivetti
- 8.2.2. Текстовый набор данных 20 newsgroups
- 8.2.3. Набор данных для распознавания лиц Labeled Faces in the Wild
- 8.2.4. Типы лесного покрова
- 8.2.5. Набор данных RCV1
- 8.2.6. Набор данных Kddcup 99
- 8.2.7. Набор данных California Housing
- 8.2.8. Набор данных о распределении видов
- 8.3. Сгенерированные наборы данных
- 8.4. Загрузка других наборов данных