8. Утилиты загрузки наборов данных#

The sklearn.datasets пакет включает некоторые небольшие игрушечные наборы данных и предоставляет помощников для загрузки больших наборов данных, обычно используемых сообществом машинного обучения для тестирования алгоритмов на данных из 'реального мира'.

Для оценки влияния масштаба набора данных (n_samples и n_features), контролируя статистические свойства данных (обычно корреляцию и информативность признаков), также возможно генерировать синтетические данные.

Общий API для наборов данных. Существует три основных типа интерфейсов наборов данных, которые могут использоваться для получения наборов данных в зависимости от желаемого типа набора данных.

Загрузчики наборов данных. Они могут использоваться для загрузки небольших стандартных наборов данных, описанных в Игрушечные наборы данных раздел.

Загрузчики наборов данных. Они могут использоваться для загрузки и загрузки больших наборов данных, описанных в Реальные наборы данных раздел.

Функции загрузчиков и извлекателей возвращают Bunch объект, содержащий как минимум два элемента: массив формы n_samples * n_features с ключом data (кроме 20newsgroups) и массив numpy длиной n_samples, содержащая целевые значения, с ключом target.

Объект Bunch — это словарь, который предоставляет свои ключи как атрибуты. Для получения дополнительной информации об объекте Bunch см. Bunch.

Также возможно для почти всех этих функций ограничить вывод кортежем, содержащим только данные и цель, установив return_X_y параметр для True.

Наборы данных также содержат полное описание в своих DESCR атрибут и некоторые содержат feature_names и target_names. Подробности см. в описаниях наборов данных ниже.

Функции генерации наборов данных. Они могут быть использованы для генерации контролируемых синтетических наборов данных, описанных в Сгенерированные наборы данных раздел.

Эти функции возвращают кортеж (X, y) состоящий из n_samples * n_features numpy array X и массив длины n_samples содержащий целевые значения y.

Кроме того, существуют различные инструменты для загрузки наборов данных других форматов или из других источников, описанные в Загрузка других наборов данных раздел.