fetch_rcv1#

sklearn.datasets.fetch_rcv1(*, data_home=None, subset='all', download_if_missing=True, random_state=None, перемешивание=False, return_X_y=False, n_retries=3, задержка=1.0)[источник]#

Загрузите многометочный набор данных RCV1 (классификация).

Загружает его, если необходимо.

Версия: RCV1-v2, векторы, полные наборы, темы с множественными метками.

Классы

103

Всего образцов

Этот подкласс

Снижение размерности

47236

Признаки

действительное, между 0 и 1

Подробнее в Руководство пользователя.

Добавлено в версии 0.17.

Параметры:
data_homestr или path-like, по умолчанию=None

Укажите другую папку для загрузки и кэширования наборов данных. По умолчанию все данные scikit-learn хранятся в подпапках '~/scikit_learn_data'.

subset{‘train’, ‘test’, ‘all’}, по умолчанию=’all’

Выберите набор данных для загрузки: 'train' для обучающего набора (23149 образцов), 'test' для тестового набора (781265 образцов), 'all' для обоих, с обучающими образцами первыми, если shuffle=False. Это соответствует официальному хронологическому разделению LYRL2004.

download_if_missingbool, по умолчанию=True

Если False, вызывает OSError, если данные недоступны локально, вместо попытки загрузить их с исходного сайта.

random_stateint, экземпляр RandomState или None, по умолчанию=None

Определяет генерацию случайных чисел для перемешивания набора данных. Передайте целое число для воспроизводимого вывода при нескольких вызовах функции. См. Глоссарий.

перемешиваниеbool, по умолчанию=False

Перемешивать ли набор данных.

return_X_ybool, по умолчанию=False

Если True, возвращает (dataset.data, dataset.target) вместо объекта Bunch. Дополнительную информацию см. ниже в разделе dataset.data и dataset.target объект.

Добавлено в версии 0.20.

n_retriesint, по умолчанию=3

Количество повторных попыток при возникновении HTTP-ошибок.

Добавлено в версии 1.5.

задержкаfloat, по умолчанию=1.0

Количество секунд между повторными попытками.

Добавлено в версии 1.5.

Возвращает:
набор данныхBunch

Объект, подобный словарю. Возвращается только если return_X_y равно False. dataset имеет следующие атрибуты:

  • данныеразреженная матрица формы (804414, 47236), dtype=np.float64

    Массив имеет 0.16% ненулевых значений. Будет в формате CSR.

  • цельразреженная матрица формы (804414, 103), dtype=np.uint8

    Каждый образец имеет значение 1 в своих категориях и 0 в других. Массив имеет 3.15% ненулевых значений. Будет в формате CSR.

  • sample_idndarray of shape (804414,), dtype=np.uint32,

    Идентификационный номер каждого образца, как упорядочено в dataset.data.

  • target_namesndarray формы (103,), dtype=object

    Названия каждой цели (темы RCV1), упорядоченные в dataset.target.

  • DESCRstr

    Описание набора данных RCV1.

(data, target)кортеж

Кортеж, состоящий из dataset.data и dataset.target, как описано выше. Возвращается только если return_X_y равно True.

Добавлено в версии 0.20.

Примеры

>>> from sklearn.datasets import fetch_rcv1
>>> rcv1 = fetch_rcv1()
>>> rcv1.data.shape
(804414, 47236)
>>> rcv1.target.shape
(804414, 103)