fetch_rcv1#
- sklearn.datasets.fetch_rcv1(*, data_home=None, subset='all', download_if_missing=True, random_state=None, перемешивание=False, return_X_y=False, n_retries=3, задержка=1.0)[источник]#
Загрузите многометочный набор данных RCV1 (классификация).
Загружает его, если необходимо.
Версия: RCV1-v2, векторы, полные наборы, темы с множественными метками.
Классы
103
Всего образцов
Этот подкласс
Снижение размерности
47236
Признаки
действительное, между 0 и 1
Подробнее в Руководство пользователя.
Добавлено в версии 0.17.
- Параметры:
- data_homestr или path-like, по умолчанию=None
Укажите другую папку для загрузки и кэширования наборов данных. По умолчанию все данные scikit-learn хранятся в подпапках '~/scikit_learn_data'.
- subset{‘train’, ‘test’, ‘all’}, по умолчанию=’all’
Выберите набор данных для загрузки: 'train' для обучающего набора (23149 образцов), 'test' для тестового набора (781265 образцов), 'all' для обоих, с обучающими образцами первыми, если shuffle=False. Это соответствует официальному хронологическому разделению LYRL2004.
- download_if_missingbool, по умолчанию=True
Если False, вызывает OSError, если данные недоступны локально, вместо попытки загрузить их с исходного сайта.
- random_stateint, экземпляр RandomState или None, по умолчанию=None
Определяет генерацию случайных чисел для перемешивания набора данных. Передайте целое число для воспроизводимого вывода при нескольких вызовах функции. См. Глоссарий.
- перемешиваниеbool, по умолчанию=False
Перемешивать ли набор данных.
- return_X_ybool, по умолчанию=False
Если True, возвращает
(dataset.data, dataset.target)вместо объекта Bunch. Дополнительную информацию см. ниже в разделеdataset.dataиdataset.targetобъект.Добавлено в версии 0.20.
- n_retriesint, по умолчанию=3
Количество повторных попыток при возникновении HTTP-ошибок.
Добавлено в версии 1.5.
- задержкаfloat, по умолчанию=1.0
Количество секунд между повторными попытками.
Добавлено в версии 1.5.
- Возвращает:
- набор данных
Bunch Объект, подобный словарю. Возвращается только если
return_X_yравно False.datasetимеет следующие атрибуты:- данныеразреженная матрица формы (804414, 47236), dtype=np.float64
Массив имеет 0.16% ненулевых значений. Будет в формате CSR.
- цельразреженная матрица формы (804414, 103), dtype=np.uint8
Каждый образец имеет значение 1 в своих категориях и 0 в других. Массив имеет 3.15% ненулевых значений. Будет в формате CSR.
- sample_idndarray of shape (804414,), dtype=np.uint32,
Идентификационный номер каждого образца, как упорядочено в dataset.data.
- target_namesndarray формы (103,), dtype=object
Названия каждой цели (темы RCV1), упорядоченные в dataset.target.
- DESCRstr
Описание набора данных RCV1.
- (data, target)кортеж
Кортеж, состоящий из
dataset.dataиdataset.target, как описано выше. Возвращается только еслиreturn_X_yравно True.Добавлено в версии 0.20.
- набор данных
Примеры
>>> from sklearn.datasets import fetch_rcv1 >>> rcv1 = fetch_rcv1() >>> rcv1.data.shape (804414, 47236) >>> rcv1.target.shape (804414, 103)