fetch_kddcup99#

sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, перемешивание=False, random_state=None, процент10=True, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, задержка=1.0)[источник]#

Загрузить набор данных kddcup99 (классификация).

Загружает его, если необходимо.

Классы

23

Всего образцов

4898431

Снижение размерности

41

Признаки

дискретный (int) или непрерывный (float)

Подробнее в Руководство пользователя.

Добавлено в версии 0.18.

Параметры:
subset{‘SA’, ‘SF’, ‘http’, ‘smtp’}, по умолчанию=None

Чтобы вернуть соответствующие классические подмножества kddcup 99. Если None, вернуть весь набор данных kddcup 99.

data_homestr или path-like, по умолчанию=None

Укажите другую папку для загрузки и кэширования наборов данных. По умолчанию все данные scikit-learn хранятся в подпапках '~/scikit_learn_data'.

Добавлено в версии 0.19.

перемешиваниеbool, по умолчанию=False

Перемешивать ли набор данных.

random_stateint, экземпляр RandomState или None, по умолчанию=None

Определяет генерацию случайных чисел для перемешивания набора данных и для выбора аномальных образцов, если subset='SA'. Передайте целое число для воспроизводимого результата при множественных вызовах функции. См. Глоссарий.

процент10bool, по умолчанию=True

Загружать ли только 10 процентов данных.

download_if_missingbool, по умолчанию=True

Если False, вызывает OSError, если данные недоступны локально, вместо попытки загрузить их с исходного сайта.

return_X_ybool, по умолчанию=False

Если True, возвращает (data, target) вместо объекта Bunch. См. ниже для получения дополнительной информации о data и target объект.

Добавлено в версии 0.20.

as_framebool, по умолчанию=False

Если True, возвращает pandas Dataframe для data и target объекты в Bunch возвращаемый объект; Bunch возвращаемый объект также будет иметь frame член.

Добавлено в версии 0.24.

n_retriesint, по умолчанию=3

Количество повторных попыток при возникновении HTTP-ошибок.

Добавлено в версии 1.5.

задержкаfloat, по умолчанию=1.0

Количество секунд между повторными попытками.

Добавлено в версии 1.5.

Возвращает:
данныеBunch

Объект, подобный словарю, со следующими атрибутами.

данные{ndarray, dataframe} формы (494021, 41)

Матрица данных для обучения. Если as_frame=True, data будет pandas DataFrame.

цель{ndarray, series} формы (494021,)

Целевая переменная регрессии для каждого образца. Если as_frame=True, target будет pandas Series.

фреймдатафрейм формы (494021, 42)

Только присутствует, когда as_frame=True. Содержит data и target.

DESCRstr

Полное описание набора данных.

feature_nameslist

Имена столбцов набора данных

target_names: список

Имена целевых столбцов

(data, target)кортеж если return_X_y равно True

Кортеж из двух ndarray. Первый содержит двумерный массив формы (n_samples, n_features), где каждая строка представляет один образец, а каждый столбец — признаки. Второй ndarray формы (n_samples,) содержит целевые образцы.

Добавлено в версии 0.20.