load_breast_cancer#

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[источник]#

Загрузить и вернуть набор данных о раке молочной железы в Висконсине (классификация).

Набор данных по раку молочной железы — это классический и очень простой набор данных для бинарной классификации.

Классы

2

Примеров на класс

212(M),357(B)

Всего образцов

569

Снижение размерности

30

Признаки

действительное, положительное

Копия набора данных UCI ML Breast Cancer Wisconsin (Diagnostic) загружена с: https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

Подробнее в Руководство пользователя.

Параметры:
return_X_ybool, по умолчанию=False

Если True, возвращает (data, target) вместо объекта Bunch. См. ниже для получения дополнительной информации о data и target объект.

Добавлено в версии 0.18.

as_framebool, по умолчанию=False

Если True, данные представляют собой pandas DataFrame, включающий столбцы с соответствующими типами данных (числовые). Цель — pandas DataFrame или Series в зависимости от количества целевых столбцов. Если return_X_y равно True, тогда (data, target) будут pandas DataFrame или Series, как описано ниже.

Добавлено в версии 0.23.

Возвращает:
данныеBunch

Объект, подобный словарю, со следующими атрибутами.

данные{ndarray, dataframe} формы (569, 30)

Матрица данных. Если as_frame=True, data будет pandas DataFrame.

цель{ndarray, Series} формы (569,)

Целевая переменная классификации. Если as_frame=True, target будет pandas Series.

feature_namesndarray формы (30,)

Имена столбцов набора данных.

target_namesndarray формы (2,)

Имена целевых классов.

фреймDataFrame формы (569, 31)

Только присутствует, когда as_frame=TrueМы определяем функцию для загрузки данных из data и target.

Добавлено в версии 0.23.

DESCRstr

Полное описание набора данных.

filenamestr

Путь к местоположению данных.

Добавлено в версии 0.20.

(data, target)кортеж если return_X_y равно True

Кортеж из двух ndarrays по умолчанию. Первый содержит 2D ndarray формы (569, 30), где каждая строка представляет одну выборку, а каждый столбец представляет признаки. Второй ndarray формы (569,) содержит целевые выборки. Если as_frame=True, оба массива являются объектами pandas, т.е. X фрейм данных и y серия.

Добавлено в версии 0.18.

Примеры

Допустим, вас интересуют образцы 10, 50 и 85, и вы хотите узнать их название класса.

>>> from sklearn.datasets import load_breast_cancer
>>> data = load_breast_cancer()
>>> data.target[[10, 50, 85]]
array([0, 1, 0])
>>> list(data.target_names)
[np.str_('malignant'), np.str_('benign')]