load_breast_cancer#
- sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[источник]#
Загрузить и вернуть набор данных о раке молочной железы в Висконсине (классификация).
Набор данных по раку молочной железы — это классический и очень простой набор данных для бинарной классификации.
Классы
2
Примеров на класс
212(M),357(B)
Всего образцов
569
Снижение размерности
30
Признаки
действительное, положительное
Копия набора данных UCI ML Breast Cancer Wisconsin (Diagnostic) загружена с: https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
Подробнее в Руководство пользователя.
- Параметры:
- return_X_ybool, по умолчанию=False
Если True, возвращает
(data, target)вместо объекта Bunch. См. ниже для получения дополнительной информации оdataиtargetобъект.Добавлено в версии 0.18.
- as_framebool, по умолчанию=False
Если True, данные представляют собой pandas DataFrame, включающий столбцы с соответствующими типами данных (числовые). Цель — pandas DataFrame или Series в зависимости от количества целевых столбцов. Если
return_X_yравно True, тогда (data,target) будут pandas DataFrame или Series, как описано ниже.Добавлено в версии 0.23.
- Возвращает:
- данные
Bunch Объект, подобный словарю, со следующими атрибутами.
- данные{ndarray, dataframe} формы (569, 30)
Матрица данных. Если
as_frame=True,dataбудет pandas DataFrame.- цель{ndarray, Series} формы (569,)
Целевая переменная классификации. Если
as_frame=True,targetбудет pandas Series.- feature_namesndarray формы (30,)
Имена столбцов набора данных.
- target_namesndarray формы (2,)
Имена целевых классов.
- фреймDataFrame формы (569, 31)
Только присутствует, когда
as_frame=TrueМы определяем функцию для загрузки данных изdataиtarget.Добавлено в версии 0.23.
- DESCRstr
Полное описание набора данных.
- filenamestr
Путь к местоположению данных.
Добавлено в версии 0.20.
- (data, target)кортеж если
return_X_yравно True Кортеж из двух ndarrays по умолчанию. Первый содержит 2D ndarray формы (569, 30), где каждая строка представляет одну выборку, а каждый столбец представляет признаки. Второй ndarray формы (569,) содержит целевые выборки. Если
as_frame=True, оба массива являются объектами pandas, т.е.Xфрейм данных иyсерия.Добавлено в версии 0.18.
- данные
Примеры
Допустим, вас интересуют образцы 10, 50 и 85, и вы хотите узнать их название класса.
>>> from sklearn.datasets import load_breast_cancer >>> data = load_breast_cancer() >>> data.target[[10, 50, 85]] array([0, 1, 0]) >>> list(data.target_names) [np.str_('malignant'), np.str_('benign')]
Примеры галереи#
Основанный на модели и последовательный отбор признаков
Важность перестановок с мультиколлинеарными или коррелированными признаками
Пост-обрезка деревьев решений с обрезкой по стоимости сложности