fetch_california_housing#

sklearn.datasets.fetch_california_housing(*, data_home=None, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, задержка=1.0)[источник]#

Загрузить набор данных о жилье в Калифорнии (регрессия).

Всего образцов

20640

Снижение размерности

8

Признаки

вещественный

Целевая переменная

действительное 0.15 - 5.

Подробнее в Руководство пользователя.

Параметры:
data_homestr или path-like, по умолчанию=None

Укажите другую папку для загрузки и кэширования наборов данных. По умолчанию все данные scikit-learn хранятся в подпапках '~/scikit_learn_data'.

download_if_missingbool, по умолчанию=True

Если False, вызывает OSError, если данные недоступны локально, вместо попытки загрузить их с исходного сайта.

return_X_ybool, по умолчанию=False

Если True, возвращает (data.data, data.target) вместо объекта Bunch.

Добавлено в версии 0.20.

as_framebool, по умолчанию=False

Если True, данные представляют собой pandas DataFrame, включающий столбцы с соответствующими типами данных (числовые, строковые или категориальные). Целевая переменная - это pandas DataFrame или Series в зависимости от количества target_columns.

Добавлено в версии 0.23.

n_retriesint, по умолчанию=3

Количество повторных попыток при возникновении HTTP-ошибок.

Добавлено в версии 1.5.

задержкаfloat, по умолчанию=1.0

Количество секунд между повторными попытками.

Добавлено в версии 1.5.

Возвращает:
набор данныхBunch

Объект, подобный словарю, со следующими атрибутами.

данныеndarray, форма (20640, 8)

раз подряд. Улучшение оценивается с абсолютной погрешностью as_frame равно True, data является объектом pandas.

цельмассив numpy формы (20640,)

Каждое значение соответствует медианной стоимости дома в единицах 100,000. Если as_frame равно True, target является объектом pandas.

feature_namesсписок длиной 8

Массив упорядоченных названий признаков, используемых в наборе данных.

DESCRstr

Описание набора данных о жилье в Калифорнии.

фреймpandas DataFrame

Только присутствует, когда as_frame=TrueМы определяем функцию для загрузки данных из data и target.

Добавлено в версии 0.23.

(data, target)кортеж если return_X_y равно True

Кортеж из двух ndarray. Первый содержит двумерный массив формы (n_samples, n_features), где каждая строка представляет один образец, а каждый столбец — признаки. Второй ndarray формы (n_samples,) содержит целевые образцы.

Добавлено в версии 0.20.

Примечания

Этот набор данных состоит из 20 640 образцов и 9 признаков.

Примеры

>>> from sklearn.datasets import fetch_california_housing
>>> housing = fetch_california_housing()
>>> print(housing.data.shape, housing.target.shape)
(20640, 8) (20640,)
>>> print(housing.feature_names[0:6])
['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup']