fetch_california_housing#

sklearn.datasets.fetch_california_housing(*, data_home=None, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, задержка=1.0)[источник]#

Загрузить набор данных о жилье в Калифорнии (регрессия).

Всего образцов	20640
Снижение размерности	8
Признаки	вещественный
Целевая переменная	действительное 0.15 - 5.

Подробнее в Руководство пользователя.

Параметры:

data_homestr или path-like, по умолчанию=None: Укажите другую папку для загрузки и кэширования наборов данных. По умолчанию все данные scikit-learn хранятся в подпапках '~/scikit_learn_data'.
download_if_missingbool, по умолчанию=True: Если False, вызывает OSError, если данные недоступны локально, вместо попытки загрузить их с исходного сайта.
return_X_ybool, по умолчанию=False: Если True, возвращает (data.data, data.target) вместо объекта Bunch.

Добавлено в версии 0.20.
as_framebool, по умолчанию=False: Если True, данные представляют собой pandas DataFrame, включающий столбцы с соответствующими типами данных (числовые, строковые или категориальные). Целевая переменная - это pandas DataFrame или Series в зависимости от количества target_columns.

Добавлено в версии 0.23.
n_retriesint, по умолчанию=3: Количество повторных попыток при возникновении HTTP-ошибок.

Добавлено в версии 1.5.
задержкаfloat, по умолчанию=1.0: Количество секунд между повторными попытками.

Добавлено в версии 1.5.

Возвращает:

набор данныхBunch

Объект, подобный словарю, со следующими атрибутами.

данныеndarray, форма (20640, 8): раз подряд. Улучшение оценивается с абсолютной погрешностью as_frame равно True, data является объектом pandas.
цельмассив numpy формы (20640,): Каждое значение соответствует медианной стоимости дома в единицах 100,000. Если as_frame равно True, target является объектом pandas.
feature_namesсписок длиной 8: Массив упорядоченных названий признаков, используемых в наборе данных.
DESCRstr: Описание набора данных о жилье в Калифорнии.
фреймpandas DataFrame: Только присутствует, когда as_frame=TrueМы определяем функцию для загрузки данных из data и target.

Добавлено в версии 0.23.

(data, target)кортеж если return_X_y равно True

Кортеж из двух ndarray. Первый содержит двумерный массив формы (n_samples, n_features), где каждая строка представляет один образец, а каждый столбец — признаки. Второй ndarray формы (n_samples,) содержит целевые образцы.

Добавлено в версии 0.20.

Примечания

Этот набор данных состоит из 20 640 образцов и 9 признаков.

Примеры

>>> from sklearn.datasets import fetch_california_housing
>>> housing = fetch_california_housing()
>>> print(housing.data.shape, housing.target.shape)
(20640, 8) (20640,)
>>> print(housing.feature_names[0:6])
['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup']