fetch_lfw_pairs#

sklearn.datasets.fetch_lfw_pairs(*, subset='train', data_home=None, воронкообразный=True, изменить размер=0.5, цвет=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True, n_retries=3, задержка=1.0)[источник]#

Загрузить набор данных пар Labeled Faces in the Wild (LFW) (классификация).

Загружает его, если необходимо.

Классы

2

Всего образцов

13233

Снижение размерности

5828

Признаки

действительное число от 0 до 255

В оригинальная статья версия "пар" соответствует "ограниченной задаче", где экспериментатор не должен использовать имя человека для вывода эквивалентности или неэквивалентности двух изображений лиц, которые явно не представлены в обучающем наборе.

Исходные изображения имеют размер 250 x 250 пикселей, но стандартные аргументы среза и изменения размера уменьшают их до 62 x 47.

Подробнее в Руководство пользователя.

Параметры:
subset{'train', 'test', '10_folds'}, по умолчанию='train'

Выберите набор данных для загрузки: ‘train’ для обучающего набора разработки, ‘test’ для тестового набора разработки, и ‘10_folds’ для официального оценочного набора, который предназначен для использования с 10-кратной кросс-валидацией.

data_homestr или path-like, по умолчанию=None

Укажите другую папку для загрузки и кэширования наборов данных. По умолчанию все данные scikit-learn хранятся в подпапках ‘~/scikit_learn_data’.

воронкообразныйbool, по умолчанию=True

Загрузите и используйте воронкообразный вариант набора данных.

изменить размерfloat, по умолчанию=0.5

Коэффициент, используемый для изменения размера каждого изображения лица.

цветbool, по умолчанию=False

Сохранять 3 канала RGB вместо усреднения их до одного канала серого уровня. Если color=True, форма данных имеет на одно измерение больше, чем форма с color=False.

slice_кортеж срезов, по умолчанию=(slice(70, 195), slice(78, 172))

Предоставьте пользовательский 2D срез (высота, ширина) для извлечения 'интересной' части jpeg-файлов и избегания использования статистической корреляции с фоном.

download_if_missingbool, по умолчанию=True

Если False, вызывает OSError, если данные недоступны локально, вместо попытки загрузить их с исходного сайта.

n_retriesint, по умолчанию=3

Количество повторных попыток при возникновении HTTP-ошибок.

Добавлено в версии 1.5.

задержкаfloat, по умолчанию=1.0

Количество секунд между повторными попытками.

Добавлено в версии 1.5.

Возвращает:
данныеBunch

Объект, подобный словарю, со следующими атрибутами.

данныеndarray формы (2200, 5828). Форма зависит от subset.

Каждая строка соответствует 2 развернутым изображениям лиц исходного размера 62 x 47 пикселей. Изменение slice_, resize или subset параметры изменят форму вывода.

парыndarray формы (2200, 2, 62, 47). Форма зависит от subset

Каждая строка содержит 2 изображения лица, соответствующих одному и тому же или разным людям из набора данных, содержащего 5749 человек. Изменение slice_, resize или subset Параметры изменят форму выходных данных.

цельмассив numpy формы (2200,). Форма зависит от subset.

Метки, связанные с каждой парой изображений. Два значения метки указывают на разных людей или одного и того же человека.

target_namesмассив numpy формы (2,)

Объясняет целевые значения целевого массива. 0 соответствует "Другой человек", 1 соответствует "Тот же человек".

DESCRstr

Описание набора данных Labeled Faces in the Wild (LFW).

Примеры

>>> from sklearn.datasets import fetch_lfw_pairs
>>> lfw_pairs_train = fetch_lfw_pairs(subset='train')
>>> list(lfw_pairs_train.target_names)
[np.str_('Different persons'), np.str_('Same person')]
>>> lfw_pairs_train.pairs.shape
(2200, 2, 62, 47)
>>> lfw_pairs_train.data.shape
(2200, 5828)
>>> lfw_pairs_train.target.shape
(2200,)