check_array#

sklearn.utils.check_array(массив, accept_sparse=False, *, accept_large_sparse=True, dtype='numeric', порядок=None, copy=False, force_writeable=False, ensure_all_finite=True, ensure_non_negative=False, ensure_2d=True, allow_nd=False, ensure_min_samples=1, ensure_min_features=1, estimator=None, input_name='')[источник]#

Проверка входных данных на массиве, списке, разреженной матрице или подобном.

По умолчанию входные данные проверяются на то, чтобы быть непустым двумерным массивом, содержащим только конечные значения. Если тип данных массива - object, предпринимается попытка преобразования в float с выдачей ошибки при неудаче.

Параметры:
массивobject

Входной объект для проверки / преобразования.

accept_sparsestr, bool или list/tuple of str, по умолчанию=False

Строка[и], представляющие разрешенные форматы разреженных матриц, такие как 'csc', 'csr' и т.д. Если входные данные разрежены, но не в разрешенном формате, они будут преобразованы в первый указанный формат. True разрешает входные данные в любом формате. False означает, что входные данные в виде разреженной матрицы вызовут ошибку.

accept_large_sparsebool, по умолчанию=True

Если предоставлена разреженная матрица CSR, CSC, COO или BSR и она принимается accept_sparse, accept_large_sparse=False приведет к ее принятию только если ее индексы хранятся с 32-битным типом данных.

Добавлено в версии 0.20.

dtype'numeric', тип, список типов или None, по умолчанию='numeric'

Тип данных результата. Если None, сохраняется тип данных входных данных. Если "numeric", тип данных сохраняется, если только array.dtype не является object. Если dtype — это список типов, преобразование к первому типу выполняется только если тип входных данных не входит в список.

порядок{'F', 'C'} или None, по умолчанию=None

Будет ли массив принудительно преобразован в фортран-стиль или c-стиль. Когда order равен None (по умолчанию), то если copy=False, ничего не гарантируется относительно расположения памяти выходного массива; в противном случае (copy=True) расположение памяти возвращаемого массива сохраняется как можно ближе к исходному массиву.

copybool, по умолчанию=False

Будет ли вызвано принудительное копирование. Если copy=False, копирование может быть вызвано преобразованием.

force_writeablebool, по умолчанию=False

Следует ли принудительно делать выходной массив доступным для записи. Если True, возвращаемый массив гарантированно доступен для записи, что может потребовать копирования. В противном случае сохраняется возможность записи входного массива.

Добавлено в версии 1.6.

ensure_all_finitebool или 'allow-nan', по умолчанию=True

Вызывать ли ошибку на np.inf, np.nan, pd.NA в массиве. Возможности:

  • True: Принудительно сделать все значения массива конечными.

  • является строкой, содержащей имя, которое вы хотите дать этому шагу, и

  • ‘allow-nan’: принимает только значения np.nan и pd.NA в массиве. Значения не могут быть бесконечными.

Добавлено в версии 1.6: force_all_finite был переименован в ensure_all_finite.

ensure_non_negativebool, по умолчанию=False

Убедитесь, что массив содержит только неотрицательные значения. Если True, массив, содержащий отрицательные значения, вызовет ValueError.

Добавлено в версии 1.6.

ensure_2dbool, по умолчанию=True

Вызывать ли ошибку значения, если массив не является двумерным.

allow_ndbool, по умолчанию=False

Разрешать ли array.ndim > 2.

ensure_min_samplesint, по умолчанию=1

Убедитесь, что массив имеет минимальное количество образцов по первой оси (строк для 2D-массива). Установка значения 0 отключает эту проверку.

ensure_min_featuresint, по умолчанию=1

Убедитесь, что двумерный массив имеет минимальное количество признаков (столбцов). Значение по умолчанию 1 отклоняет пустые наборы данных. Эта проверка применяется только тогда, когда входные данные имеют эффективно 2 измерения или изначально 1D и ensure_2d равно True. Установка значения 0 отключает эту проверку.

estimatorstr или экземпляр оценщика, по умолчанию=None

Если передано, включает имя оценщика в предупреждающие сообщения.

input_namestr, по умолчанию=""

Имя данных, используемое для построения сообщения об ошибке. В частности, если input_name является "X" и данные содержат значения NaN, а allow_nan установлен в False, сообщение об ошибке будет содержать ссылку на документацию по imputer.

Добавлено в версии 1.1.0.

Возвращает:
array_convertedobject

Преобразованный и проверенный массив.

Примеры

>>> from sklearn.utils.validation import check_array
>>> X = [[1, 2, 3], [4, 5, 6]]
>>> X_checked = check_array(X)
>>> X_checked
array([[1, 2, 3], [4, 5, 6]])