dump_svmlight_file#

sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, комментарий=None, query_id=None, многометочный=False)[источник]#

Сохранить набор данных в формате файла svmlight / libsvm.

Этот формат является текстовым форматом, с одним образцом на строку. Он не хранит признаки с нулевым значением, поэтому подходит для разреженных наборов данных.

Первый элемент каждой строки может использоваться для хранения целевой переменной для прогнозирования.

Параметры:
X{array-like, sparse matrix} формы (n_samples, n_features)

Обучающие векторы, где n_samples — это количество образцов и n_features это количество признаков.

y{array-like, sparse matrix}, shape = (n_samples,) или (n_samples, n_labels)

Целевые значения. Метки классов должны быть целыми или вещественными числами, или array-like объектами целых или вещественных чисел для многометочной классификации.

fstr или файлоподобный в двоичном режиме

Если строка, указывает путь, который будет содержать данные. Если файлоподобный объект, данные будут записаны в f. f должен быть открыт в бинарном режиме.

zero_basedbool, по умолчанию=True

Следует ли записывать индексы столбцов с нуля (True) или с единицы (False).

комментарийstr или bytes, по умолчанию=None

Комментарий для вставки в начало файла. Это должна быть либо строка Unicode, которая будет закодирована как UTF-8, либо байтовая строка ASCII. Если указан комментарий, то перед ним будет добавлен комментарий, идентифицирующий файл как сохраненный scikit-learn. Обратите внимание, что не все инструменты понимают комментарии в файлах SVMlight.

query_idarray-like формы (n_samples,), по умолчанию=None

Массив, содержащий попарные ограничения предпочтений (qid в формате svmlight).

многометочныйbool, по умолчанию=False

Каждый образец может иметь несколько меток (см. https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html).

Добавлено в версии 0.17: параметр multilabel для поддержки многометочных наборов данных.

Примеры

>>> from sklearn.datasets import dump_svmlight_file, make_classification
>>> X, y = make_classification(random_state=0)
>>> output_file = "my_dataset.svmlight"
>>> dump_svmlight_file(X, y, output_file)