dump_svmlight_file#
- sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, комментарий=None, query_id=None, многометочный=False)[источник]#
Сохранить набор данных в формате файла svmlight / libsvm.
Этот формат является текстовым форматом, с одним образцом на строку. Он не хранит признаки с нулевым значением, поэтому подходит для разреженных наборов данных.
Первый элемент каждой строки может использоваться для хранения целевой переменной для прогнозирования.
- Параметры:
- X{array-like, sparse matrix} формы (n_samples, n_features)
Обучающие векторы, где
n_samples— это количество образцов иn_featuresэто количество признаков.- y{array-like, sparse matrix}, shape = (n_samples,) или (n_samples, n_labels)
Целевые значения. Метки классов должны быть целыми или вещественными числами, или array-like объектами целых или вещественных чисел для многометочной классификации.
- fstr или файлоподобный в двоичном режиме
Если строка, указывает путь, который будет содержать данные. Если файлоподобный объект, данные будут записаны в f. f должен быть открыт в бинарном режиме.
- zero_basedbool, по умолчанию=True
Следует ли записывать индексы столбцов с нуля (True) или с единицы (False).
- комментарийstr или bytes, по умолчанию=None
Комментарий для вставки в начало файла. Это должна быть либо строка Unicode, которая будет закодирована как UTF-8, либо байтовая строка ASCII. Если указан комментарий, то перед ним будет добавлен комментарий, идентифицирующий файл как сохраненный scikit-learn. Обратите внимание, что не все инструменты понимают комментарии в файлах SVMlight.
- query_idarray-like формы (n_samples,), по умолчанию=None
Массив, содержащий попарные ограничения предпочтений (qid в формате svmlight).
- многометочныйbool, по умолчанию=False
Каждый образец может иметь несколько меток (см. https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html).
Добавлено в версии 0.17: параметр
multilabelдля поддержки многометочных наборов данных.
Примеры
>>> from sklearn.datasets import dump_svmlight_file, make_classification >>> X, y = make_classification(random_state=0) >>> output_file = "my_dataset.svmlight" >>> dump_svmlight_file(X, y, output_file)