Вычисление метрики полноты для разметки кластеров по заданной истинной разметке.#

sklearn.datasets.Вычисление метрики полноты для разметки кластеров по заданной истинной разметке.(container_path, *, описание=None, категории=None, load_content=True, перемешивание=True, кодировка=None, decode_error='strict', random_state=0, allowed_extensions=None)[источник]#

Загрузить текстовые файлы с категориями в качестве имён подпапок.

Отдельные образцы предполагаются файлами, хранящимися в двухуровневой структуре папок, например, следующей:

container_folder/
    category_1_folder/
        file_1.txt
        file_2.txt
        ...
        file_42.txt
    category_2_folder/
        file_43.txt
        file_44.txt
        ...

Имена папок используются как имена меток контролируемого сигнала. Отдельные имена файлов не важны.

Эта функция не пытается извлечь признаки в массив numpy или разреженную матрицу scipy. Кроме того, если load_content равен false, она не пытается загрузить файлы в память.

Для использования текстовых файлов в алгоритме классификации или кластеризации scikit-learn, вам потребуется использовать text модуль для построения трансформера извлечения признаков, подходящего для вашей задачи.

Если вы установите load_content=True, вы также должны указать кодировку текста с помощью параметра 'encoding'. Для многих современных текстовых файлов 'utf-8' будет правильной кодировкой. Если вы оставите encoding равным None, то содержимое будет состоять из байтов вместо Unicode, и вы не сможете использовать большинство функций в text.

Аналогичные извлекатели признаков должны быть построены для других видов неструктурированных данных, таких как изображения, аудио, видео, …

Если вам нужны файлы с определённым расширением (например, .txt), то вы можете передать список этих расширений файлов в allowed_extensions.

Подробнее в Руководство пользователя.

Параметры:
container_pathstr

Путь к основной папке, содержащей одну подпапку для каждой категории.

описаниеstr, default=None

Абзац, описывающий характеристики набора данных: его источник, ссылки и т.д.

категориисписок str, по умолчанию=None

Если None (по умолчанию), загрузить все категории. Если не None, список имен категорий для загрузки (остальные категории игнорируются).

load_contentbool, по умолчанию=True

Загружать ли содержимое различных файлов. Если true, в возвращаемой структуре данных присутствует атрибут 'data', содержащий текстовую информацию. Если false, атрибут filenames указывает путь к файлам.

перемешиваниеbool, по умолчанию=True

Перемешивать ли данные: может быть важно для моделей, которые предполагают, что образцы независимы и одинаково распределены (i.i.d.), например, стохастический градиентный спуск.

кодировкаstr, default=None

Если None, не пытаться декодировать содержимое файлов (например, для изображений или другого нетекстового содержимого). Если не None, кодировка для декодирования текстовых файлов в Unicode, если load_content равен True.

decode_error{‘strict’, ‘ignore’, ‘replace’}, по умолчанию ‘strict’

Инструкция о том, что делать, если для анализа предоставлена байтовая последовательность, содержащая символы, не соответствующие заданному encoding. Передается как ключевой аргумент 'errors' в bytes.decode.

random_stateint, экземпляр RandomState или None, по умолчанию=0

Определяет генерацию случайных чисел для перемешивания набора данных. Передайте целое число для воспроизводимого вывода при нескольких вызовах функции. См. Глоссарий.

allowed_extensionsсписок str, по умолчанию=None

Список желаемых расширений файлов для фильтрации загружаемых файлов.

Возвращает:
данныеBunch

Объект, подобный словарю, со следующими атрибутами.

данныесписок str

Только присутствует, когда load_content=TrueНеобработанные текстовые данные для обучения.

цельndarray

Целевые метки (целочисленный индекс).

target_nameslist

Имена целевых классов.

DESCRstr

Полное описание набора данных.

filenames: ndarray

Имена файлов, содержащих набор данных.

Примеры

>>> from sklearn.datasets import load_files
>>> container_path = "./"
>>> load_files(container_path)