Вычисление метрики полноты для разметки кластеров по заданной истинной разметке.#
- sklearn.datasets.Вычисление метрики полноты для разметки кластеров по заданной истинной разметке.(container_path, *, описание=None, категории=None, load_content=True, перемешивание=True, кодировка=None, decode_error='strict', random_state=0, allowed_extensions=None)[источник]#
Загрузить текстовые файлы с категориями в качестве имён подпапок.
Отдельные образцы предполагаются файлами, хранящимися в двухуровневой структуре папок, например, следующей:
container_folder/ category_1_folder/ file_1.txt file_2.txt ... file_42.txt category_2_folder/ file_43.txt file_44.txt ...Имена папок используются как имена меток контролируемого сигнала. Отдельные имена файлов не важны.
Эта функция не пытается извлечь признаки в массив numpy или разреженную матрицу scipy. Кроме того, если load_content равен false, она не пытается загрузить файлы в память.
Для использования текстовых файлов в алгоритме классификации или кластеризации scikit-learn, вам потребуется использовать
textмодуль для построения трансформера извлечения признаков, подходящего для вашей задачи.Если вы установите load_content=True, вы также должны указать кодировку текста с помощью параметра 'encoding'. Для многих современных текстовых файлов 'utf-8' будет правильной кодировкой. Если вы оставите encoding равным None, то содержимое будет состоять из байтов вместо Unicode, и вы не сможете использовать большинство функций в
text.Аналогичные извлекатели признаков должны быть построены для других видов неструктурированных данных, таких как изображения, аудио, видео, …
Если вам нужны файлы с определённым расширением (например,
.txt), то вы можете передать список этих расширений файлов вallowed_extensions.Подробнее в Руководство пользователя.
- Параметры:
- container_pathstr
Путь к основной папке, содержащей одну подпапку для каждой категории.
- описаниеstr, default=None
Абзац, описывающий характеристики набора данных: его источник, ссылки и т.д.
- категориисписок str, по умолчанию=None
Если None (по умолчанию), загрузить все категории. Если не None, список имен категорий для загрузки (остальные категории игнорируются).
- load_contentbool, по умолчанию=True
Загружать ли содержимое различных файлов. Если true, в возвращаемой структуре данных присутствует атрибут 'data', содержащий текстовую информацию. Если false, атрибут filenames указывает путь к файлам.
- перемешиваниеbool, по умолчанию=True
Перемешивать ли данные: может быть важно для моделей, которые предполагают, что образцы независимы и одинаково распределены (i.i.d.), например, стохастический градиентный спуск.
- кодировкаstr, default=None
Если None, не пытаться декодировать содержимое файлов (например, для изображений или другого нетекстового содержимого). Если не None, кодировка для декодирования текстовых файлов в Unicode, если load_content равен True.
- decode_error{‘strict’, ‘ignore’, ‘replace’}, по умолчанию ‘strict’
Инструкция о том, что делать, если для анализа предоставлена байтовая последовательность, содержащая символы, не соответствующие заданному
encoding. Передается как ключевой аргумент 'errors' в bytes.decode.- random_stateint, экземпляр RandomState или None, по умолчанию=0
Определяет генерацию случайных чисел для перемешивания набора данных. Передайте целое число для воспроизводимого вывода при нескольких вызовах функции. См. Глоссарий.
- allowed_extensionsсписок str, по умолчанию=None
Список желаемых расширений файлов для фильтрации загружаемых файлов.
- Возвращает:
- данные
Bunch Объект, подобный словарю, со следующими атрибутами.
- данныесписок str
Только присутствует, когда
load_content=TrueНеобработанные текстовые данные для обучения.- цельndarray
Целевые метки (целочисленный индекс).
- target_nameslist
Имена целевых классов.
- DESCRstr
Полное описание набора данных.
- filenames: ndarray
Имена файлов, содержащих набор данных.
- данные
Примеры
>>> from sklearn.datasets import load_files >>> container_path = "./" >>> load_files(container_path)