fclusterdata#
- scipy.cluster.hierarchy.fclusterdata(X, t, критерий='inconsistent', метрика='euclidean', глубина=2, метод='single', R=None)[источник]#
Кластеризация данных наблюдений с использованием заданной метрики.
Кластеризует исходные наблюдения в матрице данных n-на-m X (n наблюдений в m измерениях), используя евклидову метрику расстояния для вычисления расстояний между исходными наблюдениями, выполняет иерархическую кластеризацию с использованием алгоритма одиночной связи и формирует плоские кластеры с использованием метода несоответствия с t как пороговое значение отсечки.
Одномерный массив
Tдлиныnвозвращается.T[i]является индексом плоского кластера, к которому принадлежит исходное наблюдениеiпринадлежит.- Параметры:
- X(N, M) ndarray
Матрица данных N на M с N наблюдениями в M измерениях.
- tскаляр
- Для критериев 'inconsistent', 'distance' или 'monocrit',
это порог, применяемый при формировании плоских кластеров.
- Для критериев 'maxclust' или 'maxclust_monocrit',
это будет максимальное количество запрошенных кластеров.
- критерийstr, optional
Определяет критерий для формирования плоских кластеров. Допустимые значения: 'inconsistent' (по умолчанию), 'distance' или 'maxclust' алгоритмы формирования кластеров. См.
fclusterдля описаний.- метрикаstr или функция, опционально
Метрика расстояния для вычисления попарных расстояний. См.
distance.pdistдля описаний и связи для проверки совместимости с методом связи.- глубинаint, необязательный
Максимальная глубина для вычисления несоответствия. См.
inconsistentдля получения дополнительной информации.- методstr, optional
Метод связывания для использования (single, complete, average, weighted, median centroid, ward). См.
linkageдля получения дополнительной информации. По умолчанию "single".- Rndarray, необязательно
Матрица несогласованности. Она будет вычислена при необходимости, если не передана.
- Возвращает:
- fclusterdatandarray
Вектор длины n. T[i] - номер плоского кластера, к которому принадлежит исходное наблюдение i.
Смотрите также
scipy.spatial.distance.pdistметрики попарных расстояний
Примечания
Эта функция аналогична функции MATLAB
clusterdata.fclusterdataимеет экспериментальную поддержку совместимых с Python Array API Standard бэкендов в дополнение к NumPy. Пожалуйста, рассмотрите тестирование этих функций, установив переменную окруженияSCIPY_ARRAY_API=1и предоставление массивов CuPy, PyTorch, JAX или Dask в качестве аргументов массива. Поддерживаются следующие комбинации бэкенда и устройства (или других возможностей).Библиотека
CPU
GPU
NumPy
✅
н/д
CuPy
н/д
⛔
PyTorch
✅
⛔
JAX
⚠️ нет JIT
⛔
Dask
⚠️ вычисляет граф
н/д
См. Поддержка стандарта array API для получения дополнительной информации.
Примеры
>>> from scipy.cluster.hierarchy import fclusterdata
Это удобный метод, который абстрагирует все шаги для выполнения в типичном рабочем процессе иерархической кластеризации SciPy.
Преобразуйте входные данные в сжатую матрицу с
scipy.spatial.distance.pdist.Применить метод кластеризации.
Получение плоских кластеров при пользовательском пороге расстояния
tиспользуяscipy.cluster.hierarchy.fcluster.
>>> X = [[0, 0], [0, 1], [1, 0], ... [0, 4], [0, 3], [1, 4], ... [4, 0], [3, 0], [4, 1], ... [4, 4], [3, 4], [4, 3]]
>>> fclusterdata(X, t=1) array([3, 3, 3, 4, 4, 4, 2, 2, 2, 1, 1, 1], dtype=int32)
Выходные данные здесь (для набора данных
X, порог расстоянияt, и настройки по умолчанию) — это четыре кластера с тремя точками данных в каждом.