scipy.cluster.hierarchy.

центроид#

scipy.cluster.hierarchy.центроид(y)[источник]#

Выполнить центроидную/UPGMC кластеризацию.

См. linkage для получения дополнительной информации о входной матрице, структуре возвращаемого значения и алгоритме.

Ниже приведены распространённые соглашения о вызовах:

  1. Z = centroid(y)

    Выполняет центроидную/UPGMC связь на сжатой матрице расстояний y.

  2. Z = centroid(X)

    Выполняет центроидную/UPGMC связь на матрице наблюдений X используя евклидово расстояние в качестве метрики расстояния.

Параметры:
yndarray

Сжатая матрица расстояний. Сжатая матрица расстояний — это плоский массив, содержащий верхнюю треугольную часть матрицы расстояний. Это форма, которую pdist возвращает. Кроме того, коллекция m векторов наблюдений в n измерениях может быть передана как массив размером m на n.

Возвращает:
Zndarray

Матрица связей, содержащая иерархическую кластеризацию. См. linkage документация функции для получения дополнительной информации о её структуре.

Смотрите также

linkage

для расширенного создания иерархических кластеризаций.

scipy.spatial.distance.pdist

метрики попарных расстояний

Примечания

centroid имеет экспериментальную поддержку совместимых с Python Array API Standard бэкендов в дополнение к NumPy. Пожалуйста, рассмотрите тестирование этих функций, установив переменную окружения SCIPY_ARRAY_API=1 и предоставление массивов CuPy, PyTorch, JAX или Dask в качестве аргументов массива. Поддерживаются следующие комбинации бэкенда и устройства (или других возможностей).

Библиотека

CPU

GPU

NumPy

н/д

CuPy

н/д

PyTorch

JAX

Dask

⚠️ объединяет блоки

н/д

См. Поддержка стандарта array API для получения дополнительной информации.

Примеры

>>> from scipy.cluster.hierarchy import centroid, fcluster
>>> from scipy.spatial.distance import pdist

Сначала нам нужен игрушечный набор данных для экспериментов:

x x    x x
x        x

x        x
x x    x x
>>> X = [[0, 0], [0, 1], [1, 0],
...      [0, 4], [0, 3], [1, 4],
...      [4, 0], [3, 0], [4, 1],
...      [4, 4], [3, 4], [4, 3]]

Затем мы получаем сжатую матрицу расстояний из этого набора данных:

>>> y = pdist(X)

Наконец, мы можем выполнить кластеризацию:

>>> Z = centroid(y)
>>> Z
array([[ 0.        ,  1.        ,  1.        ,  2.        ],
       [ 3.        ,  4.        ,  1.        ,  2.        ],
       [ 9.        , 10.        ,  1.        ,  2.        ],
       [ 6.        ,  7.        ,  1.        ,  2.        ],
       [ 2.        , 12.        ,  1.11803399,  3.        ],
       [ 5.        , 13.        ,  1.11803399,  3.        ],
       [ 8.        , 15.        ,  1.11803399,  3.        ],
       [11.        , 14.        ,  1.11803399,  3.        ],
       [18.        , 19.        ,  3.33333333,  6.        ],
       [16.        , 17.        ,  3.33333333,  6.        ],
       [20.        , 21.        ,  3.33333333, 12.        ]]) # may vary

Матрица связей Z представляет дендрограмму — см. scipy.cluster.hierarchy.linkage для подробного объяснения его содержимого.

Мы можем использовать scipy.cluster.hierarchy.fcluster чтобы увидеть, к какому кластеру принадлежала бы каждая начальная точка при заданном пороге расстояния:

>>> fcluster(Z, 0.9, criterion='distance')
array([ 7,  8,  9, 10, 11, 12,  1,  2,  3,  4,  5,  6], dtype=int32) # may vary
>>> fcluster(Z, 1.1, criterion='distance')
array([5, 5, 6, 7, 7, 8, 1, 1, 2, 3, 3, 4], dtype=int32) # may vary
>>> fcluster(Z, 2, criterion='distance')
array([3, 3, 3, 4, 4, 4, 1, 1, 1, 2, 2, 2], dtype=int32) # may vary
>>> fcluster(Z, 4, criterion='distance')
array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

Также, scipy.cluster.hierarchy.dendrogram может использоваться для генерации графика дендрограммы.