Иерархическая кластеризация (scipy.cluster.hierarchy)#

Эти функции разрезают иерархические кластеризации на плоские кластеризации или находят корни леса, образованного разрезом, предоставляя идентификаторы плоских кластеров для каждого наблюдения.

fcluster(Z, t[, criterion, depth, R, monocrit])

Сформировать плоские кластеры из иерархической кластеризации, определённой данной матрицей связей.

fclusterdata(X, t[, criterion, metric, ...])

Кластеризация данных наблюдений с использованием заданной метрики.

leaders(Z, T)

Возвращает корневые узлы в иерархической кластеризации.

Это подпрограммы для агломеративной кластеризации.

linkage(y[, method, metric, optimal_ordering])

Выполнить иерархическую/агломеративную кластеризацию.

single(y)

Выполнить одиночную/минимальную/ближайшую связь на сжатой матрице расстояний y.

complete(y)

Выполнить полную/максимальную/дальнюю связь на сжатой матрице расстояний.

average(y)

Выполнить усреднённую/UPGMA кластеризацию на свёрнутой матрице расстояний.

weighted(y)

Выполнить взвешенную/WPGMA кластеризацию на сжатой матрице расстояний.

centroid(y)

Выполнить центроидную/UPGMC кластеризацию.

median(y)

Выполнить связывание по медиане/WPGMC.

ward(y)

Выполнение связи Уорда по сжатой матрице расстояний.

Эти процедуры вычисляют статистику по иерархиям.

cophenet(Z[, Y])

Вычислите копенетические расстояния между каждым наблюдением в иерархической кластеризации, определённой связью Z.

from_mlab_linkage(Z)

Преобразовать матрицу связей, сгенерированную MATLAB(TM), в новую матрицу связей, совместимую с этим модулем.

inconsistent(Z[, d])

Вычислить статистику несогласованности на матрице связей.

maxinconsts(Z, R)

Возвращает максимальный коэффициент несогласованности для каждого несинглетонного кластера и его дочерних элементов.

maxdists(Z)

Вернуть максимальное расстояние между любыми несинглетонными кластерами.

maxRstat(Z, R, i)

Возвращает максимальную статистику для каждого несинглтонного кластера и его дочерних элементов.

to_mlab_linkage(Z)

Преобразование матрицы связей в совместимую с MATLAB(TM).

Подпрограммы для визуализации плоских кластеров.

dendrogram(Z[, p, truncate_mode, ...])

Построить иерархическую кластеризацию в виде дендрограммы.

Это структуры данных и подпрограммы для представления иерархий как объектов дерева.

ClusterNode(id[, left, right, dist, count])

Класс узла дерева для представления кластера.

leaves_list(Z)

Вернуть список идентификаторов листовых узлов.

to_tree(Z[, rd])

Преобразовать матрицу связей в удобный для использования объект дерева.

cut_tree(Z[, n_clusters, height])

По заданной матрице связей Z вернуть обрезанное дерево.

optimal_leaf_ordering(Z, y[, metric])

Дана матрица связей Z и расстояние, переупорядочить дерево разрезов.

Это предикаты для проверки корректности матриц связывания и несоответствия, а также для проверки изоморфизма двух плоских назначений кластеров.

is_valid_im(R[, warning, throw, name])

Вернуть True, если переданная матрица несоответствий действительна.

is_valid_linkage(Z[, warning, throw, name])

Проверить корректность матрицы связей.

is_isomorphic(T1, T2)

Определить, эквивалентны ли два разных назначения кластеров.

is_monotonic(Z)

Возвращает True, если переданная связь монотонна.

correspond(Z, Y)

Проверка соответствия между матрицей связей и сжатой матрицей расстояний.

num_obs_linkage(Z)

Возвращает количество исходных наблюдений переданной матрицы связей.

Вспомогательные процедуры для построения графиков:

set_link_color_palette(палитра)

Установить список кодов цветов matplotlib для использования дендрограммой.

Вспомогательные классы:

DisjointSet([elements])

Структура данных непересекающихся множеств для инкрементальных запросов на связность.