2.9. Модели нейронных сетей (без учителя)#

2.9.1. Ограниченные машины Больцмана#

Ограниченные машины Больцмана (RBM) — это неконтролируемые нелинейные обучатели признаков, основанные на вероятностной модели. Признаки, извлечённые RBM или иерархией RBM, часто дают хорошие результаты при подаче в линейный классификатор, такой как линейный SVM или перцептрон.

Модель делает предположения относительно распределения входных данных. В настоящее время scikit-learn предоставляет только BernoulliRBM, который предполагает, что входные данные являются либо двоичными значениями, либо значениями от 0 до 1, каждое из которых кодирует вероятность того, что конкретный признак будет включен.

реализует алгоритм многослойного перцептрона (MLP), который обучается с использованиемСтохастическое максимальное правдоподобие) предотвращает отклонение представлений далеко от входных данных, что позволяет им захватывать интересные закономерности, но делает модель менее полезной для небольших наборов данных и обычно не полезной для оценки плотности.

Метод стал популярным для инициализации глубоких нейронных сетей с весами независимых RBM. Этот метод известен как неконтролируемое предварительное обучение.

../_images/sphx_glr_plot_rbm_logistic_classification_001.png

Примеры

2.9.1.1. Графическая модель и параметризация#

Графическая модель RBM - это полностью связный двудольный граф.

../_images/rbm_graph.png

Узлы являются случайными величинами, состояния которых зависят от состояний других узлов, к которым они подключены. Модель параметризуется весами соединений, а также одним свободным членом (смещением) для каждого видимого и скрытого узла, опущенным на изображении для простоты.

Функция энергии измеряет качество совместного назначения:

\[E(\mathbf{v}, \mathbf{h}) = -\sum_i \sum_j w_{ij}v_ih_j - \sum_i b_iv_i - \sum_j c_jh_j\]

В формуле выше, \(\mathbf{b}\) и \(\mathbf{c}\) являются векторами смещения для видимого и скрытого слоев соответственно. Совместная вероятность модели определяется через энергию:

\[P(\mathbf{v}, \mathbf{h}) = \frac{e^{-E(\mathbf{v}, \mathbf{h})}}{Z}\]

Слово ограниченный относится к двудольной структуре модели, которая запрещает прямое взаимодействие между скрытыми единицами или между видимыми единицами. Это означает, что предполагаются следующие условные независимости:

\[\begin{split}h_i \bot h_j | \mathbf{v} \\ v_i \bot v_j | \mathbf{h}\end{split}\]

Двудольная структура позволяет использовать эффективную блочную выборку Гиббса для вывода.

2.9.1.2. Машины Больцмана с ограничениями Бернулли#

В BernoulliRBM, все единицы являются бинарными стохастическими единицами. Это означает, что входные данные должны быть либо бинарными, либо вещественными в диапазоне от 0 до 1, обозначающими вероятность включения или выключения видимой единицы. Это хорошая модель для распознавания символов, где интерес представляет, какие пиксели активны, а какие нет. Для изображений естественных сцен она больше не подходит из-за фона, глубины и тенденции соседних пикселей принимать одинаковые значения.

Условное распределение вероятностей каждого узла задается логистической сигмоидальной функцией активации от получаемого входа:

\[\begin{split}P(v_i=1|\mathbf{h}) = \sigma(\sum_j w_{ij}h_j + b_i) \\ P(h_i=1|\mathbf{v}) = \sigma(\sum_i w_{ij}v_i + c_j)\end{split}\]

где \(\sigma\) является логистической сигмоидной функцией:

\[\sigma(x) = \frac{1}{1 + e^{-x}}\]

2.9.1.3. Стохастическое обучение по методу максимального правдоподобия#

Алгоритм обучения, реализованный в BernoulliRBM известен как Стохастическое максимальное правдоподобие (SML) или Персистентная контрастная дивергенция (PCD). Оптимизация максимального правдоподобия напрямую неосуществима из-за формы правдоподобия данных:

\[\log P(v) = \log \sum_h e^{-E(v, h)} - \log \sum_{x, y} e^{-E(x, y)}\]

Для простоты уравнение выше записано для одного обучающего примера. Градиент по весам состоит из двух членов, соответствующих приведенным выше. Обычно они известны как положительный градиент и отрицательный градиент из-за их соответствующих знаков. В этой реализации градиенты оцениваются по мини-пакетам выборок.

При максимизации логарифма правдоподобия положительный градиент заставляет модель предпочитать скрытые состояния, совместимые с наблюдаемыми обучающими данными. Из-за двудольной структуры RBM это можно вычислить эффективно. Однако отрицательный градиент не поддается вычислению. Его цель — снизить энергию совместных состояний, которые предпочитает модель, тем самым заставляя ее оставаться верной данным. Его можно аппроксимировать методом Монте-Карло по цепи Маркова, используя блочную выборку Гиббса, итеративно выбирая каждый из \(v\) и \(h\) при условии другого, пока цепь не смешается. Сгенерированные таким образом выборки иногда называют фантазийными частицами. Это неэффективно, и трудно определить, смешивается ли цепь Маркова.

Метод контрастивной дивергенции предлагает остановить цепь после небольшого количества итераций, \(k\)Однако удаление одной категории нарушает симметрию исходного представления и поэтому может вызвать смещение в последующих моделях, например, для штрафованной линейной классификации или регрессионных моделей.

Устойчивое контрастное расхождение решает эту проблему. Вместо того чтобы запускать новую цепь каждый раз, когда требуется градиент, и выполнять только один шаг выборки Гиббса, в PCD мы сохраняем несколько цепей (фантазийные частицы), которые обновляются \(k\) шагов Гиббса после каждого обновления весов. Это позволяет частицам более тщательно исследовать пространство.

Ссылки