1.3. Ядерная гребневая регрессия#

Ядерная гребневая регрессия (KRR) [M2012] объединяет Ридж-регрессия и классификация (линейные наименьшие квадраты с \(L_2\)-норма регуляризация) с ядерный трюк. Таким образом, он изучает линейную функцию в пространстве, индуцированном соответствующим ядром и данными. Для нелинейных ядер это соответствует нелинейной функции в исходном пространстве.

Форма модели, изученной KernelRidge идентичен регрессии метода опорных векторов (SVR). Однако используются разные функции потерь: KRR использует квадратичную ошибку, а регрессия методом опорных векторов использует \(\epsilon\)-нечувствительная функция потерь, обе объединены с \(L_2\) регуляризация. В отличие от SVR, обучение KernelRidge может быть выполнено в замкнутой форме и обычно быстрее для наборов данных среднего размера. С другой стороны, обученная модель не является разреженной и, следовательно, медленнее, чем SVR, который изучает разреженную модель для \(\epsilon > 0\), во время предсказания.

Следующий рисунок сравнивает KernelRidge и SVR на искусственном наборе данных, который состоит из синусоидальной целевой функции и сильного шума, добавленного к каждой пятой точке данных. Изученная модель KernelRidge и SVR отображается, где как сложность/регуляризация, так и ширина полосы RBF-ядра были оптимизированы с помощью поиска по сетке. Изученные функции очень похожи; однако, подгонка KernelRidge примерно в семь раз быстрее, чем обучение SVR (оба с поиском по сетке). Однако предсказание 100 000 целевых значений более чем в три раза быстрее с SVR поскольку он обучил разреженную модель, используя только примерно 1/3 из 100 обучающих точек данных в качестве опорных векторов.

../_images/sphx_glr_plot_kernel_ridge_regression_001.png

Следующий рисунок сравнивает время обучения и предсказания для KernelRidge и SVR для различных размеров обучающего набора. Обучение KernelRidge быстрее, чем SVR для наборов данных среднего размера (менее 1000 выборок); однако для больших наборов данных SVR масштабируется лучше. Что касается времени предсказания, SVR быстрее, чем KernelRidge для всех размеров обучающей выборки из-за изученного разреженного решения. Обратите внимание, что степень разреженности и, следовательно, время предсказания зависит от параметров \(\epsilon\) и \(C\) из SVR; \(\epsilon = 0\) будет соответствовать плотной модели.

../_images/sphx_glr_plot_kernel_ridge_regression_002.png

Примеры

Ссылки

[M2012]

«Машинное обучение: вероятностная перспектива» Мерфи, К. П. — глава 14.4.3, стр. 492-493, The MIT Press, 2012