Comment expliquer la différence entre RPCA et PCA?


Réponse 1:

Edit: Doh, je viens de réaliser que vous pourriez poser des questions sur Robust-PCA et non sur la régression des composants principaux (alias régression-PCA). Pour ce que ça vaut, voici une réponse sur ce dernier.

Parfois, pendant la régression, les groupes de variables d'entrée (covariables) seront colinéaires (voir une autre question sur la multicolinéarité). Cela signifie que les entrées très prédictives impliquent un type de redondance du point de vue de la sortie: si vous pouvez prédire

yy

bien avec

xx

, vous n'avez pas besoin d'une autre copie close de

xx

.

Malheureusement, la régression OLS voit cela et essaie de compenser en attribuant une responsabilité similaire aux entrées colinéaires. Dans l'exemple ci-dessus, pensez au nombre d'avions différents qui sont presque optimaux (au sens le moins carré)…

Infini, non? Tout plan qui passe par les points, quelle que soit la rotation autour des points verts: imaginez une sorte d'axe ancré dans les airs qui passe par les points verts et ensuite le plan rouge pivote dessus.

Pour aggraver les choses, en perturbant un peu les données, les poids de régression finaux, contrôlant essentiellement le gradient du plan, pourraient être très différents. Cela indique que le modèle est instable.

Alors, quelle est une façon de fusionner les variables d'entrée corrélées? Eh bien, voici ce que Regression-PCA fera:

Tout d'abord, il fera PCA sur les entrées (les points bleus), c'est-à-dire trouver une ligne bleue sur le plan XZ pour projeter les points bleus (de sorte que la distance de projection totale soit minimisée). Cette ligne agit maintenant comme un nouvel axe - appelez-la

bb

,

et le problème de régression d'origine est maintenant résolu dans le cadre de référence de

byb-y

, une régression linéaire à variable unique.

Donc, en quelque sorte, nous laissons PCA trouver ces regroupements de variables similaires, au lieu de laisser à OLS le risque inhérent d'instabilité illustré ci-dessus.

Enfin, pour recadrer la régression à l'original

xzyx-z-y

l'espace, quel que soit le coefficient de régression donné à la variable dérivée b (ici 0,5), sera partagé équitablement en fonction des poids de l'axe dérivé de l'ACP (les poids finaux de l'APCR seront donc

(0.25,0.25)(0.25, 0.25)

).