Pour un non-expert, quelle est la différence entre les approches bayésienne et fréquentiste?


Réponse 1:

Q: Combien de fréquentistes faut-il pour changer une ampoule? R: Eh bien, il existe différentes réponses défendables ...

Q: Combien de Bayésiens faut-il pour changer une ampoule? R: Tout dépend de vos antécédents!

Narrateur: Soit p une distribution de probabilité inconnue. Un estimateur est une fonction qui tente de répondre à une question sur p, étant donné un ensemble de données échantillonné à partir de p.

Les statistiques concernent en grande partie la conception et l'analyse des estimateurs ...

Freddy le Frequentist: Voici un estimateur que je viens de inventer! Et je peux prouver que pour tout p de cette famille de distributions, mon estimateur "fonctionne bien".

Narrateur: Veuillez expliquer «fonctionne bien» à notre public. Vous pouvez agiter vos mains.

Freddy (agitant les mains): Quel que soit p, mon estimateur donnera généralement des réponses assez précises sur les ensembles de données échantillonnés à partir de p. Bien sûr, il échouera sur l'ensemble de données non représentatif occasionnel, mais il n'y a pas moyen d'éviter la malchance.

Basia le Bayésien: Félicitations! Est-il optimal pour "bien fonctionner"? Je veux toujours optimal.

Freddy: Oh, il n'y a pas de meilleur estimateur pour ce problème. Mais au moins je peux prouver que le mien est "admissible". Autrement dit, un autre estimateur pourrait battre mon estimateur pour certains p, mais pas pour tous les p.

Basia: D'accord ... alors qu'en est-il des distributions p que vous attendez en pratique? Votre estimateur est-il particulièrement bien adapté à ceux-ci?

Freddy: Qui sait ce qui va se produire en pratique?

Basia: Oui, apparemment. Vous avez déjà supposé que p proviendrait d'une famille particulière. Si ce n'est pas le cas, votre estimateur n'a aucune garantie.

Freddy: Ok, tu m'as eu. Mais mon hypothèse est assez douce. Les gens ont souvent de bonnes raisons [par exemple, le théorème de la limite centrale] de croire que leur distribution génératrice de données provient plus ou moins de ma famille. Je veux que mon estimateur fonctionne bien tant que p est dans cette famille.

Basia: Mais vous obtiendrez votre ensemble de données réel auprès des scientifiques. N'auront-ils pas une intuition scientifique plus précise sur ce que p est susceptible d'être? Ensuite, vous pourriez obtenir de meilleurs résultats en tenant compte de cela.

Freddy: Cela semble suspect. Les scientifiques veulent des conclusions objectives, pas des conclusions qui reflètent leurs hypothèses existantes.

Basia: Objectif ?? Les anthropologues et les journalistes disent qu'il n'y a pas de point de vue objectif: comme en physique, vous apportez toujours votre propre cadre de référence. Le plus que les données peuvent faire pour vous est de mettre à jour vos croyances existantes. N'as-tu pas fait attention en cours de philosophie? Les sceptiques nous disent qu'il n'y a aucun moyen de savoir quoi que ce soit avec certitude. Les existentialistes nous disent que vous ne pouvez pas abandonner votre libre arbitre autant que vous le souhaitez. Vous pouvez essayer de repousser cette responsabilité en adoptant un principe comme la loi ou la loyauté ou la religion - ou le fréquentisme! - mais ce n'est qu'une façon indirecte de faire vos choix.

Freddy: Bla bla bla. Les statistiques, ce sont les mathématiques, pas la philosophie.

Basia: La statistique est l'épistémologie appliquée. Vous et moi poursuivons une vieille conversation philosophique: comment conclure quoi que ce soit des données? Oui, nos outils mathématiques modernes nous permettent de tirer rigoureusement des conclusions précises, mais seulement une fois que nous avons fait des hypothèses. Même les mathématiciens doivent assumer certains axiomes. Lorsque nous traitons des données, nous devons également faire des hypothèses sur la provenance des données. Pas d'hypothèses, pas de conclusions. La vie est comme ça.

Freddy: Mais j'ai déjà fait une légère hypothèse et inventé un bon estimateur! Tout ton discours défaitiste ne m'en donne pas un meilleur.

Basia: Non, je ne vais pas vous donner un estimateur. Je vais vous donner un moyen de dériver automatiquement un meilleur estimateur en faisant plus d'hypothèses. Le vôtre est garanti de fonctionner assez bien pour tous les p de la famille, mais le mien fonctionnera mieux pour les p typiques.

Freddy: Typique ?? Je fais l'analyse du pire des cas. Vous voulez faire une analyse de cas moyen, alors quel est le cas moyen? Suis-je censé faire une moyenne égale sur tous les p?

Basia: Écrivez simplement votre distribution antérieure sur p, qui reflète vos vraies croyances - avant l'expérience - sur l'endroit où p pourrait tomber. Si vous n'êtes vraiment pas sûr, alors votre a priori devrait être "plat" et traiter tous les p plus ou moins également.

Freddy: Et une fois que j'ai écrit la distribution précédente ...?

Basia: Alors l'estimateur bayésien va tout simplement tomber! Il ne reste plus rien à concevoir. Étant donné un ensemble de données, l'estimateur bayésien re-pondère simplement votre croyance antérieure en chaque hypothèse p en fonction de la probabilité de cette hypothèse de générer l'ensemble de données. Si vous avez une fonction de perte, alors les décisions optimales tombent des nouvelles croyances, encore une fois sans autre conception, grâce à la théorie de la décision bayésienne.

Freddy: Des décisions "optimales" ... si vous croyez le prieur.

Basia: Hé, vous avez admis que vous n'avez pas de méthode de choix parmi les estimateurs admissibles. Différents estimateurs font également des prédictions différentes.

Je dois préciser mon préalable. Je n'ai pas de méthode de choix entre différents prieurs; Je suis juste censé avoir une croyance préalable. Mais au moins, je suis explicite à ce sujet! Ainsi, celui qui lit mon article peut voir exactement ce qui a conduit à mes conclusions. Je ne m'attarde pas sur différents estimateurs. Mon estimateur insiste pour utiliser toutes les données. Selon les principes bayésiens, les données et les antérieurs conduisent inexorablement aux conclusions.

Bien sûr, mes lecteurs sont libres de discuter avec moi pour savoir si mon prieur représente l'état actuel des connaissances scientifiques. Nous pouvons tester comment différents priors affecteront les conclusions.

Narrateur: Merci pour cette discussion stimulante! Cela devient très tl; dr. Le public est désormais libre de partir.

Freddy: Je vois que vous voulez vraiment extraire chaque goutte de valeur des données. Mais pourquoi essayer de définir le One True Estimator? Le mien est assez bon. Je peux limiter le biais et la variance de mon estimateur en fonction de la taille de l'ensemble de données, je peux donc vous prouver que de grandes erreurs ne sont pas très probables pour des ensembles de données pratiques.

En pratique, mon estimateur est également facile à calculer. En fait, c'est comme ça que je l'ai trouvé: j'ai conjecturé une procédure simple et raisonnable, puis j'ai prouvé qu'elle avait de bonnes propriétés. Votre estimateur bayésien était assez facile à écrire mathématiquement, mais c'est peut-être l'enfer sur roues à calculer, ce qui le rend également difficile à analyser.

Basia: C'est juste. En fait, je n'ai généralement aucun moyen pratique de le calculer exactement. Je dois concevoir un algorithme aléatoire ou une approximation variationnelle. Donc, mes conclusions pratiques ne découlent pas inexorablement des données et des données antérieures. Ils sont également affectés par l'approximation de calcul.

Mais peut-être que tirer des conclusions exactes à partir des données devrait nécessiter beaucoup de calculs. Le raisonnement scientifique est assez impliqué lorsque les humains le font. Les processus scientifiques sont complexes, ce qui conduit à des familles complexes de modèles. Les expériences scientifiques produisent des données hétérogènes, bruyantes et incomplètes.

L'approche bayésienne gère toute cette complexité de manière transparente. Une fois que vous avez conçu votre modèle, le bayésianisme consiste en un seul principe statistique simple, soutenu en pratique par une bibliothèque d'astuces de calcul.

Freddy: Je vous concède que dans ces situations fantaisistes, les estimateurs fréquentistes deviendraient aussi coûteux en calcul. J'admets également qu'il me serait difficile de concevoir un estimateur pour une telle situation (et encore moins pour de nombreuses situations connexes) qui présentait de bonnes propriétés fréquentistes.

Je retomberais probablement sur un estimateur du maximum de vraisemblance. C'est comme une version simplifiée de votre estimateur bayésien, il est donc au moins aussi possible de calculer. Et il n'a pas besoin d'un préalable.

Basia: Je ne suis pas fou de la probabilité maximale. Il ignore les informations du précédent. Et elle ne donne qu'une estimation ponctuelle idiote, au lieu de représenter l'incertitude postérieure. Cela vous conduira à de pires décisions.

Freddy: Alors je vais peut-être ajouter un régularisateur. Quoi qu'il en soit, l'effet de votre a priori diminue à mesure que l'ensemble de données augmente, tout comme votre incertitude postérieure. Donc, au moins, nous serons d'accord avec l'autre dans la limite des données infinies. Et à ce stade, nous serons également d'accord avec la vérité: je ne suis pas fou non plus de l'estimation du maximum de vraisemblance, mais au moins c'est cohérent.

Narrateur: Ok alors! Ravi de vous voir d'accord.

Freddy: Au revoir, public non expert! J'espère que tu t'es amusé. Vous pouvez nous voter en sortant.

Mais Basia, entre nous deux, je ne partage toujours pas votre position philosophique sur ce que nous voulons d'un estimateur. Laissons tomber le fantasme des données infinies. Nous aurons des données finies, nous voulons donc que le risque de l'estimateur diminue rapidement en fonction de la taille de l'ensemble de données. Si je considérais un estimateur pour un modèle compliqué, j'essaierais de prouver qu'il l'a fait pour n'importe quelle distribution dans la famille. Cela ne nécessiterait aucun préalable.

Basia: Mais que voulez-vous dire par "toute distribution dans la famille"? Avec des modèles compliqués, est-ce même un concept naturel? Permettez-moi d'esquisser un modèle bayésien hiérarchique de base:

  1. tirer des hyperparamètres des paramètres de distribution antérieurs tirer des distributions contrôlées par les hyperparamètres retirer des données des distributions contrôlées par les paramètres

Quelle est la famille ici?

Freddy: Ici, je traiterais les hyperparamètres et les paramètres différemment. Je suis prêt à supposer que p a votre forme hiérarchique: comme vous l'avez souligné précédemment, j'accepterai des contraintes strictes sur p. Je ne jette que votre a priori sur les hyperparamètres, ce qui est une contrainte douce sur p. Chaque réglage des hyperparamètres est une distribution p différente, donc je veux concevoir une méthode fréquentiste qui fonctionne bien pour un tel réglage.

Basia: Mais vous n'avez pas jeté les distributions qui génèrent les paramètres.

Freddy: D'accord. Je dois donc considérer ces paramètres à l'étape 2 comme des données non observées qui sont générées par le modèle le long de la route vers l'étape 3. Ce sont des variables de "nuisance". Donc, quand je fais la moyenne sur des ensembles de données aléatoires, je fais aussi une analyse de cas moyen des paramètres. Mais comme j'essaie de montrer que cette analyse est valable pour n'importe quelle distribution, je fais l'analyse du pire des hyperparamètres.

Basia: Quelle est votre motivation pour traiter ces deux niveaux si différemment ??

Freddy: Oh, je distingue toujours deux niveaux. Il y a un ensemble de distributions. Pour chaque distribution de l'ensemble, je veux bien faire en moyenne.

Basia: Vous regardez ce modèle hiérarchique à trois niveaux et vous voyez un ensemble de distributions sur les distributions. En utilisant un a priori sur les hyperparamètres, je transforme cela en une distribution sur des distributions sur des distributions. Ou de manière équivalente, une grande distribution. Je suis donc en train d'analyser tout dans le cas moyen. Je ne vois pas pourquoi vous traceriez une ligne spéciale entre les niveaux 1. et 2. de mon modèle.

Freddy: Mais je n'ai pas besoin de le dessiner là. Je peux le dessiner où je veux. Vous voulez supprimer complètement l'analyse du pire des cas. Mais je peux mélanger l'analyse du pire et du cas moyen de différentes manières.

Lorsque je trace la ligne au-dessus du niveau 1., alors tout est moyen et mon analyse ne se distingue pas de celle d'un Bayésien. Dans ce cas, la famille ne contient qu'une seule distribution p, qui génère les hyperparamètres, les paramètres et les données. Mon estimateur n'évalue donc pas les propriétés de p, ce qui est connu. Il s'agit de l'imputation des valeurs des variables de nuisance, étant donné p et l'ensemble de données observé.

Et ici, le risque de mon estimateur ne dépend plus d'un choix de p. C'est une moyenne sur tout, y compris les hyperparamètres.

Basia: Bien! C'est ce que je minimise toujours. Mon estimateur est explicitement défini pour minimiser le risque bayésien, c'est-à-dire la perte attendue de la prédiction, selon le postérieur étant donné l'ensemble de données. Étant donné que mon estimateur minimise le risque Bayes pour tout ensemble de données qui lui est fourni, il minimise également le risque fréquentiste dont vous parlez, qui fait également la moyenne de tous les ensembles de données possibles.

Freddy: Oui, votre estimateur ressemble à une solution idéale si je trace la ligne au-dessus du niveau 1, en acceptant votre a priori dans le modèle lui-même. Mais c'est un résultat unique, plutôt faible. En choisissant de tracer la ligne à d'autres endroits, je peux également formuler des théorèmes supplémentaires sur les estimateurs. Théorèmes contenant des symboles because car ils font l'analyse du pire des cas.

Basia: Ce "faible résultat" est tout ce dont j'ai besoin dans la pratique. Vos théorèmes supplémentaires sont assez vrais, mais comment vous aident-ils?

Freddy: Eh bien, je me sens plus à l'aise de recommander un estimateur aux scientifiques. Je peux leur dire quelles sont leurs propriétés connues, y compris divers types de propriétés dans le pire des cas.

Basia: Mais un autre fréquentiste pourrait tout aussi bien recommander un estimateur différent, qui a également de bonnes propriétés mais fera des prévisions différentes.

Vos théorèmes ne sont que des points de discussion; ils confondent la question. Je n'ai besoin d'aucun théorème pour faire une recommandation. Ma recommandation bayésienne est de dériver l'estimateur directement à partir de vos hypothèses scientifiques et de vos objectifs d'ingénierie. Je vais toujours dire aux scientifiques d'utiliser une règle de Bayes généralisée: s'ils font réellement confiance à leur modèle et à leurs antérieurs, alors la meilleure prédiction à partir des données est celle qui minimise le risque de Bayes.

Freddy: Je pense que vous vous appuyez en fait sur le théorème complet de la classe. Ce qui, selon vous, résout toutes les statistiques. Que fais-tu toute la journée alors? Ce doit être un travail confortable.

Basia: Eh bien, j'aide les scientifiques à formaliser leur modèle, leur fonction antérieure et leur fonction de perte. Cela ne nécessite pas de nouveaux théorèmes statistiques, mais il reste encore des calculs à faire. Je devrai peut-être concevoir et analyser de nouvelles distributions de probabilités. Je conçois et analyse également des algorithmes pour aider les scientifiques à calculer la meilleure prédiction.

Freddy: Ils méritent de savoir si cette "meilleure prédiction" sera bonne. Je devrais donc peut-être faire une analyse fréquentiste de votre estimateur bayésien.

Basia: Pourquoi s'embêter? Je voudrais simplement les alerter sur le risque Bayes de leur prédiction réelle. Ce nombre est une information très utile car il conditionne leur ensemble de données réel.

Votre analyse fréquentiste accorderait autant d'attention aux distributions p qui sont exclues par leur ensemble de données réel. Qui se soucie de bien faire sur ceux-ci ?? Surtout quand "bien faire" signifie des performances moyennes sur un grand nombre de jeux de données fictifs. Ce ne sont pas pertinents.

Freddy: Mais que se passe-t-il si les scientifiques ne disposent pas encore d'un "ensemble de données réel"? Ils analyseront de nombreux ensembles de données. Ils doivent prendre certaines décisions à l'avance. Premièrement, devraient-ils adopter votre logiciel statistique? Deuxièmement, combien de données devraient-ils collecter?

Ce sont en effet des questions sur la performance de votre logiciel - ou du mien - sur l'ensemble de données moyen de taille n, pour une gamme de distributions p. Toute boîte logicielle doit comporter un autocollant «informations nutritionnelles» avec les réponses à ces questions.

Basia: D'accord, mais cet autocollant n'a pas à se concentrer sur le pire des cas p. Les scientifiques ont un prior sur p. Mon logiciel consulte le précédent, et le vôtre ne le fait pas. Mais dans chaque cas, les scientifiques veulent savoir dans quelle mesure le logiciel se comportera sur des distributions p choisies parmi leurs précédentes. Je pourrais estimer cela pour eux en échantillonnant des distributions et des ensembles de données à partir de leurs antérieurs.

Freddy: En principe, vous pourriez. Mais en pratique, vous voudrez peut-être publier l'autocollant avant de savoir qui utilisera le logiciel. Les théorèmes fréquentistes sont agréables et portables de cette façon - tout comme les étiquettes nutritionnelles, ils visent à aider de nombreux utilisateurs différents, qui peuvent avoir des antécédents différents.

On peut formuler un estimateur fréquentiste sans connaître le préalable de l'utilisateur. Et nous pouvons publier son risque dans le pire des cas sans connaître le préalable de l'utilisateur. L'utilisateur sait que le risque le plus défavorable est au moins une limite supérieure de son risque moyen, peu importe comment il préfère faire la moyenne.

Basia: Je pense que votre objection se résume à nouveau à des inconvénients informatiques! Vous voulez concevoir des estimateurs généraux et prouver des théorèmes généraux ... afin d'éviter de faire des calculs spécifiques qui vous donneraient la meilleure réponse possible dans votre situation précise.

Il n'est pas étonnant que les statistiques se soient historiquement concentrées sur des théorèmes généraux. Il n'était pas possible sur le plan informatique d'en faire plus. Peut-être que je suis bayésien parce que je suis devenu majeur entouré de puissance de calcul et de techniques comme MCMC. Je respecte la généralité et l'élégance des limites théoriques, dans les cas simples où vous pouvez les obtenir. Mais j'apprécie également le travail d'apprentissage automatique qui se concentre sur la mesure et la maximisation des performances de systèmes prédictifs spécifiques, plutôt que de prouver des théorèmes plus larges sur les systèmes plus faibles.


Réponse 2:

Toutes les réponses intéressantes et surtout très valables.

J'ajoute ceci:

Lorsque vous voulez, par exemple, gagner une guerre, trouver un nouveau médicament, gagner de l'argent en bourse, prévoir le temps ou prédire le résultat des élections, votre meilleur pari est d'utiliser l'approche bayésienne.

En d'autres termes, l'approche bayésienne est celle qui fonctionne vraiment. (à condition de l'alimenter avec vos meilleures connaissances sur les modèles à utiliser et les valeurs des paramètres).

L'explication en est que le hasard consiste à modéliser la réalité, et l'approche baysienne vous donne une meilleure puissance de modélisation.


Réponse 3:

Je pense que d'autres ont répondu avec précision à la question spécifique, mais j'ajouterais également qu'un bayésien est plus conforme à la façon dont nous traitons tous vraiment les nouvelles informations ... même si vous êtes en fait ... un fréquentiste.

Disons qu'un expert connu dans le domaine des levers de soleil vous dit qu'un modèle de prédiction (algorithme) qu'elle vient de créer dit que le lever du soleil commencera beaucoup plus tard que prévu. En fait, dans une semaine, elle s'attend à 8 heures du matin. Votre réaction naturelle et logique à cela est de prendre votre compréhension actuelle (que le lever du soleil a été vers 6 heures du matin récemment) et de modifier vos attentes concernant le lever du soleil de la semaine prochaine.

Vous faites cela même si le modèle semble utiliser des mathématiques sonores et que vous ne pouvez pas trouver de trous de logique dans l'algorithme ou les entrées. Vous avez des années de «données» observées qui vous indiquent que le lever du soleil sera vers 6 h la semaine prochaine.

Il s'agit de la version simplifiée sans mathématiques de l'approche bayésienne.

Même ceux qui peuvent vanter une conclusion en termes absolus ont très probablement une croyance bayésienne à la base.