The Signal and the Noise, la prévision du futur selon Nate Silver
Prévisions, prédictions, certitudes ?
Thème : Résolution de problèmes / Prise de décision / Prédictions
Titre : The Signal and the Noise
Auteur : Nate Silver aurait pu finir comme vous et moi. Il aurait pu rester travailler chez KPMG à bouffer du tableau Excel toute la journée et à claquer sa paie le soir et les week-ends. Mais il a choisi d’en faire plus : mettre en place un système de prédiction des performances au base-ball (PECOTA), stopper sa carrière toute tracée pour se lancer dans le poker, créer un site de prévision des résultats des primaires aux Etats-Unis (avec 100% de prévisions bonnes). Bref Nate Silver a beau ne pas sortir de Harvard ou de Stanford, il s’est plutôt démené et avec brio. Si bien que du haut de ses 35 ans, il apparaît aujourd’hui comme un oracle aux Etats-Unis.
Date de parution : 2012
Nombre de pages : 454 pages (et écrites plutôt en petits caractères… 😎 )
Temps de lecture : 20h
L’idée en moins de 60 mots : Soyons honnêtes avec nous-mêmes, et sachons distinguer prévisions, prédictions et certitudes. L’intervalle de confiance en est un passage obligé ; il vient sceller la « modélisation du futur » choisie. En espérant que celle-ci ne soit pas trop complexe, car les modèles les plus compliqués cumulent souvent les erreurs. Humilité et clairvoyance sont donc les maîtres-mots de l’oracle !
3 meilleures citations :
« La voie pour devenir plus objectifs est de reconnaître l’influence de nos hypothèses dans nos prévisions et de nous poser les bonnes questions sur celles-ci. »
« Une des erreurs les plus critiques est de considérer les choses difficilement quantifiables comme peu importantes. »
« Il est important dans la plupart des situations de la vie d’y associer une probabilité plutôt qu’un oui ou un non. »
Notes :
Facilité de lecture : 6/10 – avec des exemples en tous genres, et dans des domaines variés (météorologie, marchés financiers, paris sportifs, séismes, poker,…), chacun y trouve son intérêt et la lecture est globalement assez plaisante, si l’on enlève quelques longueurs parfois.
Dans la tendance actuelle : 8/10 – qui ne souhaiterait pas deviner l’avenir avec une réussite quasi-certaine ? Avec les quantités de données sur nos vies et nos comportements de plus en plus gigantesques – le Big Data –, le raccourci vers des modèles mathématiques qui traduiraient ces informations en connaissance de nos actions futures est facile. Nate Silver tente d’y apporter quelques réponses.
Pertinence / Originalité des idées développées : 6/10 – une alternance d’idées très bien développées et d’analyses assez fines de situations parfois communes à la base, mais également quelques banalités et un manque de synthèse dans les développements qui nuisent à l’ensemble.
Applicabilité des conseils : 5/10 – mis à part le modèle de Bayes qui est détaillé qui satisfait un instant notre soif de savoir, cela reste un peu court et les conseils applicables restent malheureusement très souvent théoriques.
Note globale : 6,3/10
3 actions retenues :
- Distinguer le bruit du signal : c’est le titre du bouquin vous me direz, « il s’est pas trop foulé… ». Et c’est aussi l’idée majeure que l’on retrouve régulièrement dans les argumentations. A la manière d’un signal électrique sur lequel le message principal serait perturbé et brouillé par de multiples parasites, il en est de même pour les prédictions, selon Nate Silver. Il faut faire très attention à ne pas prendre un « signal parasite » pour un modèle de prévision fiable. Et il faut également essayer de distinguer le signal, le VRAI, dans la multitude d’information à notre disposition. Il faut donc voir long terme et ne pas se baser sur des modèles déduisant de la forte période de neige que le réchauffement climatique c’est du flan…
- En reprenant les chiffres du passé, on peut croire trouver un modèle miraculeux permettant notamment de prédire la date des futurs séismes, les cours de bourse à venir voire même vos futurs comportements. Attention à ne pas se baser uniquement sur le passé pour le projeter dans l’avenir à l’aide d’extrapolations. Certains modèles peuvent cependant s’avérer véridiques. Cela se confirmera-t-il par la suite ? Ou est-ce simplement une pure coïncidence ? Il est essentiel d’imaginer toutes les éventualités possibles, notamment celles qui ne se sont encore jamais produites : les niveaux de crues jamais atteints mais envisageables, les attentats comme ceux du 11 septembre 2001, les séismes de magnitude 9 non pris en compte dans la construction de la centrale de Fukushima…
- Les raisons majeures de la meilleure performance de modèles de prévisions par rapport à d’autres se résument en 3 idées : simplicité, esprit critique et diversification. Simplicité parce que les modèles trop compliqués se « marchent sur les pieds » et se contredisent même parfois. C’est le cas des prévisions d’augmentation de la température liée à l’effet de serre. Une simple corrélation entre le taux de CO2 dans l’atmosphère et la température est bien plus efficace que beaucoup de modèles complexes. Avoir l’esprit critique est également essentiel pour ne pas arriver à prédire la pluie en fonction des résultats de la Nouvelle Star (quoique…). Et enfin diversifier ses sources d’information, car c’est là la clé pour éviter toute déviation (biais) de notre modèle du fait d’interprétations toujours dans le même sens.
Synthèse : On prévoie sa date de mariage un an à l’avance (voire plus) et on voudrait déjà savoir s’il va faire beau ce jour là. On va donc se dire que c’est en plein été et donc que la probabilité de pluie est moindre à ce moment là de l’année. Mais c’est quand même toujours envisageable. On va donc prier, tomber dans la superstition, consulter un(e) astrologue, acheter une grenouille pour nous amener ce foutu beau temps. Et malheureusement ce n’est QUE 3-4 jours avant que l’on sera fixé, au niveau actuel des prévisions « fiables ». Alors comment progresser et devenir l’oracle de demain ? Avec toute la performance des ordinateurs et toutes les données (le Big Data) dont on dispose aujourd’hui, on doit bien être capable de faire quelque chose non ?
L’erreur est humaine, non ?
Evidemment tout n’a pas été parfait jusque là…sinon premièrement Nate Silver n’écrirait pas un livre et il ne serait pas porté comme un devin du 21ème siècle. Les erreurs de prévisions sont monnaie courante : que ce soit les pronostics ratés de Nicolas Sarkozy pensant qu’il avait élections gagnées en 2012 ou que ce soit la non anticipation de la crise à l’automne 2008, les exemples marquants sont nombreux. Et heureusement d’ailleurs sinon on ne remporterait jamais nos paris !
Malgré cela, l’analyse de ces échecs met souvent en lumière une chose : le signal était plus fort que l’on ne pouvait l’imaginer, et finalement l’évènement était plutôt prévisible… Regardons la crise financière de 2008. Les prix de l’immobilier ne faisaient que chuter en 2007, et c’est une situation très similaire à ce qu’avait vécu à partir de 1991 le Japon : une bulle voyant les prix s’effondrer, et conduisant à une période de blues financier. Autre fait marquant : les A-A-A données à tout va par les agences de notation (Moody’s, Fitch et autres Standard’s and Poors) reposaient sur des modèles beaucoup trop optimistes. Nate Silver les a évalués à 20 000% trop optimistes… Tout cela (et je résume un peu vite) aurait du nous conduire à être très prudents et ne pas croire que la croissance éternelle était en marche. Croire que « tant qu’il y a de la musique, les souris dansent » comme l’a dit un célèbre économiste était une erreur profonde. Les plus malins auront pu mettre leurs économies de côté et réinvestirent au prix bas. Les plus optimistes auront perdu une bonne part de leurs économies… L’erreur de prévision coute cher !
Comment passer pour un héros, sur un simple pronostic
L’auteur du bouquin, N. Silver, est aujourd’hui une référence en matière de prévision aux Etats-Unis. Pourquoi ? Il a construit un système de prévision des résultats par Etat des élections de 2012, consultable en ligne. Et chose remarquable, il a eu un taux de réussite de 100%. Il avait également montré tout son art, mais avec moins d’honneurs, en construisant de toutes pièces un système de pronostics des performances des joueurs de la ligue de baseball américaine.
Et si l’on devait garder en mémoire quelques aspects clés d’un pronostic réussi, il faudrait parler de la diversification des sources d’informations et de la remise en cause perpétuelle de son modèle (quitte à contredire la prévision initiale, l’objectif étant la BONNE prévision plutôt que celle qui fait plaisir). On peut également et on doit parler de l’intervalle de confiance. C’est ce qui manque cruellement aux prévisions économiques, qui donnent des probabilités de crises majeures, souvent bien trop optimistes, et malheureusement orphelines de fourchettes indicatives de la volatilité potentielle, autrement dit d’intervalles de confiance. Quand nous achetons un ticket au Loto, on connait pertinemment notre perte maximale (le prix du billet…) et le gain maximal (celui qui nous fait saliver le vendredi 13…). Alors pourquoi n’en serait-il pas de même dans un domaine certes plus complexe, mais fait de combien d’économistes renommés et légitimés par de nombreux rapports plus pointus les uns que les autres ? On sait que les prévisions météo s’amélioreront en relation avec la puissance des systèmes informatiques utilisés. Et la progression de ce domaine plutôt jeune doit être un exemple à suivre – environ 2°C de précision gagnés depuis 1970 : ce ne doit pas être une exception, tout comme les prévisions économiques peu fiables ne doivent pas en être une autre.
Dis Papa, c’est comment le futur ?
Comment doit-on voir la suite ? Que nous réserve l’avenir ? Est-ce un monde où comme dans Retour vers le futur nous aurons à disposition toutes les cartes pour prédire la suite du match de foot que nous sommes en train de regarder ? Il suffirait d’appuyer sur « lecture » pour le vérifier… ! Si l’on suit l’histoire du jeu d’échecs et la montée en puissance des logiciels utilisant l’intelligence artificielle d’un processeur pour battre les plus grands champions comme Kasparov, alors il serait possible de faire de même sur les clients d’un supermarché : toutes les configurations d’achats du passé seraient analysées et compilées pour connaître avec quasi-exactitude les futurs comportements des acheteurs… Ca fait un peu flipper dit comme cela, mais avec la quantité folle de données que les systèmes informatiques (nos smartphones, nos clics sur le net,…), ce que l’on nomme le Big Data sera comme un serveur informatique géant connaissant les goûts et les préférences de chacun de nous. Big Brother 2.0 en quelque sorte…
Prédire comme un barde gaulois…ou pas !
Nate Silver nous met à disposition sa méthode fétiche pour analyser toute situation de la vie de manière mathématique et raisonnée : c’est la quantification de probabilité grâce à la formule de Bayes.
Sachant qu’un évènement a une probabilité initiale égale à X
- Prenons un exemple : J’achète une voiture cette année – pas forcément une Porsche 911, ni une Lamborghini Hurracan –, on va dire une chance sur 5, X = 1/5 = 0,2 (un achat tous les 5 ans, ça paraît assez raisonnable non ?)
Si un 2ème évènement se produit rendant l’évènement initial bien plus probable : dans notre exemple, je viens de crasher ma voiture actuelle, alors il parait clair que la probabilité de l’évènement initial devient bien plus importante.
- Estimons la probabilité que je crashe ma voiture cette année en supposant que j’ai prévu (avant !) de la changer également, 1 chance sur 10 environ (je peux devenir un Robert Kubica à ses heures de gloire en rallye, c’est-à-dire adepte des fossés, quand je me sens d’attaque… 😎 )
- Notons cela Y = 1/10 = 0,1 , la probabilité de l’évènement conditionnel
- Ajoutons enfin la probabilité que je me retrouve avec une nouvelle voiture sans volonté initiale de ma part, ni raison forcée (accident,…), notée Z : par exemple je gagne une Ferrari à la loterie (je vous donnerai le nom de ma loterie à l’occase) ou on m’offre une voiture sur un plateau, environ une fois sur 1000 (une fois dans sa vie…si on vie 1000 ans, vivement l’élixir de jeunesse) : Z = 1/1000
- On peut – enfin ! – obtenir la probabilité de l’évènement initial SACHANT QU’un évènement en sa faveur (ou en sa défaveur) s’est produit. Il correspond à la somme des évènements qui valide notre scénario sur la somme de tous les scénarios imaginables pouvant conduire à la même conséquence (je me retrouve avec une nouvelle voiture sur les bras dans notre exemple) :
P = X*Y / (X*Y + Z*(1-X)) = 0,961 soit 96% de chances que je change ma voiture dans l’année si je me crashe ! Pour les 4% restants, je deviens écolo et je finis en cycliste averti… 😎
Conclusion : On finit cet article sur une bonne note, avec un peu de concret, cependant je reste sacrément sur ma faim pour ce bouquin de Nate Silver. La formule de Bayes est certes intéressante, mais elle n’a rien de révolutionnaire, elle reprend simplement des bases de probabilités apprises au lycée. Et…c’est tout ! Beaucoup de passages un peu longuets, limitons nous donc aux synthèses qui sont quand même assez instructives et nous laisse bon espoir pour des domaines comme la prévision météo ou climatologique (réchauffement de la planète) et laisse une marge de progrès considérable pour le domaine économique notamment. Une chose est sûre, mieux vaut être rationnel et mesuré dans ses prévisions, qui ne doivent quasiment jamais faire jouer nos émotions et intégrer des données provenant d’une source unique d’informations. Prenez garde si les Incas vous annoncent la fin du monde en 2012 donc !