Mentir avec les statistiques, de Darrell Huff

Comment déjouer les pièges des statistiques…?


Thème : Statistiques

Titre : Comment mentir avec les statistiques ? Titre original : How to lie with statistics

Auteur : Darrel Huff (1913-2001) est un écrivain américain, connu en particulier pour avoir écrit le livre dont il est question dans cet article : How to lie with statistics. Tout en enseignant des procédés complexes de mathématiques à l’Université d’Iowa, Darrel Huff a rendu accessibles et compréhensibles de nombreuses notions de statistiques au plus grand nombre. Il est à l’origine d’une série de livres de bonnes pratiques dont le titre démarre à chaque fois par « How to… » ou en français « Comment faire pour… ».

How to lie with statistics

Date de parution : paru pour la 1ère fois en 1954, le livre de Darrel Huff est toujours d’actualité et on constate encore, et peut-être même plus que lors de cette parution, les utilisations biaisées des stats dans les chiffres que l’on nous balance au quotidien ! L’édition que j’ai lue date de 1993.

Nombre de pages : 144 pages dont pas mal d’illustrations

Temps de lecture : 4 heures

L’idée en moins de 60 mots : Attention aux chiffres ! Manipuler en passant par les pourcentages, les moyennes et autres astuces mathématiques est bien plus facile que l’on ne le croit. Les visuels trompeurs, les multiples chiffres derrière une virgule – fausse preuve de précision –, les données biaisées, tronquées ou tout simplement mal choisie,… Seul un œil critique et avisé distinguera l’information vraie dans ce tumulte !

2 meilleures citations :

« Il est véridique que le résultat d’une étude statistique n’est pas plus fourni que le panel sur lequel elle est basée. »

« Malgré leur socle fait de mathématiques, les statistiques relèvent autant de l’art que de la science. »

Notes :

Facilité de lecture : 9/10 – version anglaise ; on ressent rapidement l’aisance de l’auteur avec ce sujet. Il a un recul certain et traite les statistiques en expert pour un public universel. Les illustrations parfaitement adaptés aux sujets traitées sont agréables et humoristiques. On ne s’ennuie pas en lisant How to lie with statistics. De plus le format court et synthétique offre une porte d’entrée rapide et accessible : un concentré d’informations en peu de temps de lecture !

Dans la tendance actuelle : 7,5/10 – malgré les exemples un peu passés de date étant donné la date d’écriture (1954), tout ce qui est dit est encore vrai aujourd’hui. Et qui plus est cela est clairement utile pour déchiffrer les nombreuses « agressions chiffrées » que renferme notre quotidien.

Pertinence / Originalité des idées développées : 8/10 – aborder les statistiques sous un œil humoristique et critique, c’est un concept original et qui fait son effet. Comme le dit l’auteur c’est un peu le pendant du voleur professionnel qui conseille un public novice qui ne demande qu’à apprendre…comment déjouer les pièges, et non voler à son tour !

Applicabilité des conseils : 7/10 – on pourra bien entendu appliquer les conseils de Darrel Huff dès le prochain article que l’on parcourra des yeux, si tant est qu’il contient des données chiffrées : on cherchera notamment l’origine des données, les méthodes de traitement appliquées, les biais potentiels,… Mais on se limite cependant au domaine des données chiffrées, attention ce livre ne révolutionne pas notre univers dans son intégralité !

Note globale : 7,9/10

3 actions retenues :

  • Ne pas se jeter corps et âme dans le précipice que sont les données chiffrées servies à longueur de journée à chacun d’entre nous : « croissance de 0,5% », « -5 kgs en 7 jours »,… Même si cela peut paraître évident à 1ère vue, notre confiance instinctive envers les études chiffrées doit cesser et traverser les indispensables étapes d’analyse : source des données, méthode employée, auteur des résultats,…
  • Tenter à chaque fois que des nombres se présentent à nous de répondre à la question : « pourquoi voudrait-on que l’on adhère à ces résultats ? ». On pourra ainsi comprendre bien des tentatives de manipulation ou du moins des résultats subjectifs et biaisés !
  • Notre jugement fait très souvent confiance à notre vision. On le constate notamment lorsque l’on se fait un avis arbitraire d’une personne sans même lui avoir parlé ! Alors méfiance : dans le cas des données présentées sous forme de graphiques, de schémas ou de symboles, l’œil est très vite dupé par les rapports de taille, d’aire,… alors que ce sont les chiffres qui parlent et qui sont parfois très mal représentés. Un rapport entre 2 valeurs peut très facilement être exagéré grâce à une représentation trompeuse !

Synthèse : La police d’écriture a beau être assez grande et le nombre de pages assez limité, l’auteur parvient quand même à développer de nombreuses idées, bien délimitées et illustrées (par les mots ET par des dessins) et plutôt variées. Commençons donc sans plus attendre la synthèse de son « manuel du statisticien avisé ».

Les 9 méthodes de supercherie

Dans un premier temps, Darrel Huff détaille tous les moyens qui sont en notre pouvoir pour parvenir à des chiffres trompeurs et non représentatifs de la réalité, dans un cadre à la base respectable et crédible puisqu’il s’agit des mathématiques !

1. Les biais ou l’inconnu des études

Dans toute mesure, à partir du moment où on fait le choix d’un échantillon – même très représentatif de la population globale –, la notion de hasard intervient : entre 2 séries d’enquêtes, les résultats peuvent varier, notamment du fait du hasard. Son importance dans les résultats obtenus est donc non négligeable et on doit même être capable de la mesurer, ou du moins de l’estimer. Une utilisation malsaine du hasard dans les enquêtes est par exemple les chiffres excellents affichés par les marques de cosmétique pour montrer les effets bénéfiques de leur produits, testés sur un panel (« une peau jeune en 15 jours, c’est possible… »). En réalité les laboratoires peuvent se contenter de faire des séries de panels et ne garder que le panel de mesures qui sera satisfaisant, notamment du fait du hasard.

Une autre source de biais dans les études statistiques concerne le choix de ce panel : comment bien représenter la population globale concernée ? La réflexion en amont des mesures est essentielle pour obtenir des résultats justes.

2. Je suis dans la moyenne…

Mais qu’est-ce réellement qu’un moyenne ? En pratique on peut se servir de trois grands modes de calcul pour arriver à un résultat que l’on targuera de « moyenne » sans mentir délibérément mais en orientant clairement les résultats vers l’idée à argumenter.

Ainsi entre la moyenne pondérée, celle que l’on rencontre le plus souvent qui consiste à faire une somme de toutes les valeurs puis à diviser le tout par le nombre d’individus – moyenne des notes en classe par exemple –, la médiane, qui est la valeur qui laisse autant de valeurs au-dessus d’elle qu’en-dessous, ou encore le mode – valeur la plus fréquemment rencontrée au sein d’une série de données –, on peut vite brouiller les pistes du futur lecteur non avisé !

How to lie with statistics

3. L’influence des chiffres

Les nombres, les chiffres ça parle beaucoup plus qu’un long texte en petits caractères ! Et c’est notamment pour cette raison que l’on garde en tête pas mal de codes et de normes liées à la société que l’on s’impose souvent sans raison. La consommation moyenne de chocolat par an, le « budget soldes » moyen des français,… C’est même parfois plus « intime », à travers les courbes de croissance en taille des bébés qui est obtenue à partir de mesures sur une certaine population pas nécessairement représentative des bébés qui naîtront dans 10 ans, dans une certaine région,… Les conditions de mesures sont donc essentielles et à préciser en détails pour le destinataire des données. On pourra ainsi savoir si une donnée chiffrée sur laquelle on base parfois beaucoup voire trop de choses est représentative et réaliste.

4. L’erreur à ne pas faire

Comme dans tout domaine scientifique, l’erreur est envisageable et il est même fortement conseillé de l’étudier en statistiques ! Ainsi on se servira avant tout de l’écart-type ou de la variance (cf Wikipédia pour les formules !). Grâce à ces nombres assez parlants mais rarement mis en avant, on en apprend souvent plus sur les conclusions hâtives formulées à la suite d’études mal menées.

5. Grimper à l’échelle…c’est facile !

Ce moyen de « tricherie » est généralement assez connu. Il consiste à faire varier l’échelle d’un graphique pour permettre une visualisation trompeuse menant aux conclusions que l’on veut nous faire admettre. Pour une demande d’augmentation des salaires, on pourra par exemple avancer l’envolée des prix de +0,5% par rapport à l’année précédente. Avec une échelle adéquate, cela semble immense et on choque bien plus l’opinion adverse ! L’illustration suivante est là pour vous convaincre si ce n’est encore fait :

How to lie with statistics

6. Le Champollion des statistiques

Vous en avez sûrement déjà vu, la presse en raffole, il s’agit des graphiques représentés sous forme de symboles, comme celui-ci :

How to lie with statistics
http://www.manutritionniste.com

Malheureusement l’image est bien souvent trompeuse : quand sur un graphique en bâtons on augmente uniquement la hauteur pour représenter la valeur, ici on augment également la largeur du symbole, soit l’aire, pour noter une progression. Ce n’est donc pas une représentation en une dimension mais bel et bien en 2D ! Et une augmentation X2 sera en réalité représentée X4 à notre œil, l’aire ayant grandi en largeur ET en hauteur. Méfiance donc !

7. Cache-cache avec les chiffres

Que trouve-t-on derrière les chiffres d’une étude statistique ? C’est une question fondamentale à se poser à la fois lors de l’étude mais aussi lors de la lecture des résultats affichés.

Par exemple l’auteur aborde ici une étude faite – il y a déjà pas mal d’années ! – sur le taux de mortalité dans l’armée US comparé à celui des habitants de New York (nombre de morts pour 1000 personnes par an). La conclusion de cette étude est qu’il est moins risqué de travailler dans l’armée que de vivre à New York vu que le taux de mortalité dans l’armée est plus faible. Attention : il faut mettre en valeur le fait que dans l’armée, la population n’est pas la même que celle de New York dans son intégralité : dans l’armée on rencontre principalement des sportifs et des jeunes… D’où des résultats à mon sens non comparables !

8. Les corrélations mensongères

Avec de jolis graphes on a vite fait d’établir des liens de cause à effets faits d’aberrations. Une illustration flagrante ici est celle de dire qu’aller à l’école permet de gagner plus d’argent dans sa vie. On l’obtient de graphes qui distinguent les revenus moyens des personnes ayant fréquenté l’école avec ceux de personnes n’ayant pas fréquenté l’école. On imagine les chiffres. Mais de là à franchir le pas et avancer une telle vérité, non. Ou alors on franchit également la porte de l’interprétation ! Car il n’est pas dit dans les données que l’on puisse gagner plus d’argent sans pour autant aller à l’école… Et pourtant cela se vérifie parfois.

9. La propagande pour les « nuls »

Grâce à des astuces nombreuses, on peut facilement tromper le cerveau humain, quelques fois un peu naïf !

Si une étude sur le revenu moyen des français avance 2100 € et une autre étude avance 2123,67 € laquelle serez-vous plus enclin à croire ? La deuxième probablement… En effet l’effet des chiffres après la virgule est frappant. Il traduit – parfois mal – une précision et une exactitude des données avancées. Chose qui est loin d’être toujours vérifiée. Alors encore une fois : méfiance !

De même des visualisations graphiques imagées (cartes par exemple) peuvent induire assez facilement en erreur. Les aires de chaque région hachurée étant parfois peuplées très différemment, on peut sembler avoir une surface énorme et donc une grande zone concernée, alors qu’à travers les chiffres il en est tout autrement. Si l’on colorie l’intégralité de la Chine sauf les zones côtières on ne rassemble qu’une minorité de la population alors que de visu cela semble regrouper « presque » tout le pays…

Enfin grâce aux mathématiques les tours de passe-passe sont assez aisés.

Multiplier une valeur par 1,6 ou l’augmenter de 60%, cela n’a pas la même résonance. Et pourtant il s’agit de la même opération. Les pourcentages sont en cela assez trompeurs. Dans le même registre on peut parfois utiliser la moyenne dite géométrique au-lieu de celle habituellement utilisée, la moyenne arithmétique. Moyenne géométrique pour 2 nombres a et b : m = √(a*b).

Ainsi la moyenne géométrique de 50 et 200 donnera m = 100, alors que la moyenne arithmétique donne 125…

Bref autant de tours de magie pour un résultat détourné selon la volonté de l’auteur des résultats !

On en arrive aux bonnes pratiques proposées par l’auteur pour bien déchiffrer les statistiques et surtout les pièges qu’elle recèle.

Comment distinguer le vrai du faux dans les stats ?

1. Analyser la source et l’origine des données : sont-elles biaisées ? objectives ? tronquées ?

2. Analyser les conditions des recherches/enquêtes autant que possible : a-t-on suffisamment de données pour pouvoir avancer une vérité fondée ? Avec seulement 10% de réponses sur un panel d’étude, les résultats seront forcément orientés…

3. Evaluer les données « de l’ombre » : grâce à l’écart-type ou en se basant sur la loi de Pareto (20% des individus responsables de 80% des faits) on peut expliquer pas mal de choses. Une valeur lissée peut en réalité être la moyenne de nombreuses faibles valeurs et de quelques très fortes valeurs !

4. Analyser la déviation par rapport au sujet d’étude : le malentendu

Ce que l’on dit lors des enquêtes n’est pas forcément ce que l’on fait, mais plutôt l’image que l’on voit ou que l’on souhaite de soi. De même certaines tromperies sont issues d’idées ancrées depuis de nombreuses années : les taux d’intérêts en sont en bon exemple. On raisonne en % d’intérêts PAR ANNEE et non PAR MOIS. Or il arrive que des publicités mensongères ou des données falsifiées mettent en avant des taux sur 6 mois, 8 mois,… ce qui revient à biaiser notre perception.

5. Toujours aborder les choses avec une vision critique

Quand le président Lincoln avançait sur la base des tendances de croissance de la population qu’il y aurait 251 millions d’américain en 1930, il ne faisait certainement pas preuve de vision critique… Et d’ailleurs la réalité l’a prouvé puisque en 1930, les américains étaient « seulement » 122 millions !

Conclusion : Darrell Huff n’a pas bouleversé ma vision des statistiques. Les ayant un peu étudiées, ma méfiance vis-à-vis des données chiffrées balancées à tout va n’était pas au point mort. Cependant ce bouquin est une véritable piqûre de rappel, dévoilant de nombreuses astuces facilement compréhensibles et les exemples cités sont là pour prouver leur présence dans notre « quotidien chiffré » ! Le guide du «statisticien avisé » en dernière partie est synthétique et efficace, il offre un panel de bonnes pratiques utilisables au quotidien pour ne plus se faire prendre ! Les quelques heures de lecture investies dans ce livre humoristique en valent la peine.

2 pensées sur “Mentir avec les statistiques, de Darrell Huff

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *