Par Germain VAN BEVER – Membre de l’équipe We-Search et chercheur en statistiques (ULB)
Les résultats des récentes élections fédérales allemandes ont été largement commentés cette dernière semaine. Trois événements, en particulier, ont retenu l’attention des médias : la chute des chrétiens-démocrates, l’ascension d’Alternative für Deutschland, mais également l’étendue avec laquelle les sondages préélectoraux avaient sous-estimé ces changements. Ces variations, bien qu’attendues, ont été légèrement supérieures aux estimations des sondeurs (de l’ordre de 2-3% de différence dans le premier cas, 1-2% dans le second). Ceux-ci se seraient-ils (encore) trompés?
Plus que le résultat objectif, les articles sont également prompts à rappeler les nombreuses surprises électorales (et populistes) récentes et l’incapacité des sondeurs à les “prévoir”. Du Brexit à Trump, de Le Pen à Gauland/Weidel, les sondages sont-ils toujours biaisés ? Certes, la grogne anti-sondage est en vogue, mais était-elle vraiment nécessaire, sachant que, dans ce cas-ci, ceux-ci étaient en accord (du moins statistique) avec les résultats ? Ces articles démontrent en particulier la mécompréhension statistique profonde des journalistes (et leur présentation canonique au public) quant aux sondages et à ce que ceux-ci cherchent à mesurer.
Évaluer les intentions de vote d’une population n’est pas aisé. Comprendre ce que les sondages mesurent réellement ne l’est également pas. Plus importants encore, de nombreux facteurs (sociaux, psychologiques, économiques, etc.) mettent à mal les hypothèses fondamentales du modèle statistique derrière la prise d’opinion. Certains sont inévitables, d’autres sont de la responsabilité des sondeurs eux-mêmes, qui prennent parfois des libertés indignes de leurs objectifs. Le but de ce billet n’est pas de revenir sur la responsabilité des instituts de sondage ni de discuter les limitations du modèle utilisé (ceci sera fait dans un second temps). L’objectif ici est de revenir aux fondamentaux. Remettre l’église au milieu du sondage. Quelles informations extraire ? Comment lire un sondage ? Mais surtout, comprendre pourquoi des déviations sont tout à fait compréhensibles.
Du sondage statistique historique.
Les outils de quantification statistique de la population existent depuis le 18e siècle. L’ouvrage d’Adolphe Quételet « Sur l’homme et le développement de ses facultés, ou Essai de physique sociale » introduit dès 1835 des systèmes de recensement perfectionnés et ébauche une standardisation de la collecte de données[1]. En parallèle, le concept de sondage d’opinions s’est développé dès le début du 19e siècle aux Etats-Unis. D’abord présent via le concept de « votes de paille » (échantillons non représentatifs collectés par les journaux auprès des lecteurs remplissant des bulletins de vote), le sondage statistique s’est réellement développé sous l’impulsion de George Gallup (fondateur de l’institut du même nom).
Des quantités d’intérêt.
Un sondage d’opinion cherche à mesurer de la manière la plus précise possible une proportion inconnue — dénotée traditionnellement p — dans une population d’intérêt (la population d’un pays dans le cas d’une élection, par exemple). Cette proportion est estimée sur base d’un échantillon représentatif de la population. Deux quantités clés composent donc un sondage :
(1) n : La prise d’opinion se fonde sur un échantillon de la population. Celle-ci ne peut être sondée dans son entièreté et il est donc nécessaire de choisir un nombre restreint — noté n — d’individus à sonder.
(2) q: Dans cet échantillon, la proportion d’individus — que l’on notera q — présentant la caractéristique d’intérêt est, on l’espère, proche de la réelle valeur p dans la population. C’est cette proportion q qui sera publiée par les instituts.
Prenons un exemple concret (que l’on réutilisera par la suite). Imaginons vouloir estimer la proportion de votes p en faveur d’un candidat lors d’une élection. En sondant une petite partie de la population (échantillon de n individus), on estimera la quantité p inconnue par la proportion q de sondés en faveur du candidat dans l’échantillon. Bien entendu, ne disposant pas de p, seule la proportion q lors du sondage sera disponible.
La proximité entre p et q se fonde sur l’hypothèse fondamentale que l’échantillon d’individus sondé est représentatif de la population globale. Plusieurs méthodes existent pour assurer ceci. Elles se répartissent grossièrement en deux catégories. Les sondages non-probabilistes récoltent des opinions d’un échantillon dont les répartitions socio-économiques suivent celles de la population globale. Les sondeurs choisissent donc les individus interrogés selon leurs caractéristiques sociétales, et non au hasard. Cette méthode est principalement utilisée par les instituts français. A contrario, les sondages probabilistes interrogent des individus au hasard dans la population. Si ceci est fait de manière indépendante, la représentativité de la population suivra. Cette méthode est adoptée majoritairement par les instituts américains.
Des raccourcis médiatiques.
La différence entre q et p, parfois minime, peut avoir un fort impact sur le résultat. Au second tour de la présidentielle française, par exemple, un sondage donnant un candidat vainqueur à q=52% peut annoncer le mauvais gagnant si p=49% en réalité. Les médias résument trop souvent l’information d’un sondage à la donnée de la proportion q et s’étonnent lorsque cette valeur diffère de p (la vraie valeur étant parfois mesurée a posteriori, comme c’est le cas lors d’une élection). L’échantillon étant aléatoire, des déviations, aléatoires elles aussi, doivent se présenter. Annoncer des différences entre sondage et réalité comme des erreurs de ceux-ci est donc une aberration.
En guise d’illustration, imaginons un vote dans lequel la vraie proportion (inconnue donc) de votants en faveur d’un candidat est de 30%. Il est absurde de s’attendre à ce que, sur 1000 personnes sondées, 300 exactement (i.e. une proportion de 30% dans l’échantillon) soient en faveur de celui-ci. Il doit y avoir des différences aléatoires.
La puissance d’un sondage d’opinion ne se résume cependant pas à la simple donnée de q. Il est, en effet, possible de quantifier les différences aléatoires entre p et q via des marges d’erreur, mais qui ne peuvent être calculées sans la donnée de n. L’intuition est claire : interroger un petit nombre de personnes ne permettra pas d’estimer p avec la même précision qu’à l’aide d’un grand échantillon.
Revenons à notre illustration et au candidat à p=30%. Un échantillon est récolté et la proportion q y est de 40%. Est-ce une différence déraisonnable ? Sans connaître le nombre de sondés, pas nécessairement. La quantité q étant aléatoire, il y a une certaine chance/probabilité que celle-ci surestime de plus de 10%. Cette probabilité (dont le calcul exact ne sera pas détaillé ici) dépend, par contre, du nombre n de sondés ! Par exemple, s’il n’y avait que n=10 individus dans l’échantillon (un nombre absurdement bas, convenons-en), la probabilité d’observer une telle proportion q ou plus serait de plus de 35%. Probabilité qui tombe à 0.00012% pour un échantillon de n=500 personnes. La donnée de n est donc cruciale dans la compréhension du comportement aléatoire de q.
De la marge d’erreur.
Comment peut-on dès lors quantifier cette différence aléatoire entre p et q ? À l’aide de marges d’erreur. Sans rentrer dans les détails cryptostatistiques liés à la célèbre courbe de Gauss, la quantité appelée « marge d’erreur » dans les médias est ce que les statisticiens appellent « écart-type ». Dans le cas du sondage, celle-ci est
Au-delà de la formule alambiquée, cette marge d’erreur permet de quantifier l’aléatoire avec lequel q dévie de p de la manière suivante :
(1) La déviation entre q et p sera d’au plus une marge d’erreur (surestimation ou sous-estimation) dans 68% des cas (grosso modo, deux cas sur trois).
(2) La déviation entre q et p sera d’au plus deux marges d’erreur (surestimation ou sous-estimation) dans 95% des cas (grosso modo, 19 cas sur 20).
Par exemple, en fixant une marge d’erreur de 1,5% (la marge d’erreur d’un sondage fondé sur 1000 personnes), imaginons un échantillon en faveur d’un candidat à 35%. Il est donc raisonnable de penser que la vraie proportion p en faveur du candidat se trouve entre 32 et 38% (à moins que le sondage soit parmi le cas sur 20 déviant de plus de deux marges d’erreur).
Une illustration plus impressionnante encore est la suivante : imaginons un candidat dont la vraie proportion de votants est p=48%. Un sondage fondé sur 500 personnes (de marge d’erreur 2,2%) donnera donc le candidat gagnant plus d’une fois sur six. En effet, dévier de plus d’une marge d’erreur (d’un côté ou de l’autre) arrive une fois sur trois et, par conséquent, surestimer de plus d’une marge d’erreur arrive une fois sur six (la moitié de cette fois sur trois). En moyenne, un sondage sur six donnera donc le candidat gagnant !
Attention, cependant. L’interprétation de la marge d’erreur n’est valable que si l’ échantillon est effectivement représentatif de la population. Si ce n’est pas le cas, il est impossible d’interpréter cette marge d’erreur de la même manière.
Du « à vous messieurs les médias ».
Donner la marge d’erreur ou, à un plus simple niveau, le nombre de sondés est donc crucial. Trop souvent, cette information est passée sous silence. Manque de professionnalisme, incompréhension, manque de confiance dans le caractère représentatif de l’échantillon, quelle que soit la raison, c’est un manquement qui pénalise fortement l’interprétation du sondage. La moitié de l’information est en effet manquante, et le vrai apport statistique se trouve là, dans la quantification de l’erreur. Messieurs les médias, donc, à défaut de comprendre la signification, laissez le public interpréter les marges à son aise.
Plus important encore, le fait de dévier d’une marge d’erreur ou deux est parfaitement attendu, comme ce fut le cas lors de l’élection de dimanche 24 septembre 2017 (les marges d’erreur se trouvant aux alentours de 1-1,5%). Messieurs les médias (bis), convenons donc dorénavant que la montée du populisme en Europe est inquiétante, pas l’incapacité des sondages à la prévoir.
[1] On attribue formellement le terme « physique sociale » à Auguste Comte. En désaccord avec Quételet, celui-ci utilisera par la suite le terme « sociologie ».