Par Germain VAN BEVER – Membre de l’équipe We-Search et chercheur en statistiques (ULB)
Durant 17 jours, les Jeux olympiques d’hiver nous ont rassasiés d’exploits en tout genre. Entre records personnels, olympiques ou mondiaux, les objectifs de dépassement sont omniprésents et largement diffusés lorsque ceux-ci sont atteints. De cette quinzaine sportive, une quantité énorme de données est disponible, et les analystes (sportifs et/ou scientifiques) s’en donnent à cœur joie afin de déterminer, qui des futurs athlètes à suivre, qui des enjeux financiers (paris en ligne), qui des nouvelles frontières à atteindre.
Le premier exemple de cet article concerne les règles de scoring au badminton. En 2004, la fédération internationale décide de changer celles-ci qui, en l’état, résultent en des rencontres de durées très variables. Pour rappel, dans l’ancien système, les manches se déroulaient en 15 points, un point n’étant obtenu par un joueur qu’en gagnant un échange qu’il avait lui-même initié. Le gagnant du point précédent prenait alors le service. Ceci résultait typiquement, dans le cas de joueurs de compétence égale, en de longues périodes pendant lesquelles les joueurs s’échangeaient le service sans pour autant marquer de point, allongeant la durée de la rencontre. La fédération décide donc de changer les règles, afin de livrer des matchs de durée plus prévisible, une contrainte cruciale et en phase avec les diktats de la diffusion télévisée. Un changement de règle profond se heurte cependant à de nombreuses contraintes. Comment s’assurer que la probabilité de gagner la rencontre ne change pas drastiquement entre l’ancien et le nouveau système ? Comment s’assurer que les rencontres aient une durée en moyenne similaire à celle de l’ancien système, mais de variabilité moins élevée ? C’est à cet endroit que les statisticiens entrent en jeu. En particulier, le modèle présenté ci-dessous (ainsi que les illustrations) provient de [1].Il est bien entendu impossible de prendre en compte toute la complexité des tactiques, des capacités physiques et techniques des joueurs. Il est donc nécessaire de modéliser d’une manière simple (ou non) les résultats des échanges. Le modèle standard consiste en les hypothèses suivantes : pour deux joueurs A et B on suppose que
(1) la probabilité pa que A gagne son échange en l’ayant initié est constante pendant le match et indépendante d’un service à l’autre (la probabilité que B gagne un échange initié par A est donc de 1-pa),
(2) la probabilité pb que B gagne un échange qu’il sert est potentiellement différente, mais également constante et indépendante de l’échange en cours,
(3) la durée d’un échange est aléatoire, de loi gaussienne (i.e. en courbe en cloche), dont la moyenne et la variance (i.e. la position et l’étendue) sont fixées pour toute la rencontre.
Ce modèle à quatre paramètres (pa et pb ainsi que la moyenne et la variance de la durée aléatoire) prend en compte l’effet bénéfique du service sur la probabilité de gain de l’échange et les styles des joueurs pouvant mener à des échanges plus ou moins longs. Ces hypothèses méritent certainement d’être débattues. En particulier, le fait de supposer la probabilité de gain constante pendant tout le match ne tient pas compte d’un potentiel facteur psychologique ou de fatigue. Ou plutôt, il suppose que ces effets affectent de même manière les deux joueurs de façon à garder ces probabilités pa et pb constantes. De même, supposer que la durée des échanges est insensible à la fatigue est une grosse limitation. Ce modèle est cependant largement utilisé et s’avère, en pratique, livrer de très bonnes approximations.
Un tel modèle permet d’étudier théoriquement la probabilité de gagner une rencontre dans chaque système de règles (pour des probabilités pa et pb données) ainsi que la durée aléatoire des rencontres. Le nouveau système de règles est alors choisi de manière à ce que ces quantités soient relativement proches dans les deux systèmes. Les règles actuelles (des manches de 21 points où tous les échanges donnent un point et le service est au joueur marquant le point précédent) sont le résultat de cette analyse. Pour illustration (tirée de [2], communication), le graphe suivant donne les probabilités théoriques (en ordonnée), dans le modèle ci-dessus, que A gagne la rencontre en fonction de pa (en abscisse) pour différentes valeurs de pb (différentes couleurs).
Le graphe suivant montre, sous l’hypothèse pa=pb (pas d’effet du service), les probabilités sous l’ancien système (scoring 2) et sous le nouveau (scoring 1). La différence maximale se trouve pour p=0.6, où la probabilité de gagner la rencontre diminue de 4 %.
L’analyse des durées des rencontres est bien plus complexe dans le cadre théorique (voir par exemple l’article [3] en référence) et, en particulier, doit être étudiée par simulations plutôt qu’explicitement. Nous conclurons cet exemple par le caveat suivant : ce nouveau modèle semble mener à des durées de rencontre effectivement moins variables, mais en moyenne plus longue que dans l’ancien système, ce qui n’a pas l’heur de plaire à la fédération. Depuis 2014, un nouveau système (5 manches gagnantes de 11 points) est à l’étude.
Remarquons que le modèle présenté ci-dessus n’est pas le seul qui a été proposé, et la littérature abonde de modèles plus ou moins complexes cherchant à expliquer à leur manière les résultats observés en pratique. Enfin, l’application de ce modèle en pratique est rendue difficile par le fait que les probabilités pa et pb ne sont pas connues au début d’une rencontre. Il est donc nécessaire d’estimer celles-ci, et de nombreux papiers sortent encore régulièrement sur ce point particulier.
Le second sujet de ce billet est, quant à lui, s’inscrit dans l’actualité et est directement en ligne avec les records. Il est naturel de se demander jusqu’où il est possible de pousser les meilleurs temps, points, etc. (de manière générale et par simplicité, nous parlerons ci-après de scores). Il existe, pour chaque sport, de nombreuses analyses physiques (connue sous l’appellation <<science du sport>>) proposant des pistes de recherche. De manière intéressante, il est également possible de fournir quelques réflexions dans le cadre statistique.
La problématique ici a de particulier qu’elle ne cherche pas à comprendre le comportement global des scores (comme la moyenne ou la dispersion), mais s’intéresse uniquement à la valeur maximale théorique. Ces quantités sont particulièrement difficiles à étudier, puisqu’elles sont, par essence, d’une extrême rareté et donc, inobservables. L’étude de ces comportements extrêmes en statistique porte le nom de théorie des valeurs extrêmes (TVE) et s’est établie fin des années 1980. Le papier fondateur de la TVE pour le sport est sans conteste [1]. Les auteurs cherchent à répondre aux deux questions suivantes :
(1) Pour une discipline athlétique, quel est le meilleur temps atteignable ?
Et (2) Quelle est la qualité des records actuels ?
La TVE est une méthode semiparamétrique, en le sens qu’elle contient quelques paramètres d’intérêt, mais ne suppose pas un modèle strict pour les données (comme pourrait l’être le modèle des lois normales par exemple). La quantité cruciale ici est appelée index de queues, ou encore index de valeurs extrêmes. Celui-ci détermine le comportement des extrêmes d’une distribution aléatoire (plus la valeur est élevée, plus les observations extrêmes pourront être grandes). De nombreux estimateurs (le cœur de la recherche dans le domaine) existent et permettent non seulement de déterminer une valeur pour un record << universel >>, mais également avec quelle probabilité ce record peut être atteint dans les bonnes circonstances. Cette seconde quantité répond à la question 2 ci-dessus.
Les détails techniques de la TVE sont peu importants ici et nous terminerons ce billet par deux tableaux permettant de comprendre les apports d’une telle théorie. Ceux-ci sont tirés de [3], une version plus récente de [1], utilisant des données jusque 2017, et prenant en compte la présence de circonstances aléatoires affectant les courses, telles que le vent pour les sauts et courses, etc. La table ci-dessous donne, pour 14 disciplines classiques d’athlétisme, le record ultime estimé tel que proposé par le modèle, l’intervalle de confiance (intervalle dans lequel la vraie valeur à 95 % de chance de se trouver) ainsi que la valeur actuelle du record (tenant compte des données à jour), ainsi que celle prévue par l’article [1]. Comme il est possible de le constater, dans un cas (le marathon masculin), le record actuel est déjà inférieur aux prévisions de [1], utilisant des données de 2005. Les tirets indiquent une impossibilité théorique de calcul par l’estimateur (explicitement, l’intervalle de confiance n’est pas borné).
Certains écarts sont assez importants, d’autres le sont moins. Le marathon homme, par exemple, dispose de 3 minutes d’amélioration potentielle, là où 12 petites secondes séparent le meilleur temps actuel du record ultime dans le pendant féminin. La table suivante cherche à mesurer la probabilité d’amélioration du record actuel. Dans celle-ci, la quantité e-Q désigne la probabilité que, même dans les meilleures circonstances (athlète capable de battre le record, etc.), le record reste le même. Les astérisques désignent les sports pour lesquels le record mondial est resté le même entre les papiers [1] et [3].
Comme intuitivement discuté plus haut, améliorer le marathon féminin sera extrêmement complexe, sa version masculine étant par contre un bon candidat de futur record mondial.
Ce billet n’est qu’une petite fenêtre sur le monde des statistiques sportives. Ce monde est vaste et en perpétuelle exploration. Les avancées récentes en sciences des données et en intelligence artificielle permettent de nouvelles approches, loin des modèles classiques et chaque jour plus précises.
[1] Einmahl, J. H., & Magnus, J. R. (2008). Records in athletics through extreme-value theory. Journal of the American Statistical Association, 103(484), 1382–1391.
[2] Leng et al., X. (2017). Endpoint estimation for observations with normal measurement errors. Submitted.
[3] Paindaveine, D., and Swan, Y. (2011). A stochastic analysis of some two-person sports. Studies in Applied Mathematics, 127, 221-249.