Les classements académiques à l’épreuve des statistiques – Germain VAN BEVER

Par Germain VAN BEVER – Membre de l’équipe We-Search et chercheur en statistiques (ULB)


Notre société actuelle a pris une habitude fâcheuse: celle de devoir classer, comparer, attribuer des notes, des vainqueurs et des vaincus. Je ne suis personnellement pas la personne la plus adéquate pour discuter des pourquois sociétaux ou des comments historiques.Mon métier de statisticien me permet, cependant, d’apporter matière à réflexion sur le bien-fondé de telle ou telle méthode et, surtout, d’adopter un regard critique sur la manière dont les classements sont construits.

Je souhaite m’attarder plus particulièrement ici sur la manière dont les universités sont classées. Cette comparaison est, je le conçois, défendable. Elle permet, par exemple, aux futurs étudiants de choisir une institution de qualité, ou à de futurs doctorants d’interagir avec des chercheurs de renom. De tels rankings (l’anglicisme consacré) permettent également aux gouvernements d’adopter des politiques budgétaires fondées sur des critères “objectifs” (le revers financier de la médaille). Une telle politique d’excellence, de prime aux résultats à l’échelle nationale, a lieu dans de nombreux pays, comme l’Angleterre ou la Belgique, qui distribuent leurs “enveloppes” en fonction d’évaluations de recherche et d’enseignement ayant lieu tous les 5 ans.

Résumer des organismes aussi complexes, mêlant à la fois recherche et enseignement, développements sociétaux et industriels, est cependant une tâche impossible. Tous les classements osant tenter ceci procèdent de la même manière: ils mesurent la qualité des universités à travers un nombre plus ou moins importants de scores, et agrègent ces scores en une seule valeur finale, qui permet alors de comparer les institutions. Deux questions d’importance se posent (et différencient les classements): (i) quelles variables mesurent objectivement la qualité des universités et ce, sans trop de redondance et (ii) comment construire, de ces variables, un score final prenant celles-ci en compte de manière équitable.

La littérature (académique et autre) regorge d’articles critiquant les choix opérés par ces classements. Que ces critiques soient fondées ou non, il est une évidence qui, elle, rend ces décisions cruciales: les universités sont désormais en compétition dans ces rankings, et orientent leurs recrutements, leur recherche, leurs productions afin d’accroître leur score.

Le ranking le plus utilisé à ce jour est l’“Academic Ranking of World Universities” (ARWU) publié annuellement par l’université de Shanghai. À sa sortie (en mars), les journaux font choux gras des changements, et nos quotidiens nationaux n’hésitent pas à commenter les gains et pertes de quelques rangs dans le classement. L’analyse statistique qu’il est possible d’en faire permet cependant de révéler de nombreuses surprises le concernant. Le reste de ce billet est consacré à une brève présentation de celui-ci ainsi qu’à une version édulcorée de l’analyse pouvant être trouvée dans Dehon et al., 2010.

Le classement de Shanghai se fonde sur 6 variables, mesurées sur chacune des 1200 institutions participantes. Ces catégories sont: (1-2) le nombre de membres actuels (et ex-membres) de l’université ayant obtenu un prix Nobel ou une médaille Fields (la plus haute récompense mathématique), (3) le nombre de chercheurs hautement cités (selon la liste publiée par Thomson-Reuters), (4) le nombre d’articles publiés dans les journaux “Science” et “Nature”, (5) le nombre de publications dans les journaux indexés par le Science Citation Index – Expanded et le Social Sciences Citation Index et (6) une mesure agrégée de ces 5 premières variables pondérées par le nombre d’étudiants. Dans chacune des catégories, la meilleure université se voit attribuée une note de 100 points, les autres recevant un score proportionnel. Le score final est une moyenne pondérée (20% pour toutes variables sauf (2) et (6) ne recevant que 10%) de ces 6 notes sur 100.

Une première remarque est la relative absence des sciences humaines (elles sont un peu présentes dans la mesure (5), mais c’est le seul endroit). Ensuite, on remarque la quasi-insensibilité du score à la taille de l’institution: seule la mesure 6, qui ne compte que pour 10% du score final prend en compte la taille de l’université. Enfin, une autre remarque, immédiate lorsque l’on regarde le classement, est la domination d’une poignée d’universités américaines (Harvard, à elle seule, est première dans les 5 premières variables, et 8 universités du Top 10 sont américaines) qui ont toutes un score significativement supérieur au reste des institutions. En ce sens, ces quelques universités “hors-norme” sont, statistiquement parlant, des valeurs aberrantes, un terme consacré signifiant qu’elles ne se comportent pas comme la majorité des observations.

Une première manière d’analyser les variables (1) à (6) collectées est de se demander si celle-ci mesurent effectivement de manière équivalente l’excellence académique. Pour ce faire, les statisticiens utilisent très souvent l’ “analyse en composantes principales”.

Intuitivement, ce type d’analyse se demande quelle(s) combinaison(s) des variables permet d’expliquer au mieux l’hétérogénéité des variables. Plus intéressant encore est le fait qu’il est possible de mesurer quelle proportion de l’information apportée par les variables est capturée par une combinaison donnée. Ainsi, s’il est possible de trouver une combinaison particulière expliquant une proportion de l’information importante, elle pourra remplacer avantageusement l’ensemble des variables. Dans le cas du classement de Shanghai, l’analyse classique montre que la combinaison (où l’on a supprimé la variable (6) qui est redondante)

C=0,44*(1) + 0,42*(2) + 0,48*(3) + 0,5*(4) + 0,3*(5)

est celle qui représente au mieux les variables en recouvrant 68% de l’information qu’elles contiennent. Le fait que cette proportion soit grande, mais également que les coefficients soient bien répartis, est d’ailleurs l’un des arguments de vente du classement ARWU, qui affirme ainsi non seulement capturer correctement l’excellence, mais également de manière égale dans chacune de ses variables.

L’analyse pourrait s’arrêter là, mais elle resterait alors sur un résultat inapproprié car statistiquement biaisé. En effet, comme mentionné plus haut, certaines universités ne se comportent pas comme la majorité et, à elles seules, biaisent l’analyse (dont une des hypothèses est justement le fait qu’il n’y a pas de données aberrantes). L’article mentionné plus haut effectue donc une version robuste de l’analyse en composantes principales, c’est-à-dire une version plus technique mais prenant en compte le fait que toutes les données ne se comportent pas de manière identique. Cette étude révèle qu’une seule combinaison n’est plus appropriée pour expliquer les données, mais que deux sont maintenant nécessaires. En effet, les combinaisons permettent maintenant d’expliquer, respectivement, 39% et 29% de l’information cachée dans les variables.

C1 = 0,03*(1) – 0,04*(2) + 0,87*(3) + 0,85*(4) + 0,7*(5) et

C2 = 0,82*(1) + 0,85*(2) – 0,05*(3) + 0,16*(4) – 0,13*(5)

Les deux grandes conclusions de cette seconde étude sont les suivantes: 1) contrairement à ce que l’université de Shanghai affirme, l’excellence n’est pas mesurée de la même manière par toutes les variables (les coefficients de ces combinaisons sont en effet fort différents) et 2) il est maintenant clair que seuls deux grands “facteurs” déterminent la position dans le classement. La combinaison C1 mesure en effet la production académique (ne faisant intervenir que les variables (3), (4) et (5)), là où C2 mesure les prix attribués aux universités (fondée principalement sur les scores (1) et (2)). À défaut de pouvoir contrôler les prix scientifiques majeurs, la seule technique permettant de gagner des places dans le classement est donc une production accrue d’articles, peu importe leur qualité.

La pression à la publication est une réalité pour les chercheurs. Il est facile de penser que celle-ci est due au petit nombre de places disponibles et donc à la compétition existant entre ceux-ci. De nombreuses voix commencent d’ailleurs à se lever contre cette course à l’excellence. L’Atelier des Chercheurs, un collectif de chercheurs de l’Université libre de Bruxelles, mène, par exemple, une réflexion visant à critiquer cette approche. Leurs réflexions sur la désexcellence peut être trouvée ici.

La réalité de cette quête de l’excellence est peut-être toute autre. Un bon chercheur (lire: un chercheur qui permet de monter dans les rankings) est un chercheur qui publie. Et tant que la réalité des classements restera ce qu’elle est, je ne vois pas comment le recrutement du personnel académique pourrait en être autrement. Changeons les règles, changeons les rankings?

 

Références:

  • Site du classement Shanghai, www.shanghairanking.com
  • Dehon, C., McCathie, A. et Verardi, V. (2010), Uncovering excellence in academic rankings: a closer look at the Shanghai ranking, Scientometrics, 83, 515-524.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *