Esther Duflo a prouvé que ça marche. Pourquoi l'Éducation nationale ne s'en sert toujours pas ?

En 2019, Esther Duflo a reçu le prix Nobel d'économie. Elle l'a obtenu pour avoir importé en sciences sociales une méthode qui paraissait évidente — et qui ne l'était pourtant pas du tout, à l'époque : évaluer rigoureusement, par essai randomisé contrôlé, l'effet réel des politiques publiques. Pour la formation des enseignants. Pour la distribution de moustiquaires anti-paludisme. Pour les programmes de soutien scolaire. Pour à peu près tout.

A.Daguenet

6/4/2026

Le résultat de vingt ans de travaux du J-PAL — le laboratoire qu'elle a cofondé — est, sur le plan méthodologique, indiscutable : il existe une famille de méthodes (essais randomisés contrôlés, différences-en-différences, contrôles synthétiques, méthodes quasi-expérimentales) qui permettent d'établir avec une rigueur scientifique réelle ce qui marche, ce qui ne marche pas, et dans quelle proportion. Ces méthodes ne sont pas optionnelles. Elles sont, dans tous les pays qui les adoptent, l'ossature de la décision publique éclairée.

La France, en 2026, ne les utilise quasiment pas en matière de politique éducative. Et c'est précisément l'angle mort de tout le déploiement actuel de l'IA à l'école.

Pourquoi l'évaluation rigoureuse change tout

Sans évaluation rigoureuse, on ne peut pas dire grand-chose. On peut observer que les notes montent ou baissent — mais on ne sait pas si c'est dû au dispositif testé, à un effet de cohorte, à un changement de programme, à une dérive de notation. On peut interroger les enseignants sur leur perception — mais la perception n'est pas la mesure objective des effets. On peut publier des rapports qualitatifs — mais ils restent vulnérables au biais de confirmation.

Avec une évaluation rigoureuse, en revanche, on peut affirmer des choses précises : « le dispositif X produit un gain moyen de Y points sur l'indicateur Z, avec un intervalle de confiance de plus ou moins W, sur une population N ». C'est ce niveau de précision qui permet d'orienter intelligemment l'argent public, de calibrer les politiques, de comparer les options, d'arbitrer entre des dépenses concurrentes.

Le rendement scientifique de l'évaluation rigoureuse est, dans tous les pays qui s'y sont sérieusement engagés (États-Unis, Royaume-Uni, Pays-Bas, Allemagne dans une moindre mesure), un multiple massif de son coût. Pourtant, en France, son adoption progresse à un rythme désespérément lent. On dépense des milliards en politiques éducatives non évaluées rigoureusement, et l'on cherche ensuite à comprendre pourquoi nos résultats PISA stagnent.

Le cas particulièrement frappant de l'IA scolaire

L'IA générative déployée en milieu scolaire est précisément le type de sujet où l'évaluation rigoureuse serait à la fois la plus utile (forte incertitude initiale sur les effets) et la plus facile à conduire (population scolaire bien identifiée, indicateurs standardisés existants, possibilité de comparaison transversale et longitudinale).

Le ministère pourrait, sans difficulté méthodologique majeure, organiser des essais randomisés contrôlés sur les principaux dispositifs IA déployés : MIA Seconde, futurs déploiements primaires, modules IA-mathématiques, modules IA-langues. Le coût serait marginal — quelques pour cent du budget de chaque dispositif. Le gain scientifique serait majeur : on saurait, à la sortie de ces évaluations, quels dispositifs prolonger, généraliser, ajuster ou abandonner.

Au lieu de cela, le ministère a choisi de déployer sans évaluation contrefactuelle. C'est, pour tout chercheur en sciences sociales, un crève-cœur. Pour le contribuable, c'est un gaspillage potentiellement massif. Pour les élèves, c'est l'absence durable de garantie sur ce qu'on leur fait subir.

Ce que la cellule d'évaluation devrait être

Le rapport Nexus propose la création d'une cellule d'évaluation rigoureuse au sein du ministère, dont le mandat serait précisément cantonné aux dispositifs IA scolaires. Sa composition idéale : trois statisticiens-évaluateurs de profil J-PAL ou IFS (Institute for Fiscal Studies britannique), deux inspecteurs généraux pour l'ancrage institutionnel, deux chercheurs CSEN pour la validation scientifique, deux représentants des corps enseignants pour le réalisme opérationnel. Budget annuel récurrent : 4 à 7 millions d'euros. Mandat : produire annuellement entre 6 et 10 évaluations rigoureuses publiées.

Cette cellule devrait avoir un pouvoir de blocage opérationnel : aucun déploiement IA à grande échelle (au-delà de 50 000 élèves) ne devrait pouvoir s'engager sans validation préalable du protocole d'évaluation. C'est une innovation institutionnelle qui modifierait en profondeur la culture décisionnelle du ministère. Elle ne se fera pas spontanément. Elle suppose une volonté politique explicite — et probablement une intervention législative.

Et si l'on se trompait ?

Cette thèse serait à reconsidérer si l'on démontrait empiriquement qu'un déploiement à grande échelle sans évaluation contrefactuelle préalable produit des résultats équivalents à un déploiement avec évaluation. Aucune étude n'établit cela. Elle serait également à nuancer si les RCT en éducation produisaient des biais structurels rendant leurs résultats peu fiables — possibilité réelle mais largement traitée par les progrès méthodologiques de la dernière décennie.

L'évaluation rigoureuse n'est pas un luxe scientifique. C'est la condition de toute décision publique éclairée dans un domaine où l'incertitude initiale est élevée. L'IA à l'école française est exactement ce type de domaine. Continuer à déployer sans évaluer n'est pas un choix neutre. C'est un choix politique, et c'est un choix coûteux. Esther Duflo a publié ses premiers travaux il y a vingt ans. Il est temps que l'Éducation nationale s'en empare.

Nexus

Think tank associatif fondé en 2026. Analyses rigoureuses sur les transformations de la société française et européenne. Association loi 1901.

Gouvernance

Président : L. Candotti
Vice-Président : A. Daguenet
Trésorier : K. Leygue

Fait pour le débat public