IV. L’évaluation est-elle une science?
Introduction : l’évaluation est-elle une science?
Anne Revillard, Thomas Delahais, Agathe Devaux-Spatarakis et Valéry Ridde
En quoi l’évaluation relève-t-elle de la science, et si c’est le cas, que lui apporte-t-elle? Le Grand Robert de la langue française définit la science comme un « ensemble de connaissances, d’études d’une valeur universelle, caractérisées par un objet et une méthode déterminés, et fondées sur des relations objectives vérifiables ». Bien que les définitions fassent débat, la démarche scientifique inclut généralement les notions de quête d’objectivité dans la production des savoirs (et à cet effet, l’utilisation systématique de méthodes en vue d’établir des faits sur la base de preuves empiriques), et d’aspiration à la généralisation (portée générale ou « universelle » des savoirs, plutôt que spécifique). L’évaluation s’est historiquement définie comme une pratique de science sociale appliquée, utilisant les méthodes de différentes sciences sociales, au service d’une analyse des enjeux et des conséquences des politiques publiques.
Ainsi entendue, elle relève essentiellement de la démarche scientifique par ses méthodes; son caractère « appliqué », en revanche, soulève des questions quant à sa capacité de généralisation : l’évaluation n’a-t-elle vocation qu’à répondre à des questions ad hoc, ou à produire des connaissances plus générales? La question de la montée en généralité est en réalité aussi présente en évaluation, que ce soit par des entrées méthodologiques (réflexion sur la « validité externe » des résultats d’une expérimentation par exemple), ou par une tentative de théorisation d’un apport spécifique de la démarche d’évaluation comme formation d’un jugement sur la valeur. Cet apport, défendu par Michael Scriven, justifie selon lui de concevoir l’évaluation comme une « méta-discipline », dont la contribution est transversale par rapport aux autres disciplines scientifiques (Coryn et Hattie, 2007; Scriven, 1993).
Cette qualification disciplinaire révèle une autre dimension, plus institutionnelle, de la réflexion sur l’évaluation comme science. Au-delà de la caractérisation de la démarche (en quoi l’évaluation correspond-elle à ce que l’on peut attendre d’une science?), la discussion sur l’évaluation comme science révèle des enjeux relatifs à l’organisation de la production des savoirs : si l’évaluation est une science, doit-elle être considérée comme une discipline à part entière, bien distincte des autres, ou bien comme une pratique transversale? Indépendamment de cette dimension normative, quelle est la réalité de son inscription dans le champ universitaire de la production des savoirs?
À cet égard, le constat est celui d’une double marginalité : marginalité de l’évaluation dans le champ universitaire (du fait d’une difficulté à s’implanter comme trans-, méta- ou inter-discipline), mais aussi marginalité des acteurs et actrices universitaires dans le champ de l’évaluation. Comme le souligne Michael Patton par exemple, lorsqu’il établit un parallèle avec la médecine, en plus de l’évaluation comme science, celle-ci existe aussi comme technologie, comme pratique (Patton, 2018 : 12). Cette pratique concerne tout d’abord nombre d’actrices et d’acteurs en dehors du champ académique : consultantes et consultants dans le secteur privé, administrations, associations, etc. À cet égard, la question de savoir si l’évaluation est une science n’est pas un débat qui intéresse tou-te-s les évaluatrices et évaluateurs, mais en priorité celles et ceux du le monde académique, pour qui cet enjeu est important. Beaucoup d’autres seront plus attentives et attentifs à l’utilisation de l’évaluation qu’à son fondement scientifique (voir partie Utilité). Le monde académique, auquel s’intéresse cette partie, ne représente qu’un aspect d’un ensemble plus complexe des modalités d’institutionnalisation des pratiques d’évaluation (Jacob, Speer, et Furubo, 2015). En outre, les différents mondes de l’évaluation communiquent, ce qui contribue à enrichir l’évaluation comme science : comme nous l’avons souligné au début de cette partie, l’évaluation a beaucoup pris appui sur les apports de différentes sciences sociales, et réciproquement, sa dimension appliquée et ancrée dans l’action a permis d’introduire en recherche des questionnements habituellement plus périphériques, notamment sur la place des valeurs et du jugement (voir partie Valeurs), et sur l’utilité des savoirs produits (voir partie Utilité).
Enfin, parallèlement aux enjeux épistémologiques et institutionnels, la revendication de l’évaluation comme science soulève aussi des enjeux d’opportunité et d’affichage. Le label scientifique peut ainsi être revendiqué ou mis à distance, en fonction des connotations qu’on lui associe. Dans le champ de l’évaluation, ce label est parfois utilisé, avec des connotations positives ou négatives, pour désigner l’évaluation fondée sur un certain type de méthode, les méthodes expérimentales, ou plus généralement les approches quantitatives. Dans les années 1990 en France par exemple, les tenantes et tenants de l’évaluation « pluraliste » tendaient ainsi à opposer la démarche d’implication des parties prenantes à des approches « positivistes » accusées de scientisme, dans une mise à distance de la science réduisant implicitement cette dernière a un certain type d’épistémologie et de méthodes (usage peu réflexif des méthodes quantitatives). La participation était alors mise en avant, contre la démarche consistant à fonder l’évaluation sur des méthodes scientifiques (Nioche, 2014). Plus récemment, alors que les méthodes expérimentales connaissent depuis quelques années un regain d’intérêt, on observe une tendance, chez certaines actrices et acteurs publics, à assimiler évaluation scientifique et évaluation quantitative, approche à laquelle on juge parfois nécessaire d’apporter un supplément d’âme en la combinant avec un dispositif consultatif ou participatif permettant de recueillir le point de vue des citoyennes et citoyens sur la politique étudiée.
Dans les deux cas, il en résulte une vision très appauvrie de la recherche évaluative, opposant le supposé scientisme des essais randomisés – là où Donald Campbell, Thomas Cook, Lee Cronbach ou William Shadish, par exemple, ont une conception beaucoup plus fine et mesurée de la portée des méthodes expérimentales (Cronbach, 1987; Shadish, Cook, et Campbell, 2002), à une alternative de participation ou de consultation des parties prenantes en dehors de tout protocole scientifique, alors que les démarches de science participative montrent que la production scientifique et la participation peuvent en réalité être combinées de façon très fructueuse (Houllier et Merilhou-Goudard, 2016). Comme nous le verrons dans la partie consacrée aux approches paradigmatiques, la recherche évaluative, envisagée comme science, recouvre en réalité une diversité d’approches et de techniques d’investigation empirique (cf partie Paradigmes). La revendication de scientificité ne doit donc surtout pas être prise comme un choix méthodologique; elle englobe une grande variété de méthodes et de points de vue. Il importe toutefois de prendre acte des connotations possibles de la notion de « science » et des usages dont elle peut par conséquent faire l’objet dans le champ de l’évaluation.
Fondements : mobiliser la science pour l’évaluation
Comme nous le verrons au début de cette partie (texte 1, Shadish, Cook et Leviton), c’est dans le contexte de l’essor des politiques sociales sous la présidence Johnson aux États-Unis dans les années 1960 (« Great society »), notamment en réponse aux critiques conservatrices adressées à ces politiques, et sous l’effet d’une obligation légale d’évaluation, que se sont développées des évaluations prenant de plus en plus appui sur les méthodes de sciences sociales et revendiquant l’emploi d’une démarche scientifique. D’emblée, les compétences disciplinaires mobilisées sont diverses : psychologie, santé, éducation, sociologie, économie, etc. Par-delà cette diversité, ces évaluations ont en commun leur attachement à une démarche d’investigation empirique. Shadish et al. (1991) mettent en évidence la façon dont la massification de l’enseignement supérieur en sciences sociales est venue, à la même époque, rendre cette expertise disponible pour alimenter le vivier d’une nouvelle profession de l’évaluation. L’autrice et les auteurs montrent comment cette profession s’est graduellement structurée avec ses revues, ses sociétés savantes, et la revendication graduelle d’une commune « logique de l’évaluation » (selon les termes de Scriven) par-delà l’extrême diversité des pratiques.
Le texte de Suchman (texte 2) illustre une des premières mises en forme de la conception de l’évaluation comme pratique scientifique, en distinguant la « recherche évaluative » de l’évaluation plus subjective du sens commun (le simple fait de porter un jugement sur quelque chose). On retrouve la notion de « recherche évaluative » chez de nombreuses autres figures fondatrices du champ de l’évaluation, par exemple Donald Campbell, Peter Rossi et Carol Weiss. Selon ces autrices et auteurs, la dimension scientifique de l’évaluation repose sur la systématicité des méthodes utilisées, empruntées à d’autres sciences sociales : pour elles et eux, c’est parce que l’évaluation mobilise ces méthodes qu’elle peut être considérée comme une science.
Simultanément, et comme le développe également Suchman, l’évaluation se distingue des autres sciences par son caractère appliqué, qui induit des contraintes et des préoccupations spécifiques. À la différence de la recherche fondamentale, la recherche évaluative (qu’il s’agisse par exemple de son questionnement, de son objet, des critères utilisés et des délais de réalisation) est soumise des contraintes externes au champ scientifique. La dimension appliquée de la recherche appelle aussi une préoccupation plus marquée vis-à-vis de l’utilité des savoirs produits : comme le souligne Suchman, l’évaluateur ou l’évaluatrice ne peut pas se satisfaire de l’idée selon laquelle « l’opération a été un succès même si le patient est décédé ».
Enfin, une plus forte imbrication de la recherche appliquée dans des logiques d’action induit, pour Suchman, un rapport différent, plus interventionniste, à l’objet de recherche. Alors que la recherche fondamentale se contente le plus souvent d’observer, de mesurer et de comprendre le réel, la recherche évaluative le manipule en modifiant les interventions existantes pour mettre en place des dispositifs de type expérimental permettant d’en tester l’efficacité. Bien qu’en pratique, les recherches évaluatives ne se réduisent pas à des dispositifs de type expérimental, lesquels se sont par ailleurs diffusés au sein d’autres disciplines (par exemple la psychologie ou l’économie), la démarche d’évaluation a bien joué un rôle central dans l’essor de la pratique expérimentale, en rupture avec l’hypothèse partagée par différents courants fondateurs des sciences sociales définissant celles-ci comme des sciences de l’observation à la différence justement des sciences expérimentales impliquant une manipulation du réel – voir par exemple à ce sujet les réflexions de Durkheim sur l’utilisation de la comparaison comme substitut à l’expérimentation, dans une approche partageant par ailleurs la même épistémologie relative à l’imputation causale[1].
Le texte de Sandra Mathison (texte 3) sur la distinction entre recherche et évaluation permet de dresser un bilan des représentations couramment associées à cette vision de l’évaluation comme science appliquée plutôt que fondamentale (particularisation vs généralisation, recherche orientée vers l’action vs recherche comme fin en soi…), tout en soulignant la porosité de ces frontières (voir également sur ce point Levin-Rozalis, 2003). Mathison insiste par ailleurs sur l’apport méthodologique propre de l’évaluation, qui a été à l’origine de pratiques de recherche innovantes caractérisées par l’attention particulière accordée au point de vue des parties prenantes du programme étudié.
Pour résumer, dans ce premier mouvement de théorisation de l’évaluation comme science, la revendication de scientificité de l’évaluation repose essentiellement sur les méthodes. Les modalités de développement de cette recherche évaluative portent en germe deux sources de fragilité pour l’institutionnalisation de l’évaluation en tant que discipline scientifique. La première est l’interdisciplinarité (la recherche évaluative puise dans des compétences disciplinaires très diverses) : épistémologiquement féconde, cette dernière est institutionnellement périlleuse dans un fonctionnement universitaire qui reste très marqué par une organisation en silos disciplinaires. D’autre part le caractère appliqué de l’évaluation, tout en étant source d’innovation théorique, induit une fragilité potentielle dans un contexte académique de valorisation de l’autonomie et du caractère autofinalisé de la science (la science comme fin en soi, et non comme moyen pour l’action).
Controverses : l’évaluation, une science à part?
Dans un texte datant de 1990, Gary Cox (texte 4) confirme cette difficulté d’institutionnalisation de l’évaluation dans le monde universitaire. Il note que l’évaluation à l’Université n’existe que comme pratique marginale de chercheurs et chercheuses dont la légitimité scientifique s’est construite sur d’autres bases (thématiques, méthodologiques). Il en résulte une difficulté à faire progresser les théories en évaluation dans la mesure où les dimensions institutionnelles et scientifiques sont en interaction. De fait, encore aujourd’hui, alors que l’évaluation dispose de ses revues, colloques et associations professionnelles (mêlant praticien-ne-s et chercheur-e-s), la recherche évaluative reste le plus souvent pratiquée dans le cadre (et souvent en marge) de disciplines universitaires instituées (éducation, santé, économie, urbanisme, etc.), plutôt que dans les départements dédiés à l’évaluation de programmes.
La difficulté, selon Scriven (texte 5), réside dans une méconnaissance ou un défaut de reconnaissance de l’apport propre de l’évaluation, apport qui justifie de la considérer comme une métadiscipline. Pour lui, cet apport ne réside pas tant dans l’appui sur des méthodes systématiques (qui diffèrent peu des méthodes utilisées par les différentes disciplines), mais bien plutôt dans une science du jugement, de la détermination de la valeur. Notant que les scientifiques ont tendance à mettre à distance la question des valeurs, il défend leur réintégration au cœur de l’activité scientifique, et l’apport fondamental de l’évaluation à cet égard. Cette réappropriation de la dimension des valeurs donne à la personne qui évalue un rôle plus actif que dans la représentation précédente d’une science sociale appliquée qui se contenterait d’appliquer les critères d’évaluation fixés par un commanditaire. L’évaluatrice ou l’évaluateur, selon Scriven, doit assumer une responsabilité dans le choix des critères d’évaluation, en mettant au premier plan non pas les demandes du ou de la commanditaire, mais les besoins et les droits des personnes visées par le programme évalué – responsabilité dont il souligne la dimension politique (cf partie Valeurs).
La caractérisation de l’évaluation comme métadiscipline amène également Scriven à insister sur la parenté de démarche entre l’évaluation de programme et les processus d’évaluation relevant de tout autre domaine, tel que l’évaluation de produits. À l’inverse de Shadish et al. (texte 1) qui insistent sur les spécificités de l’évaluation des programmes sociaux par comparaison avec les démarches d’évaluation pratiquées dans le secteur privé, Scriven met l’accent sur les similitudes de raisonnement d’un secteur à l’autre.
Perspectives : quelle(s) science(s) de l’évaluation pour demain?
Si elle a soulevé d’importants enjeux épistémologiques, la réflexion ouverte par Scriven sur l’évaluation comme métadiscipline n’en a pas moins eu des retombées institutionnelles très limitées dans le champ universitaire. En pratique, l’évaluation y existe très peu en tant que discipline séparée, et les chercheuses et chercheurs se revendiquant d’une démarche de recherche évaluative le font le plus souvent à partir de leurs disciplines d’appartenance. La question de l’ancrage et du développement institutionnels de l’évaluation dans le monde académique reste encore largement ouverte. Elle impose, en pratique, de réfléchir sur les modalités d’organisation d’une recherche qui reste interdisciplinaire bien plus que métadisciplinaire. C’est ce à quoi nous engage le texte de Steve Jacob (texte 6), invitant à l’hybridation des disciplines.
Dans un texte récent, Dana Wanzer apporte un utile complément à cette réflexion en schématisant les façons les plus courantes de penser les rapports entre recherche et évaluation, du continuum à l’imbrication mutuelle, en passant par l’idée d’un recoupement partiel (texte 7).
Enfin, à l’époque contemporaine, le questionnement sur l’évaluation comme science prend une tonalité particulière dans un contexte politique où la démarche scientifique, au sens le plus basique de l’établissement de faits objectifs, fait l’objet de vives attaques politiques. Dans un contexte marqué par le scientoscepticisme et l’essor des fake news, il devient plus important que jamais de réaffirmer l’intérêt d’ancrer l’évaluation dans une démarche d’investigation empirique systématique. C’est justement en marge d’une manifestation de défense de la science que Patton (texte 8) a proposé de parler de « science de l’évaluation » : « La science consiste à étudier de façon systématique comment le monde fonctionne. La science de l’évaluation consiste à étudier de façon systématique comment, et avec quel succès, des interventions visant à changer le monde fonctionnent » (Patton 2018 : 2). Patton met simultanément en garde contre le risque de renforcer de ce fait une conception restrictive de la science (qui en pratique, se limiterait à l’expérimentation contrôlée de grande échelle). Défendre l’évaluation comme science, pour lui, c’est aussi défendre une conception pluraliste et multi-méthode de la pratique scientifique.
La réflexion sur l’évaluation comme science, et l’ensemble des textes traduits sont mis en perspective par Yves Gingras (UQAM), à l’aune de son expertise en histoire et sociologie des sciences, et notamment de son expérience de directeur scientifique de l’Observatoire des Sciences et des Technologies (OST) au Canada. Sa discussion incisive permet de poser à nouveau la question de la définition des sciences et du positionnement de l’évaluation. Faisant le lien entre les dimensions institutionnelles et épistémologiques de la réflexion que nous proposons, il souligne en quoi l’institutionnalisation de l’évaluation dans le champ universitaire favorise un discours de « scientifisation », parfois à distance de l’enjeu des usages de l’évaluation (cf partie Utilité).
Bibliographie
Coryn, Chris, et John Hattie. 2007. « The Transdisciplinary Model of Evaluation ». Journal of Multidisciplinary Evaluation.
Cronbach, Lee J. 1987. Designing evaluations of educational and social programs. San Francisco: Jossey-Bass Publishers.
Durkheim, Émile. 2010. Les règles de la méthode sociologique. Paris : Flammarion – Champs classiques.
Houllier, François, et Jean-Baptiste Merilhou-Goudard. 2016. Les sciences participatives en France : état des lieux, bonnes pratiques et recommandations. Paris : MESRI.
Jacob, Steve, Sandra Speer et Jan Eric Furubo. 2015. « The institutionalization of evaluation matters: Updating the International Atlas of Evaluation 10 years later ». Evaluation 21(1) : 6‑31. doi : 10.1177/1356389014564248.
Levin-Rozalis, Miri. 2003. « Evaluation and research, differences and similarities ». The Canadian Journal of Evaluation 18(2) : 1‑31.
Nioche, Jean-Pierre. 2014. « L’évaluation des politiques publiques et la gestion en France : un rendez-vous manqué? » Revue française de gestion (8) : 71‑84.
Patton, Michael Quinn. 2018. « Evaluation Science ». American Journal of Evaluation 39(2) : 183‑200. doi : 10.1177/1098214018763121.
Scriven, Michael. 1993. « Hard-Won Lessons in Program Evaluation. » New Directions for Program Evaluation (58).
Shadish, William R., Thomas D. Cook et Donald T. Campbell. 2002. Experimental and Quasi-Experimental Designs for Generalized Causal Inference. Boston: Wadsworth Publishing.
- « Nous n’avons qu'un moyen de démontrer qu’un phénomène est cause d’un autre, c’est de comparer les cas où ils sont simultanément présents ou absents et de chercher si les variations qu’ils présentent dans ces différentes combinaisons de circonstances témoignent que l’un dépend de l’autre. Quand ils peuvent être artificiellement produits au gré de l'observateur, la méthode est l'expérimentation proprement dite. Quand, au contraire, la production des faits n'est pas à notre disposition et que nous ne pouvons que les rapprocher tels qu'ils se sont spontanément produits, la méthode que l’on emploie est celle de l’expérimentation indirecte ou méthode comparative. (…) Puisque (…) les phénomènes sociaux échappent évidemment à l’action de l’opérateur, la méthode comparative est la seule qui convienne à la sociologie. » (Durkheim, 2010). ↵