IV. L’évaluation est-elle une science?

8. La science de l’évaluation

Michael Q. Patton

[Traduit de : Patton, Michael Quinn. 2018. « Evaluation Science ». American Journal of Evaluation 39(2) : 183–200. Traduction par Carine Gazier et Anne Revillard; traduction et reproduction du texte avec l’autorisation de Sage Publications.]

 

[Interrogé sur les raisons de sa participation à la Marche pour la Science de 2017, Michael Patton avait spontanément répondu : « Je suis un scientifique en évaluation. Je fais de la science de l’évaluation ». Cette anecdote sert de point de départ à une réflexion sur l’importance de revendiquer le statut scientifique de l’évaluation dans un contexte d’attaques politiques contre la démarche scientifique.]

Tant la science en général que l’évaluation en particulier sont des processus fondés sur des données factuelles, dont les conclusions sont tirées d’enquêtes systématiques visant à comprendre et à expliquer le fonctionnement de certains aspects du monde. De nos jours, la crédibilité des preuves scientifiques fait l’objet de nombreuses attaques. Coupable par association, c’est aussi la crédibilité des preuves en évaluation qui s’en trouve atteinte. Défendre la valeur des preuves scientifiques, c’est donc aussi défendre la valeur des preuves en évaluation. Il est de notre intérêt, en tant qu’évaluateurs et évaluatrices, de faire cause commune avec celles et ceux qui soutiennent la science. Les barbares antisciences ne sont pas seulement à nos portes, ils et elles sont entré-e-s et ont pris le contrôle du château. C’est le constat qui a motivé la Marche pour la Science. […] Sur les plans culturel et politique, les tendances antiscientifiques comprennent les « faits alternatifs », les « fausses nouvelles » et l’idée d’un monde « post-vérité ». En novembre 2016, les Dictionnaires Oxford ont annoncé la post-vérité comme le mot international de l’année, en en proposant la définition suivante : « Se rapporte ou dénote les circonstances dans lesquelles des faits objectifs influencent moins l’opinion publique que les appels à l’émotion et aux convictions personnelles ».

[…] Dans une culture politique post-vérité, la science devient une perspective comme une autre. Les preuves scientifiques ne valent alors pas plus que l’opinion personnelle. Des groupes politiques de différentes appartenances ne se contentent plus de prôner des valeurs, mais promulguent leurs propres « faits ». La distinction entre la preuve et l’opinion se brouille. Par extension, cela a un effet corrosif sur l’évaluation et la délégitime. Les conclusions de l’évaluation ne deviennent qu’un autre type d’opinion. La vérité (Blackburn, 2005), qu’il s’agisse de la découvrir ou de l’exprimer, est dévalorisée et contestée.

Au-delà des affirmations selon lesquelles le changement climatique est un canular et des doutes sur la sécurité des vaccins, les tendances antiscientifiques induisent des réductions budgétaires pour la recherche scientifique, y compris des organismes comme les Instituts nationaux de la santé et l’Agence de protection de l’environnement.

La science de l’évaluation

[…] Le Conseil de la Science (Science Council) définit la science comme « la poursuite et l’application des connaissances et de la compréhension du monde naturel et social selon une méthodologie systématique fondée sur des preuves »[1]. Les données et les preuves sont également au fondement de la pratique de l’évaluation. […]

Une définition de la science de l’évaluation

[…] La science consiste à étudier de façon systématique comment le monde fonctionne. La science de l’évaluation consiste à étudier de façon systématique comment, et avec quel succès, des interventions visant à changer le monde fonctionnent. La science de l’évaluation implique une investigation systématique sur le mérite, la valeur, l’utilité et l’importance de tout ce qui est évalué, en se conformant à des normes scientifiques qui comprennent l’utilisation de la logique, l’utilisation de méthodes transparentes, la soumission des résultats à une vérification, ainsi que la fourniture de preuves et de justifications explicites à l’appui de l’interprétation, de l’établissement de la valeur et du jugement. […]

La science de l’évaluation en tant que corpus disciplinaire de connaissances

Les différentes disciplines scientifiques se distinguent par les questions générales qu’elles posent et par le corpus de connaissances qui se développe en réponse à ces questions. L’évaluation en tant que spécialisation scientifique pose les questions suivantes : Quels sont les facteurs qui contribuent à la réussite ou à l’échec des interventions? Quelles méthodes permettent de les déterminer? Quels sont les critères de jugement de la réussite ou de l’échec? Les interventions sont tout effort, programme, projet, initiative, produit, politique, organisation ou développement communautaire, ou toute activité visant à susciter le changement. Une évaluatrice ou un évaluateur expert-e sait comment procéder à l’évaluation d’une intervention particulière dans un contexte particulier et dans un but précis. En tant que spécialiste dans la discipline de l’évaluation, un évaluateur ou une évaluatrice compétent-e contribue et a accès à un corpus de connaissances sur les façons d’étudier et de juger les interventions, et sur les façons d’appliquer les connaissances pour concevoir et améliorer celles-ci, sur la base de modèles de réussite validés à la fois empiriquement et théoriquement par les évaluations de nombreuses autres interventions. C’est parce que l’évaluation est devenue un réservoir de connaissances sur l’efficacité que nous sommes consultés sur la manière de concevoir, de planifier et de mettre en œuvre de nouvelles interventions, et pas seulement pour les évaluer une fois qu’elles sont mises en œuvre.

Dans leur classique Foundations of Program Evaluation: Theories of Practice [Fondements de l’évaluation des programmes : Théories de la pratique], Shadish, Cook et Leviton (1991) ont examiné l’évaluation en tant que spécialité méthodologique et en tant que pratique professionnelle, mais c’est bien la théorie de l’évaluation, rendue cohérente par un corpus de connaissances validées, qui a fait de l’évaluation une discipline scientifique.

Les évaluateurs et évaluatrices de programmes développent progressivement un ensemble unique de connaissances qui distingue l’évaluation des autres spécialités tout en justifiant de les compter parmi celles-ci. L’évaluation est diverse à bien des égards, mais son potentiel d’unité intellectuelle est « la logique de l’évaluation », ce qui pourrait permettre de surmonter les frontières disciplinaires qui séparent les évaluateurs (p.31).

[…] Michael Scriven, philosophe et penseur pionnier de l’évaluation, distingue quatre critères permettant de reconnaître une discipline scientifique :

  1. Un sujet distinct
  2. Des méthodes spécifiques relatives à l’étude de ce sujet
  3. Un domaine d’application important, et
  4. L’obtention de résultats contribuant à une amélioration sociale et intellectuelle substantielle

Il estime que l’évaluation répond à tous ces critères (Scriven, 2004 : 186). […] Scriven a été le premier à considérer l’évaluation comme la science de l’attribution de la valeur (Shadish et al., 1991 : 74). Selon ses termes, « une grande partie de mes premiers travaux en évaluation avait pour enjeu de contrer diverses tentatives visant à marginaliser l’évaluation en la renvoyant dans la catégorie de l’aide à la décision, par opposition à la démarche de la « vraie science » recherchant la vérité » (Scriven, 2004 : 188). Pour Scriven, l’évaluation est sans aucun doute « scientifiquement légitime… L’essentiel… est qu’un évaluateur ou une évaluatrice de programme compétent-e puisse démontrer scientifiquement, par exemple, qu’un programme d’enseignement de la lecture est vraiment excellent ou vraiment sans valeur » (Scriven, 2013 : 171).

Ici, comme pour le statut professionnel de l’évaluation, les universitaires débattront entre eux de la question de savoir si, et dans quelle mesure, l’évaluation est une discipline scientifique. Se disputer sur les définitions et les limites, c’est ce que font les universitaires, et j’ai eu ma part de plaisir à le faire. Mais, dans le monde extérieur, lorsque je parle d’évaluation, je proclame, j’affirme et je célèbre sans réserve le statut disciplinaire de l’évaluation en tant que corpus de connaissances scientifiques disposant de ses propres fondements théoriques. Nos revues évaluées par des pairs réunissent, évaluent et diffusent cet ensemble de connaissances. La nature et la profondeur de notre statut disciplinaire peuvent faire l’objet d’un débat universitaire, mais le fait que nous disposons d’un réservoir de théories et de connaissances scientifiques devrait, selon moi, faire partie de notre personnalité et de notre identité publique vis-à-vis du monde entier.

La science de l’évaluation en tant que transdiscipline

Plus récemment, Scriven (2008) a envisagé et préconisé avec éloquence et force de positionner l’évaluation comme la transdiscipline alpha : en tant que transdiscipline, l’évaluation est au sommet de la hiérarchie disciplinaire, scientifique, académique et scientifique, avec la philosophie, la logique et la statistique, comme corpus de connaissances, de théories et de méthodes qui sont essentiels à l’érudition, à la création de connaissances et à la rigueur scientifique de toutes les autres disciplines. […] Scriven n’aspire pas à ce que l’évaluation devienne davantage une science, car il a longtemps critiqué le fait que de nombreuses pratiques scientifiques négligent l’importance du jugement (Scriven, 1976). Sa démarche consiste plutôt à mettre la science au défi de devenir plus évaluative. […]

Autres fondements de l’évaluation en tant que science

Le livre de Stewart Donaldson (2007) sur Program Theory-Driven Evaluation Science [Une science de l’évaluation basée sur la théorie des programmes] a défini le terme comme suit :

La science de l’évaluation (plutôt que l’évaluation) vise à mettre en exergue l’utilisation de méthodes scientifiques rigoureuses (c’est-à-dire des méthodes qualitatives, quantitatives et mixtes) pour tenter de répondre à des questions valorisées dans le domaine de l’évaluation. Dans la pratique de l’évaluation, il est particulièrement important d’avoir recours à des méthodes scientifiques systématiques pour surmonter la réputation négative de la profession dans certains contextes. En d’autres termes, dans certains contextes, l’évaluation est critiquée pour son manque de fiabilité, sa mollesse ou son caractère de second ordre. L’expression science de l’évaluation indique l’accent mis sur le principe directeur de l’enquête systématique (Guiding principles for evaluators, 2004) et sur les normes exigeantes d’exactitude ((Joint Committee on Standards for Educational Evaluation, 1994), p.11, mis en exergue dans l’original).

Le livre de Donaldson fournit des conseils importants pour la pratique de la science de l’évaluation, en mettant particulièrement en avant la théorie du programme comme élément central de cette pratique. Il a commencé à utiliser délibérément la terminologie « science de l’évaluation » lorsqu’il a constaté que l’évaluation était traitée comme une science de second ordre dans les milieux universitaires. Depuis qu’il se réfère à ce qu’il fait comme science de l’évaluation, il rapporte avoir gagné en crédibilité auprès des scientifiques avec lesquels il interagit dans les sciences sociales et comportementales (Donaldson, 2017). Le problème ici est autant notre identité que notre pratique.

Implications, préoccupations et mises en garde

Le scientisme et la « méthode scientifique »

La recherche scientifique ne se limite pas à une définition étroite de la méthode scientifique. De même, la science de l’évaluation n’est pas réductible à, définie par, ou limitée à certaines méthodes privilégiées. […] Il est courant de juger si l’évaluation peut être considérée comme une science en mettant en avant un critère de rigueur, mais à partir d’une définition restrictive de la rigueur comme synonyme de l’usage de méthodes expérimentales traitant de façon scientiste les questions de la causalité, de la réplication et de la généralisation. Pourtant, une littérature considérable, s’appuyant sur les travaux fondateurs de Cronbach, démontre qu’une science rigoureuse implique bien plus que des méthodes expérimentales et que l’évaluation peut et doit employer une variété de méthodes adaptées à la situation. Dans un article de l’Encyclopedia of Evaluation [Encyclopédie de l’évaluation] (Mathison, 2005) perspicace sur les débats méthodologiques en matière d’évaluation, les éminents praticiens et méthodologistes de l’évaluation Jennifer Greene et Gary Henry (2005) ont conclu :

Si les normes relatives à ce qui constitue une preuve légitime pertinente pour les décisions politiques et la poursuite des programmes sont trop restrictives, excluant toutes autres preuves que celles issues d’expérimentations aléatoires à grande échelle, nous n’obtiendrons que des informations très limitées sur un très petit nombre de programmes…. Un exemple typique est la pression actuelle du gouvernement fédéral en faveur des « preuves scientifiquement fondées », qui favorise particulièrement les preuves expérimentales. Cela conduira à laisser de côté l’analyse des contextes, les récits de programmes, les commentaires de participants tirés d’études de cas, d’entretiens approfondis, de sondages ou d’autres méthodes. Cela aura aussi pour effet de faire taire les voix des nombreuses parties prenantes du programme qui peuvent et doivent être entendues. Nous, évaluatrices et évaluateurs quantitatifs et qualitatifs, devrions nous unir pour éviter que l’absence de preuves répondant à certaines normes étroites ne devienne un permis d’adopter des actions fondées uniquement sur l’idéologie ou sur une rhétorique sans borne (p.350; pour une meilleure lisibilité, les deux premières phrases ont été inversées dans cet extrait).

Des critères scientifiques étroits pour autoriser des actions entièrement fondées sur l’idéologie ou la force d’une rhétorique sans borne? Ils n’auraient guère pu être plus clairvoyants. L’argument antiscience est essentiellement scientifique : il n’y a pas de preuve scientifique absolue et définitive que le tabagisme provoque le cancer, ou que les vaccinations ne provoquent pas l’autisme, ou que les humains sont à l’origine du changement climatique, ou que le racisme est associé aux meurtres de la police, ou…, ou…, ou… Comme antidote au scientisme étroit, Greene et Henry (2005) appellent la communauté des évaluatrices et évaluateurs à :

s’unir dans notre engagement à mettre en œuvre et faire connaître notre acceptation durement acquise de multiples méthodes et de multiples façons de savoir, à revendiquer la contribution des sciences sociales aux politiques publiques et aux programmes sociaux et à recentrer le débat sur les valeurs plutôt que sur la méthode. Nous pourrons ainsi réorienter notre expertise et notre énergie collectives en évaluation au service de l’amélioration sociale démocratique et de la justice sociale. (p.350)

Ainsi, je tiens à préciser que l’affirmation du statut scientifique de l’évaluation n’a pas pour but de préconiser une conception étroite de la rigueur méthodologique. Comme le montrent les écrits sur la science de l’évaluation de Donaldson (2007) et de Pawson (2013), sans parler de Patton (Patton 2008, 2012, 2015), la science de l’évaluation est éclectique, pluraliste et mixte sur le plan des méthodes. La rigueur réside dans le raisonnement plus que dans les méthodes. […]

Des pratiques non scientifiques de l’évaluation

Certaines activités liées à l’évaluation – comme le monitoring de routine, le feedback axé sur l’amélioration des apprentissages, les checklists et les rapports d’activité, ainsi que les évaluations exclusives non publiées – peuvent ne pas répondre aux critères de la recherche scientifique. Ces pratiques sont toutefois des applications de la science de l’évaluation. Elles se fondent sur les méthodes et les connaissances de l’évaluation, et les appliquent. Une perspective parallèle met l’accent sur la nature technologique de la médecine. Dans son ouvrage History of Medicine [Histoire de la médecine], Jacalyn Duffin (2010) affirme que « la médecine n’est pas une science mais plutôt une technologie appliquée, ou un art, qui fait largement usage de la science » (p.65).

La production de connaissances en matière d’évaluation et l’élaboration de théories et de méthodes peuvent donc être considérées comme une science de l’évaluation, tandis que l’application des connaissances, des théories et des méthodes d’évaluation peut être considérée comme une technologie de l’évaluation. Les deux désignations positionnent l’évaluation comme plus qu’une fonction administrative, de gestion, de conformité et de reddition de comptes. Les évaluations qui sont conçues de façon mécanique et mises en œuvre sans discernement pour répondre à un mandat de conformité ne sont ni de la science ni de la technologie. C’est ce que Peter Drucker (1959) a qualifié de « travailleurs du savoir » qui produisent des rapports plutôt que des produits manufacturés.

Éviter l’élitisme scientifique

[…] Certains considèrent les scientifiques comme élitistes, arrogants et distants. Bien sûr, certains considèrent les évaluateurs de la même manière. Pratiquer la science de l’évaluation peut ainsi apparaître comme une double dose d’élitisme. Nous nous sommes efforcés de rendre l’évaluation compréhensible, pratique, accessible et utile. Nous nous efforçons également de rendre l’évaluation diverse et inclusive. Les enseignements que nous avons tirés de ces efforts peuvent nous aider à communiquer au sujet de la science de l’évaluation et de sa pratique, notamment « en cherchant à faire entendre les voix inaudibles de la science » (Olmstead, 2017). Stewart Donaldson a expliqué dans un webinaire sur la science de l’évaluation que, s’il estime que le positionnement de l’évaluation comme science renforce la crédibilité dans le milieu universitaire, il évite cette étiquette lorsqu’il travaille avec des non-universitaires dans les écoles et les communautés.

Une science de l’évaluation par les citoyen-ne-s

[…] Une façon d’éviter l’élitisme scientifique est de promouvoir une science de l’évaluation citoyenne. J’ai récemment demandé à un groupe que j’animais s’ils préféraient être connus comme des intervenants en évaluation ou des scientifiques de l’évaluation citoyenne. La question a suscité une discussion animée et s’est conclue par une volonté d’essayer le nouveau nom. Les approches collaboratives et participatives en évaluation peuvent devenir des approches collaboratives et participatives en science de l’évaluation. […]

Une science de l’évaluation attentive aux valeurs

« Science sans conscience n’est que ruine de l’âme » (Montaigne, Les Essais, 1580-88).

On s’est inquiété du fait que la science, et donc par incidence, la science de l’évaluation, exclue ou marginalise les préoccupations en matière de justice sociale. La Marche pour la Science a ainsi été critiquée comme étant raciste et sexiste.

Au cours des trois derniers mois, la communauté scientifique, qui est en grande partie blanche, hétérosexuelle, cisgenre, valide et masculine, a débattu avec acharnement de la nature politique de la Marche face au régime de Trump, laissant les scientifiques de milieux marginalisés se sentir… encore plus marginalisés. En réponse, les scientifiques qui s’identifient comme femmes, handicapés, queer, trans, personnes de couleur, etc. ont convergé autour du hashtag #MarginSci pour prendre à parti leurs collègues racistes et sexistes. (Ama Mantey, 2017)

Cette critique fait qu’il est essentiel d’examiner si faire de la justice sociale une priorité scientifique et un objet d’évaluation scientifique pourrait accroître l’attention et la compréhension du rôle du savoir et de la science dans la promotion de la justice sociale et dans la lutte contre le racisme et le sexisme. Pour un argument scientifique à l’appui de la justice sociale, voir le Qualitative Manifesto (Denzin, 2010). Bien qu’il soit axé sur l’enquête qualitative, son argument fondamental en faveur de la science à l’appui du changement sociétal et de la justice sociale est généralement applicable.

[…] La science de l’évaluation peut et doit intégrer une dimension morale. Parler de science de l’évaluation ne doit pas conduire à renforcer une approche technoscientifique étroite. La science de l’évaluation doit se préoccuper à la fois de bien faire les choses et de faire des choses bonnes. L’appel de Tom Schwandt (2004) à un discours moral dans l’évaluation et l’appel de Scriven à une infusion éthique comme troisième révolution de l’évaluation prennent une importance particulière dans un monde où les forces idéologiques antiscientifiques menacent de saper à la fois la moralité et l’éthique.

Science de l’évaluation, vérité et qualité

La mission souvent revendiquée de l’évaluation à dire la vérité au pouvoir prend une acuité particulière à l’ère de la post-vérité, et s’élargit pour inclure le fait de dire la vérité au grand public. La crédibilité de la science pour rechercher et dire la vérité dépend du contrôle de la qualité. Ni la science, ni les scientifiques, ne sont intrinsèquement bons. La « mauvaise science » (Goldacre 2009) n’est que trop courante et doit être exposée et corrigée pour maintenir l’intégrité scientifique. […]

Conclusion

Si nous voulons que l’évaluation soit reconnue comme une branche de la science parmi d’autres, nous devons commencer par reconnaître notre fondement scientifique. Si nous voulons obtenir un soutien pour financer l’évaluation, nous ferions bien de faire cause commune pour le financement de toutes les branches de la science, qu’elles soient fondamentales ou appliquées. Si nous devons jouer notre rôle dans la lutte contre les attitudes et les actions antiscientifiques, qui sont par nature aussi des attitudes et des actions anti-évaluation, alors nous ferions bien de faire cause commune avec d’autres scientifiques.

Revendiquer l’évaluation comme science renforce notre crédibilité, notre responsabilité, notre capacité, notre utilité et notre efficacité, tout en communiquant notre rôle de façon plus claire et crédible à celles et ceux qui apprécient la science mais qui n’ont pas pensé à l’évaluation en tant qu’activité scientifique. Le positionnement de l’évaluation en tant que science peut aussi avoir des conséquences sur la façon dont nous sommes perçu-e-s, traité-e-s, et situé-e-s dans les établissements universitaires, les organismes gouvernementaux, ainsi que par les bailleurs de fonds et les utilisateurs et utilisatrices de l’évaluation. […]

Bibliographie

Ama Mantey, Jane. « #MarginSci: The March for Science as a Microcosm of Liberal Racism », The Root, 20 avril 2017. En ligne : https://www.theroot.com/marginsci-the-march-for-science-as-a-microcosm-of-lib-1794463442

Blackburn, Simon. 2005. Truth: A guide. New York: Oxford University press.

Denzin, Norman K. 2010. The Qualitative Manifesto. London: Routledge.

Donaldson, Stewart I. 2007. Program theory-driven evaluation science: Strategies and applications. Mahwah: Lawrence Erlbaum.

Donaldson, Stewart I. 2017. « Evaluation science ». Présenté à AEA eStudy webinar.

Drucker, Peter F. 1959. The landmarks of tomorrow. New York: Harper and Row.

Duffin, Jacalyn. 2010. History of medicine. 2e éd. Toronto: University of Toronto Press.

Goldacre, Ben. 2009. Bad science. London: Fourth Estate.

Greene, Jennifer C., et Gary T. Henry. 2005. « Qualitative-quantitative debate in evaluation ». in Encyclopedia of evaluation, édité par S. Mathison. Thousand Oaks: Sage Publications, p. 345‑50.

Joint Committee on Standards for Educational Evaluation. 1994. The program evaluation standards: How to assess evaluations of educational programs. 2e éd. Thousand Oaks: Sage Publications.

Mathison, Sandra, éd. 2005. Encyclopedia of evaluation. Thousand Oaks: Sage Publications.

Olmstead, Molly. 2017. « Seeking the unheard voices of science: How science journalists consider diversity when finding sources ».

Patton, Michael Q. 2008. Utilization-focused evaluation. 4e éd. Los Angeles: Sage Publications.

Patton, Michael Q. 2012. Essentials of utilization-focused evaluation. Los Angeles: Sage Publications.

Patton, Michael Q. 2015. Qualitative research & evaluation methods. 4e éd. Los Angeles: Sage Publications.

Pawson, Ray. 2013. The science of evaluation: A realist manifesto. London: Sage Publications.

Schwandt, Peter. 2004. Evaluation practice reconsidered. New York: Peter Lang.

Scriven, Michael. 1976. Reasoning. New York: McGraw-Hill.

Scriven, Michael. 2004. « Reflections ». in Evaluation roots: Tracing theorists’ views and influence, édité par M. C. Alkin. Thousand Oaks: Sage Publications, p. 183‑95.

Scriven, Michael. 2008. « The concept of a transdiscipline:  And of evaluation as a transdiscipline ». Journal of Multidisciplinary Evaluation, 5(10) : 65‑66.

Scriven, Michael. 2013. « Conceptual resolutions and evaluation: Past, present, and future ». in Evaluation roots, édité par M. C. Alkin. Los Angeles: Sage Publications, p. 167‑79.

Shadish, William R., Thomas D. Cook et Laura C. Leviton. 1991. Foundations of program evaluation: Theories of practice. Newberry Park: Sage Publications.


  1. http://sciencecouncil.org/about-us/our-definition-of-science/.

Licence

Symbole de License Creative Commons Attribution - Partage dans les mêmes conditions 4.0 International

8. La science de l’évaluation Droit d'auteur © 2021 par Michael Q. Patton est sous licence License Creative Commons Attribution - Partage dans les mêmes conditions 4.0 International, sauf indication contraire.

Partagez ce livre