III. Comment juger de la valeur des interventions?

Introduction : évaluer en fonction de quelles valeurs?

Thomas Delahais, Agathe Devaux-Spatarakis, Anne Revillard et Valéry Ridde

Étymologiquement, évaluer c’est déterminer la valeur. C’est là que les ennuis commencent. En effet, le terme « valeur » est ambigu : la valeur peut désigner, d’une part, le prix d’une chose, « ce qui coûte » — et aussi, d’autre part, l’importance qu’elle revêt — « ce qui compte ». C’est cette seconde définition qui nous intéresse dans cet ouvrage, qu’il s’agisse d’une qualité recherchée, de finalités communes, de principes politiques, éthiques ou moraux, etc., quoiqu’elle ne suffise pas à lever complètement l’ambiguïté. Même en considérant qu’une intervention a de la valeur, on peut vouloir en avoir pour son argent — c’est la logique value for money que l’on retrouve dans les approches d’évaluation économique telles que l’analyse coût-avantage ou coût-efficacité (King, 2017).

Il faut tout de suite écarter l’idée que l’évaluation serait un jugement de valeur, au sens de l’appréciation purement subjective et spontanée d’une situation. Dans tous les cas, l’évaluation s’appuie sur un processus structuré visant à établir des faits relatifs à l’intervention évaluée et à ses conséquences, ces faits permettant la construction progressive d’un jugement. On parle ici d’un jugement sur la valeur, c’est-à-dire selon lequel ces faits sont analysés et interprétés à l’aune de « ce qui compte » dans le contexte de l’évaluation. Évidemment, « ce qui coûte » est aussi une dimension utile, mais dont il ne sera pas question dans cette partie. Le processus d’élaboration du jugement a déjà été présenté en français par Bernard Perret (2012). La discussion porte ici sur la nécessité d’un tel jugement, ainsi que sur la légitimité à le porter, et sur la façon d’établir les valeurs en fonction desquelles juger, en particulier au regard des conflits de valeur et des rapports de domination qui traversent nos sociétés. Ce sont ces différents débats que nous allons explorer.

Fondements : l’évaluation, activité descriptive ou jugement sur la valeur?

L’évaluation comme activité descriptive

Pour tout un courant de pensée, l’évaluation est d’abord considérée comme une activité technique (de structuration, de collecte, d’analyse, etc.) qui vise à poser des hypothèses relatives à une intervention, à les examiner en mobilisant des outils des sciences sociales, et à vérifier ainsi que les résultats sont conformes à ce qui est attendu (e.g. Rossi, Lipsey, et Freeman, 2003). Dans ce processus, les valeurs n’ont pas leur place. Les hypothèses sont basées sur les objectifs affichés d’une intervention, ou bien tirées de théories issues des sciences sociales. L’enjeu est alors d’élaborer la meilleure méthode, la plus rigoureuse, pour les tester.

Ce n’est pas que les soutiens de ce point de vue ne s’intéressent pas à la notion de « bien » ou de « bon », mais plutôt qu’ils et elles considèrent devoir tenir à distance de leurs travaux toute idée de valeur, pour aboutir à une description objective de « ce qui fonctionne » (ou dysfonctionne) : ce travail de description en tant que tel passe par une démarche de mise à distance des valeurs. Seulement, alors, la société pourra choisir les bonnes solutions au service d’une vie meilleure, comme l’exprime Donald Campbell dans son projet de société expérimentale (1969). Mutatis mutandis, telle est la vision que l’on retrouve aujourd’hui dans le courant de la politique basée sur des données probantes (evidence-based policy). C’est en multipliant les évaluations et en agrégeant leurs résultats selon ces principes qu’émergeront les interventions capables de résoudre les problèmes de nos sociétés, plaide Howard White (2019) (texte 1).

… ou une activité de jugement ?

À côté de ce courant s’en dessine un autre avec Michael Scriven (texte 2). Pour lui, justement, ce qui distingue l’évaluation, c’est l’attention portée au jugement. Scriven rappelle que l’évaluation est une activité fondamentale de l’être humain, qui lui permet de se faire un avis et faire des choix. Ce processus, cependant, est largement intériorisé. L’évaluation appliquée aux programmes s’attache, elle, à définir explicitement ce qui est « bien » pour élaborer un jugement, grâce à un ensemble de critères et à un « niveau de performance » (performance standards) à atteindre. Alors seulement intervient la mesure, et pour finir, la production d’un jugement[1].

Le processus qui va des faits à la détermination de la valeur est ce que Michael Scriven appelle logique de l’évaluation. C’est la définition reprise par l’Association américaine d’évaluation : « L’évaluation est le processus par lequel on détermine le mérite, l’intérêt (worth) et l’importance (significance) des choses » (1991). Là, le mérite renvoie aux qualités intrinsèques d’une intervention, l’intérêt à son apport dans un contexte précis, et l’importance à un jugement plus global sur l’intervention combinant mérite et intérêt — le tout constituant sa valeur (value). Pour Scriven, il est possible de déterminer assez facilement quels sont les éléments qui fondent le mérite d’une intervention. Dans une de ses analogies favorites avec l’évaluation de produits par les associations de consommateurs, il dit : « Si vous savez ce qu’est une montre, vous savez que le mérite d’une montre renvoie à son exactitude, sa lisibilité et sa durabilité; et si vous savez cela, vous savez comment (de prime abord) établir des conclusions évaluatives à partir d’éléments factuels sur le mérite comparatif de différentes montres » (Scriven, 1991 : 217).

Dans cette logique, on peut alors vouloir établir un ensemble de critères s’appliquant à toutes les interventions. En 1991, le Comité d’Aide au Développement (CAD) de l’Organisation de Coopération et de Développement Économiques (OCDE) en a dégagé cinq (pertinence, efficacité, efficience, impact et durabilité), qui se sont largement imposés dans le monde du développement[2]. Mais ces cinq-là n’épuisent pas la liste de ceux qui peuvent être appliqués aux interventions évaluées. Daniel L. Stufflebeam, par exemple, propose une liste élargie de valeurs et de critères à prendre en compte dans une évaluation, incluant notamment des valeurs sociétales (l’équité, la liberté, la citoyenneté, mais aussi le respect des lois ou la défense nationale, texte 3). Hassall et coll., de leur côté, identifient cinq grandes catégories de valeurs qui peuvent affecter la détermination de « ce qui compte » ou « ce qui est bien » dans une évaluation : personnelles, sociales, politiques, professionnelles et épistémiques (2020).

Bien entendu, les deux processus, celui qui consiste à décrire et celui qui consiste à juger, ne sont pas antinomiques, ils sont même complémentaires et peuvent être concomitants. Robert Stake explique ainsi que « pour être totalement compris, [une intervention] doit être totalement décrite et totalement jugée » (1977, cité par Gullickson, 2020 : 2). Précisons ici que les deux processus se déroulent simultanément : autrement dit, il ne s’agit pas simplement de bien décrire pour ensuite bien juger. Pour rester dans la logique de l’évaluation de Scriven, il faut d’abord avoir délimité le périmètre d’évaluation, et avoir compris l’intervention afin de s’accorder sur des critères de jugement (« qu’est-ce qui serait bien? ») et des niveaux de performance. La collecte d’information est organisée de façon à vérifier les critères, elle est donc informée par les valeurs; et les jugements portés en fin d’évaluation s’appuient par les éléments descriptifs recueillis.

Controverses : Qui doit définir les critères de jugement?

L’évaluateur/-trice à partir des visions des parties prenantes?

Pour Scriven, si on connaît une chose, on sait comment la juger. Il réfute la nécessité de connaître les valeurs que les uns et les autres attribuent à un objet, y compris à une intervention publique, pour pouvoir l’évaluer (voir texte 2). Cette position devient cependant sujette à contestation dans les années 1970. Comme le dit Robert Stake :

Une œuvre d’art n’a pas une valeur unique. Une intervention n’a pas une valeur unique. Pourtant ils ont tous les deux de la valeur. La valeur d’un programme d’éducation artistique sera différente pour des personnes différentes, selon les usages prévus… S’il y a un consensus sur les valeurs… il doit être découvert. (1975, cité par Abma et Stake, 2001 : 9)

Ce changement de conception ouvre des perspectives nouvelles sur l’évaluation et son rôle. Car alors, s’il n’y a pas « une bonne façon de juger », il faut élaborer un processus visant à faire émerger les valeurs et à les rendre opérationnelles dans le contexte de l’évaluation. Pour Stake, il s’agit d’un processus hybride d’écoute d’une pluralité de parties prenantes, et aussi de respect de la diversité des points de vue. À la fin de ce processus, cependant, comme chez Scriven, c’est encore à l’évaluateur ou à l’évaluatrice de transformer les valeurs en critères de jugement et en niveaux de performance : « Ce qui est mauvais est mauvais et ce qui est bon est bon et c’est le travail des évaluateurs de décider lequel est lequel » (Scriven, 1986, cité par Alkin et Christie, 2004 : 32).

… ou les parties prenantes elles-mêmes?

Or, dans un monde dans lequel l’évaluation est essentiellement une activité de marché (Lemire et coll., 2018 ; et pour la France, Matyjasik, 2010), on peut se poser la question de savoir si ce ne sont pas les commanditaires qui imposent leurs valeurs, à travers leurs objectifs, ou les questions évaluatives posées. C’est la « tendance au managérialisme » que reprochent Egon Guba et Yvonne Lincoln aux évaluateurs et aux évaluatrices des générations précédentes (1989), c’est-à-dire la propension à accorder plus d’importance aux attentes des gestionnaires ou aux financeurs des interventions, au détriment des autres parties.

Certes, Scriven appelle à se détacher des objectifs et à juger de leur pertinence avant d’en faire des critères d’évaluation, mais il n’est pas sûr que les évaluateurs et les évaluatrices aient toujours la hauteur de vue qu’il leur prête, ou d’ailleurs une marge de manœuvre suffisante pour effectuer ce travail de mise à distance. Celles et ceux qui évaluent ont bien sûr des valeurs qui leur sont propres. Mais, sans en être toujours conscient-e-s, n’est-il pas possible que ces valeurs soient les mêmes que celles de leurs commanditaires? Et cela n’affecte-t-il pas leurs jugements? Finalement, même une évaluation dite indépendante, se targuant de « dire la vérité au pouvoir », n’est pas à l’abri de finir par dire « la vérité du pouvoir » (Mathison, 2017).

Une autre approche consisterait alors à aider l’ensemble des parties prenantes à exprimer leurs valeurs, et les aider à formuler un jugement commun. C’est ce que font Guba et Lincoln (texte 4), avec leur évaluation « de 4e génération ». Mais il ne s’agit pas que de participation. Leur approche s’éloigne également de la logique de l’évaluation de Scriven avec ses critères et ses niveaux de performance, pour se rapprocher d’une démarche d’investigation systématique des affirmations des parties prenantes (affirmations empreintes de valeurs) dans une recherche progressive de consensus.

Pour Guba et Lincoln, chacun-e des protagonistes d’une intervention évaluée a sa propre expérience de la réalité, et aucun-e ne peut prétendre à la vérité. Ces « constructions » se reflètent dans les affirmations, les jugements, les enjeux, les points d’attention qu’ils portent a priori sur l’intervention évaluée. Le but de la démarche évaluative est ainsi d’identifier et de réunir toutes les parties prenantes de l’intervention, puis de collecter ces constructions et de s’accorder sur celles qui seront testées lors de l’évaluation. Dans ce processus, les désaccords sont au cœur de la démarche. Ils sont portés au centre de l’attention, font l’objet d’une collecte d’information et d’un processus de négociation ad hoc : dès qu’une affirmation est consensuelle, elle est acquise, et l’évaluation se concentre sur les points conflictuels suivants. En ce sens, une évaluation constructiviste ne se termine jamais, elle est mise en sommeil jusqu’au moment où une nouvelle occasion favorable se produit.

L’approche qui est décrite ici est particulièrement exigeante et il est peu d’exemples de sa mise en œuvre (Lay et Papadopoulos, 2007). Mais elle trace la voie pour des évaluations prenant sérieusement en compte les parties prenantes et leurs valeurs, comme l’ont montré Donna Mertens et Jennifer Greene. Cette dernière s’inscrit dans l’héritage de l’évaluation démocratique délibérative de Ernst House et Kenneth Howe (1999), mais en accordant une place essentielle à la détermination des valeurs des parties prenantes et à leur participation dans ce processus. Elle en donne à voir la dimension très pratique, dans un texte sur l’évaluation « engagée dans les valeurs » (2005) (texte 5).

Perspectives : en défense de valeurs spécifiques?

À l’affirmation, fermement établie dans les années 1990, que l’évaluation peut difficilement être neutre en ce qui concerne les valeurs, on peut donc répondre en explicitant les valeurs des un-e-s et des autres. On peut toutefois déplorer qu’il soit souvent difficile d’inclure toute la variété des points de vue dans une évaluation. À reconnaître une multiplicité de valeurs, on risque aussi de mettre toutes les perspectives au même niveau. Faut-il dès lors privilégier certaines valeurs en particulier, ou bien évaluer en fonction de valeurs transcendant celles qui sont exprimées dans les politiques publiques ou dans les points de vue de chaque partie prenante prise séparément?

L’évaluation au service des valeurs des dominé-e-s

Ernest House a très tôt montré la voie dans la première approche en s’inspirant de la théorie de la justice sociale de John Rawls. Pour Rawls, les inégalités ne peuvent être acceptées dans une société que si elles permettent d’améliorer la situation des plus désavantagé-e-s. C’est ce qu’applique House à l’évaluation. Pour lui, les évaluateurs et les évaluatrices ont une responsabilité morale à considérer les conséquences de leur activité pour la société dans son ensemble, et en particulier pour les publics marginalisés (Christie et Alkin, 2008). Il les enjoint ainsi à réfléchir à leurs propres valeurs et à celles qu’ils et elles veulent soutenir dans leur activité. Il est pour lui acceptable de donner plus d’importance aux valeurs des personnes qui n’ont jamais voix au chapitre si cela permet d’améliorer leur situation. De même, les évaluateurs et les évaluatrices ont un rôle à jouer pour s’opposer au culte du rapport coût-efficacité ou à d’autres théories affectant les plus pauvres (House, 2004). Au bout du compte, il ne s’agit plus de penser en termes de bon ou de mauvais, comme le faisait Scriven, mais en termes de right, fair or just : ce qui est approprié, équitable ou correct.

C’est cette même logique que suivent globalement les évaluateurs et les évaluatrices transformationnel-le-s, dans la foulée de Jennifer Greene et de Donna Mertens. L’évaluation féministe est un exemple d’approche transformationnelle. Elle exprime clairement ses valeurs, assume l’idée que les rapports de genre mènent à des situations d’injustice sociale, et propose d’utiliser le prisme du genre pour repérer et expliquer comment les injustices se produisent et sont maintenues ou renforcées par les interventions évaluées. Sur ce sujet nous renvoyons à l’article en français de Donna Podems : Rendre l’évaluation féministe praticable (2018).

L’évaluation féministe amène l’équipe d’évaluation et les parties prenantes impliquées dans l’évaluation à s’interroger sur leurs propres valeurs implicites. Il en est de même pour l’évaluation attentive aux différences culturelles (culturally responsive evaluation, CRE). La CRE part du principe que les évaluations sont inscrites dans une culture et que « des valeurs et des croyances liées à la culture sont au cœur de tout effort évaluatif » (Hood, Hopson, et Kirkhart, 2015 : 283), avec une attention toute particulière portée aux groupes sociaux ou racisés qui ont été ou sont encore marginalisés. L’évaluation attentive à la culture interroge la façon dont une intervention respecte la culture des groupes concernés dans ses intentions, ses hypothèses sous-jacentes et son fonctionnement. L’évaluation indigène (texte 6) va au bout de cette logique en amenant des systèmes de valeurs complètement différents de ceux des pays du Nord. Par exemple, l’Ubuntu appelle à prendre en compte les interactions dans la communauté comme une composante de l’identité, ou encore les conséquences de nos actes sur le vivant et le non vivant (Chilisa et al., 2016). Que serait une évaluation prenant pleinement en compte ces valeurs? Avec, à terme, la question : faut-il que seules des personnes autochtones puissent mener des évaluations en contexte autochtone? (Wehipeihana, 2019).

Prendre en compte des valeurs supérieures?

Pour finir, un autre point de vue consisterait à embrasser un ensemble de valeurs jugées supérieures. House traçait déjà cette voie en appelant à évaluer les interventions en termes de justice sociale. Dans son sillage, un mouvement s’est constitué pour généraliser le recours à l’équité comme critère d’évaluation. En France, les approches d’utilité sociale (Offredi et Ravoux, 2010) placent au premier plan des valeurs telles que la solidarité, le bien-être individuel et social, le lien social, les biens publics, la cohésion sociale et la reconnaissance. Plus récemment des approches visant à réaffirmer le rôle de l’évaluation en soutien à l’intérêt général (Picciotto 2015), ou à assurer un futur durable à l’humanité à l’ère de l’anthropocène se sont fait jour (Blue Marble Evaluation, Patton, 2020). Le recours à ces valeurs supérieures donne du sens au processus évaluatif — mais il est aussi dans certains cas un moyen de dialoguer sur ce qui compte. En effet, pour faire du bien-être, par exemple, un critère d’évaluation, encore faut-il s’accorder sur ce qu’il recouvre, ce qui rend nécessaire un processus de dialogue et de délibération (Offredi et Laffut, 2013). Le recours à des valeurs supérieures comme critères d’évaluation est ainsi une façon de réaffirmer la dimension politique de l’évaluation.

Bibliographie

Abma, Tineke A., et Robert E. Stake. 2001. « Stake’s Responsive Evaluation: Core Ideas and Evolution ». New Directions for Evaluation 2001(92) : 7. doi : 10.1002/ev.31.

Alkin, M. C., et Christina A. Christie. 2004. « An evaluation theory tree ». in Evaluation Roots. Thousand Oaks: Sage.

Campbell, Donald T. 1969. « Reforms as experiments ». American Psychologist 24(4) : 409‑29. doi: https://doi.org/10.1037/h0027982.

Chilisa, Bagele, Thenjiwe Emily Major, Michael Gaotlhobogwe et Hildah Mokgolodi. 2016. « Decolonizing and Indigenizing Evaluation Practice in Africa : Toward African Relational Evaluation Approaches ». Canadian Journal of Program Evaluation 30(3) : 313‑28. doi: 10.3138/cjpe.30.3.05.

Christie, Christina A., et Marvin C. Alkin. 2008. « Evaluation Theory Tree Re-Examined ». Studies in Educational Evaluation 34(3) : 131‑35. doi : 10.1016/j.stueduc.2008.07.001.

Greene, Jennifer C. 2005. « A Value-Engaged Approach for Evaluating the Bunche-Da Vinci Learning Academy ». New Directions for Evaluation 2005(106) : 27‑45. doi : 10.1002/ev.150.

Guba, Egon G., et Yvonna S. Lincoln. 1989. Fourth Generation Evaluation. SAGE Publications Ltd.

Gullickson, Amy M. 2020. « The Whole Elephant: Defining Evaluation ». Evaluation and Program Planning 79 : 101787. doi : 10.1016/j.evalprogplan.2020.101787.

Hassall, Keryn, Amy M. Gullickson, Ayesha S. Boyce et Kelly Hannum. 2020. « Editorial ». Evaluation Journal of Australasia 20(2) : 63‑67. doi : https://doi.org/10.1177/1035719X20931250.

Hood, Stafford, Rodney K. Hopson et Karen E. Kirkhart. 2015. « Culturally responsive evaluation ». Handbook of practical program evaluation 281.

House, Ernest, et Kenneth R. Howe. 1999. Values in Evaluation and Social Research. SAGE Publications.

House, Ernest R. 2004. « The Role of the Evaluator in a Political World ». Canadian Journal of Program Evaluation 19(2) : 16.

King, Julian. 2017. « Using Economic Methods Evaluatively ». American Journal of Evaluation 38(1) : 101‑13. doi : 10.1177/1098214016641211.

Lay, Margaret, et Irena Papadopoulos. 2007. « An Exploration of Fourth Generation Evaluation in Practice ». Evaluation 13(4) : 495‑504. doi : 10.1177/1356389007082135.

Lemire, Sebastian, Steffen Bohni Nielsen et Christina A. Christie. 2018. « Toward Understanding the Evaluation Market and Its Industry-Advancing a Research Agenda ». New Directions for Evaluation 2018(160) : 145‑63. doi : 10.1002/ev.20339.

Mathison, Sandra. 2018 [2017]. « Does Evaluation Contribute to the Public Good? ». Evaluation 24(1) : 113‑19.

Matyjasik, Nicolas. 2010. « L’évaluation des politiques publiques dans une France décentralisée. Institutions, marché et professionnels ». Université de Bordeaux; Université Montesquieu-Bordeaux IV; Institut d’études politiques de Bordeaux; SPIRIT.

Offredi, Claudine, et Michel Laffut. 2013. « Le bien-être peut-il être un critère d’évaluation de l’action publique ? » Revue française d’administration publique (148) : 1003‑16.

Offredi, Claudine, et Françoise Ravoux. 2010. La notion d’utilité sociale au défi de son identité dans l’évaluation des politiques publiques. Paris : L’Harmattan.

Patton, Michael Quinn. 2020. Blue marble evaluation: premises and principles. New York: The Guilford Press.

Perret, Bernard. 2012. « La construction d’un jugement ». in V. Ridde et C. Dagenais. Approches et pratiques en évaluation de programmes. Les Presses de l’Université de Montréal, p. 53‑70.

Picciotto, Robert. 2015. « Democratic Evaluation for the 21st Century ». Evaluation 21(2) : 150‑66. doi : 10.1177/1356389015577511.

Podems, Donna. 2018. « Rendre l’évaluation féministe praticable ». eVALUation Matters.

Rossi, Peter H., Mark W. Lipsey et Howard E. Freeman. 2003. Evaluation: a systematic approach. 7th ed. Thousand Oaks, CA: Sage.

Scriven, Michael. 1991. Evaluation thesaurus. 4th ed. Newbury Park, Calif: Sage Publications.

Wehipeihana, Nan. 2019. « Increasing Cultural Competence in Support of Indigenous-Led Evaluation: A Necessary Step toward Indigenous-Led Evaluation ». Canadian Journal of Program Evaluation 34(2). doi : 10.3138/cjpe.68444.

White, Howard. 2019. « The Twenty-First Century Experimenting Society: The Four Waves of the Evidence Revolution ». Palgrave Communications 5(1) : 47. doi : 10.1057/s41599-019-0253-6.


  1. Nous renvoyons sur ce processus de formation du jugement au texte de Bernard Perret, en français, « Construire un jugement » (2012).
  2. En 2019, un critère de cohérence a été ajouté et les définitions ont été revues. Voir sur le site de l’OCDE : https://www.oecd.org/fr/cad/evaluation/criteres-cad-evaluation.htm

Licence

Symbole de License Creative Commons Attribution - Partage dans les mêmes conditions 4.0 International

Introduction : évaluer en fonction de quelles valeurs? Droit d'auteur © 2021 par Thomas Delahais, Agathe Devaux-Spatarakis, Anne Revillard et Valéry Ridde est sous licence License Creative Commons Attribution - Partage dans les mêmes conditions 4.0 International, sauf indication contraire.

Partagez ce livre