IV. L’évaluation est-elle une science?

3. Des différences entre l’évaluation et la recherche, et de leur importance

Sandra Mathison

[Traduit de : Mathison, Sandra. 2008. « What Is the Difference between Evaluation and Research-and, Why Do We Care? » in Fundamental Issues in Evaluation, edited by N. Smith and P. Brandon. (extraits p.188-195). Traduction par Carine Gazier et Anne Revillard; traduction et reproduction du texte avec l’autorisation de Guilford Publications.]

 

La question des différences entre l’évaluation et la recherche découle du constat que l’évaluation, en tant que discipline, s’appuie sur d’autres disciplines pour ses fondements, et en particulier sur les sciences sociales pour ses méthodes. Au fil de l’évolution de l’évaluation en tant que discipline et en tant que profession, cette question est parfois posée pour clarifier ce qui la distingue. Cette délimitation d’une profession d’évaluation est également liée à une discussion sur qui évalue et qui peut évaluer. Quelles connaissances et compétences l’évaluation exige-t-elle, et en quoi diffèrent-elles de celles des chercheurs en sciences sociales? […]

Pourquoi se soucier de cette distinction?

La pratique de l’évaluation est ancienne, mais l’évaluation en tant que discipline et en tant que profession est assez récente. En effet, l’évaluation en tant que profession et la clarification concomitante de ses contours en tant que discipline ne datent que de quatre ou cinq décennies. Cette nouveauté induit une certaine hésitation lorsqu’il s’agit de caractériser ce que nous faisons lorsque nous disons faire de l’évaluation (et non de la recherche), et un effort d’explicitation des principes fondamentaux de l’évaluation (qui la distinguent de la recherche). Les disciplines sont des domaines d’études ayant leur propre logique et qui impliquent diverses théories permettant d’étudier ces domaines. La discipline de l’évaluation se caractérise par une logique particulière (Fournier, 1995; Scriven, 1999) et par des sous-théories, notamment relatives à l’attribution de la valeur, à la pratique, à la prescription et à l’utilisation. (Pour une discussion plus complète de ces sous-théories qui constituent la discipline de l’évaluation, voir (Mathison, 2004b) […] On pourrait imaginer que des questions telles que « Quelle est la différence entre les statistiques (une discipline plus récente) et les mathématiques (une discipline plus établie)? » ont aussi été posées à l’époque où la discipline des statistiques est peu à peu venue s’ajouter aux usages plus communs des probabilités. La question de la différence entre l’évaluation et la recherche pousse de façon productive les théoricien-ne-s et les praticien-ne-s de l’évaluation à réfléchir et à décrire les fondements de leur discipline, d’abord par comparaison avec la recherche en sciences sociales, mais aussi de plus en plus dans le cadre d’une exploration analytique de l’évaluation en tant que telle. […]

L’incapacité des méthodes de recherche en sciences sociales à répondre à elles seules aux questions sur la valeur des programmes a entraîné une croissance considérable de l’évaluation en tant que discipline distincte. […] La question des différences entre l’évaluation et la recherche renvoie aussi aux connaissances et aux compétences dont ont besoin les évaluateurs, et notamment à la question de savoir s’il existe des domaines de connaissances et de compétences qui leur sont spécifiques. La connaissance et la maîtrise des méthodes de recherche en sciences sociales sont utiles, mais elles ne suffisent pas, que ce soit sur le plan du répertoire méthodologique ou du type de connaissances et de compétences nécessaires en matière d’évaluation. Scriven suggère que les évaluatrices et les évaluateurs doivent également savoir comment rechercher les effets non anticipés et adjacents, comment déterminer la valeur en fonction de différents points de vue, comment traiter les questions et les valeurs controversées et comment faire la synthèse des faits et des valeurs (Coffman, 2003).

Bien qu’il y ait de plus en plus de programmes d’études supérieures pour former les futurs évaluatrices et évaluateurs, il n’en demeure pas moins que de nombreuses personnes en viennent à ce métier par des chemins détournés, souvent avec une connaissance des méthodes et des statistiques des sciences sociales, mais relativement peu de maîtrise des domaines de connaissances décrits par Scriven. Dans ces conditions, il est naturel que cette question continue de se poser, alors que de plus en plus d’évaluatrices et d’évaluateurs novices font leurs premiers pas dans une profession qui exige qu’elles et ils acquièrent des connaissances et des compétences supplémentaires.

Quelles sont les différences entre l’évaluation et la recherche?

Bien que l’on entende parfois que l’évaluation ne diffère pas de la recherche, en particulier de la recherche appliquée en sciences sociales, et bien que les deux démarches soient effectivement liées, les évaluateurs revendiquent une différence. Parce que l’évaluation exige l’étude de ce qui est, elle exige de faire de la recherche. La détermination de la valeur ou du mérite d’un sujet évalué nécessite une certaine connaissance factuelle dudit sujet, voire même de sujets similaires. Toutefois, l’évaluation exige plus que des faits sur le sujet évalué. […] L’évaluation exige également la synthèse des faits et des valeurs dans la détermination du mérite et de la valeur. En revanche, la recherche examine les connaissances factuelles, mais ne fait pas nécessairement intervenir les valeurs et n’inclut donc pas nécessairement un processus d’évaluation.

Même si la recherche et l’évaluation sont liées entre elles, on tente souvent de trouver une manière de les distinguer. Par exemple, certain‑ne‑s considèrent la recherche comme un sous-ensemble de l’évaluation; d’autres considèrent l’évaluation comme un sous-ensemble de la recherche; d’autres encore considèrent l’évaluation et la recherche comme les deux extrêmes d’un continuum; et certains, enfin, considèrent l’évaluation et la recherche comme un diagramme de Venn avec un recoupement partiel entre les deux. Évaluation et recherche sont le plus souvent comparées du point de vue des objectifs de chacune (c’est-à-dire le résultat anticipé de la recherche ou de l’évaluation), des méthodes d’enquête utilisées et des critères selon lesquels on juge de leur qualité.

L’objet de l’évaluation et de la recherche

La liste ci-dessous illustre la pléthore des critères souvent utilisés pour distinguer l’évaluation de la recherche.

  • L’évaluation s’intéresse au cas particulier; la recherche vise la généralisation.
  • L’évaluation vise à améliorer les choses, tandis que la recherche a pour but de prouver quelque chose.
  • L’évaluation fournit un appui à la prise de décision; la recherche sert de base pour tirer des conclusions.
  • Évaluation – et maintenant? La recherche… Qu’en est-il?
  • Évaluation – à quel point cela fonctionne? La recherche – comment cela fonctionne?
  • L’évaluation porte sur la valeur; la recherche, sur ce qui est.

Ces tentatives de distinction directe entre l’évaluation et la recherche sont problématiques, car elles caricaturent les deux afin de mettre en évidence des différences claires. […]

Prenons, par exemple, la distinction fréquente entre généralisation et particularisation – ni l’une ni l’autre démarche ne suffisant à résumer la recherche ni l’évaluation. Bien que l’évaluation s’intéresse foncièrement au cas particulier en ce sens qu’elle se concentre sur un sujet évalué, ses résultats peuvent néanmoins donner lieu à des montées en généralité, et le font souvent. Le traité de Cronbach (1982) sur la conception des évaluations traitait spécifiquement de la question de la validité externe ou de la généralisation des résultats. Le type de généralisation décrit par Cronbach n’était pas une affirmation sur une population fondée sur un échantillon, mais plutôt une revendication de connaissance fondée sur le constat de similitudes entre UTOM (unités, traitements, observations, milieux). Cela suggère qu’une personne externe à cette évaluation, mais dans un contexte similaire à celui du sujet évalué, pourrait tirer la même conclusion que l’évaluateur. […]

Réciproquement, la recherche ne vise pas nécessairement ni principalement la généralisation. Une analyse historique des causes de la Révolution française, une ethnographie des Minangkabaus, ou une étude écologique des îles Galápagos ne sont pas forcément réalisées dans le but de généraliser les résultats à toutes les révolutions, à toutes les cultures matriarcales ou à tous les écosystèmes autonomes. […]

Une autre distinction fréquente consiste à affirmer que l’évaluation vise la prise de décision, tandis que la recherche vise à établir ou confirmer une conclusion. Mais l’évaluation ne vise pas nécessairement la prise de décision ou l’action. Elle peut aussi être un but en soi, sans être conçue comme le préalable à une décision, à un changement ou à une amélioration. […] La discipline de l’évaluation distingue clairement les conclusions évaluatives des recommandations. Bien que logiquement liées, ces deux activités constituent en fait des formes de raisonnement distinctes.

Inversement, certaines formes de recherche en sciences sociales sont étroitement liées à l’action ou à la recherche de solutions aux problèmes sociaux. Par exemple, diverses formes de recherche-action visent à atténuer les problèmes, à prendre des mesures, à déterminer ce qui est valorisé et ce qui ne l’est pas, et à œuvrer en faveur d’une réalité plus conforme à ces valeurs. […]

Certes, le lien entre la recherche en sciences sociales et l’action, y compris la prise de décision, peut être moins étroit que pour l’évaluation. Une grande partie de la recherche en sciences sociales aspire à influencer les politiques et les pratiques, mais le fait souvent de manière indirecte et par l’accumulation de connaissances issues de la recherche – ce qui pourrait être considéré comme une influence au niveau macro. En pratique, les résultats d’une étude singulière sont généralement considérés comme insuffisants pour servir directement de base à une décision ou un plan d’action : ils fournissent un tableau incomplet. Toutefois, les spécialistes des sciences sociales espèrent que les études qu’ils mènent influeront sur la prise de décision en sensibilisant les décideurs à un enjeu, en contribuant à un ensemble de recherches qui, dans leur cumulativité, contribuent à éclairer la prise de décision, identifier des alternatives politiques, informer les décideurs et décideuses politiques, et permettent aux interventions de prendre appui sur des résultats issus de la recherche (d’où l’intérêt pour les pratiques fondées sur des données probantes). L’évaluation peut avoir une incidence plus directe sur les décisions concernant des sujets évalués spécifiques, c’est-à-dire influencer les décisions au niveau micro. Cependant, la préoccupation de la discipline, depuis des décennies, à l’égard de l’utilisation de l’évaluation (ou son absence), suggère que le lien entre conclusions évaluatives et prise de décision ne va pas non plus de soi. […]

Bien que l’évaluation soit plus susceptible de contribuer à la prise de décision au niveau micro et la recherche d’informer la décision à un niveau plus macro, cette distinction résiste mal à un examen plus attentif.

Différences dans les méthodes de recherche et d’évaluation en sciences sociales

L’évaluation, surtout à ses débuts en tant que discipline, a largement emprunté ses méthodes d’enquête aux sciences sociales. Les premier-e-s évaluateurs et évaluatrices ont été formé‑e‑s dans les traditions des sciences sociales – en particulier la psychologie et la sociologie, et dans une moindre mesure l’anthropologie – et s’en sont donc inspiré-e-s dans leurs pratiques d’établissement des preuves empiriques. Pour certain‑e‑s, cela n’a pas changé, mais pour beaucoup d’autres, la pratique de l’évaluation a évolué de façon importante. Étant donné que l’évaluation traite nécessairement de questions telles que les besoins, les coûts, l’éthique, la faisabilité et légitimité, les évaluateurs utilisent un éventail de stratégies d’établissement de la preuve beaucoup plus large que les sciences sociales. En plus de tous les moyens mobilisés par les sciences sociales pour établir des connaissances, les évaluatrices et les évaluateurs peuvent emprunter à d’autres disciplines telles que la jurisprudence, le journalisme, les arts, la philosophie, la comptabilité et l’éthique.

La crise épistémologique qui a élargi le répertoire des stratégies acceptables pour la collecte et l’analyse des données en sciences sociales ne s’est pas jouée de la même façon en évaluation. Bien que la profession de l’évaluation ait exploré le débat entre méthodes quantitatives et qualitatives, et soit attentive à l’hégémonie du modèle des essais cliniques avec assignation aléatoire, l’évaluation, en tant que pratique, a librement emprunté à toutes les disciplines et à tous les modes de pensées pour travailler à la fois les faits et les valeurs. J’utilise dans une autre publication la notion de l’épistémologie anarchiste de Feyerabend pour décrire cette tendance de l’évaluation (Mathison, 2004a). L’anarchisme est le rejet de toutes les formes de domination. Ainsi, utiliser une épistémologie anarchiste en évaluation implique de rejeter toute domination d’une méthode sur les autres, d’une idéologie unique, d’une idée unique de progrès; c’est un refus du chauvinisme scientifique; de la bien-pensance des intellectuels; de la prévalence des évaluateurs sur les ressortissants et les fournisseurs de services; de la supériorité du texte académique sur les traditions orales et les autres traditions écrites; c’est se méfier des certitudes.

La pratique de l’évaluation n’implique pas d’adopter à la lettre des modes de connaissance spécifiques issus des sciences sociales, mais plutôt de réfléchir à la façon la plus adéquate d’évaluer en fonction du contexte. Les exemples en sont nombreux, mais deux illustrations suffiront : la « technique du changement le plus significatif » et le « PhotoVoice ». Bien que ces deux méthodes d’enquête puissent être utilisées en sciences sociales, elles revêtent une importance particulière en évaluation par leur valorisation du point de vue des parties prenantes (une perspective unique à l’évaluation et non partagée par la recherche en sciences sociales).

La technique du changement le plus significatif « implique la collecte d’histoires de changement significatif (CS) provenant du terrain, et la sélection systématique des plus significatives de ces histoires par des panels composés de parties prenantes ou d’intervenant-e-s. Ces panels ont d’abord pour mission de ‘rechercher’ l’impact du projet. Une fois les changements identifiés, diverses personnes se réunissent, lisent les histoires à voix haute et mènent des discussions régulières et souvent approfondies sur la valeur des changements signalés. Lorsque la technique est mise en œuvre avec succès, des équipes entières se focalisent sur l’impact du programme » (Davies et Dart, 2005).

Le deuxième exemple est PhotoVoice, une stratégie communautaire visant à impliquer les parties prenantes dans le changement social, en les amenant à identifier ce qu’elles valorisent et ce qu’elles estiment (Wang, Yuan et Feng, 1996). PhotoVoice utilise des techniques de photographie documentaire pour permettre aux « bénéficiaires de services » ou aux « sujets » de prendre le contrôle de leur propre représentation; elle a été utilisée avec des réfugié-e-s, des immigrant-e-s, des sans-abris et des personnes handicapées. PhotoVoice vise à mettre à profit les connaissances et les valeurs personnelles et à favoriser le renforcement de la capacité d’évaluation; les individus acquièrent une compétence qui leur permet de continuer à être une voix au sein de leur collectivité. […]

Les approches en évaluation sont souvent liées à des traditions particulières des sciences sociales, de sorte que l’on néglige parfois l’éventail plus large des méthodes d’enquête mobilisées, qui font la spécificité de l’évaluation. Les deux exemples ci-dessus (technique de changement le plus significatif et PhotoVoice) illustrent comment les évaluatrices et les évaluateurs ont commencé à élaborer des méthodes d’évaluation spécifiques pour juger de manière adéquate et appropriée le mérite ou la valeur des sujets évalués. Il existe de nombreux autres exemples de ce type : l’évaluation coordonnée[1] (cluster evaluation), l’évaluation rapide en milieu rural (rapid rural appraisal), l’étude d’évaluabilité (evaluability assessment) et la méthode centrée sur les cas de succès (success case method) – pour n’en citer que quelques-uns.

Les critères pour juger de la qualité de l’évaluation et de la recherche

Une autre manière d’envisager la différence entre l’évaluation et la recherche – soulignée notamment par Michael Quinn Patton dans la discussion EVALTALK[2] de 1998 sur cette question – part des critères utilisés pour juger de la qualité des travaux. Pour Patton, les critères différents mobilisés en recherche et en évaluation résultent des objectifs différents des deux démarches. L’objectif premier de la recherche est de contribuer à la compréhension du fonctionnement du monde, de sorte que la recherche est jugée à l’aune de son exactitude, en fonction de sa validité perçue, de sa fiabilité, de l’attention portée à la causalité et de son caractère généralisable. L’évaluation est également jugée par son exactitude, mais aussi par son utilité, sa faisabilité et sa pertinence. […]

Une caractéristique importante de l’évaluation est la place centrale accordée au point de vue des parties prenantes, sans équivalent dans la recherche en sciences sociales. Les évaluations sont jugées en fonction de si et comment les points de vue des parties prenantes sont pris en compte. Bien que basés sur différents fondements épistémologiques, tous les modèles utilisés en évaluation intègrent d’une manière ou d’une autre le point de vue des parties prenantes – les évaluations, les valeurs et les significations véhiculées par les parties prenantes sont des éléments essentiels de toute évaluation. La recherche en sciences sociales peut intégrer la perspective des parties prenantes, mais c’est loin d’être systématique. Lorsque les participantes et participants à la recherche sont désignés comme des parties prenantes, c’est souvent pour faire référence aux personnes auprès de qui les données sont collectées, plutôt que pour prendre véritablement en considération leurs intérêts. L’extrait suivant tiré d’un document publié par les Centres de contrôle des maladies (Centers for disease control) aux États-Unis, le document-cadre pour l’évaluation de programme (Framework for Program Evaluation) (1999), illustre le caractère central de cette démarche d’inclusion des parties prenantes dans l’évaluation. Aucune approche dans la recherche en sciences sociales n’inclut ce concept de manière aussi fondamentale.

Le cycle d’évaluation commence par l’implication des parties prenantes (i.e. les personnes ou les organismes qui ont un intérêt dans ce qui sera appris et dans ce qui sera fait d’une évaluation). Les travaux de santé publique impliquent des partenariats; par conséquent, toute évaluation d’un programme de santé publique exige de tenir compte des systèmes de valeurs des partenaires.

Les parties prenantes doivent participer à l’enquête pour s’assurer que leurs points de vue sont compris. Lorsque les parties prenantes ne sont pas impliquées, les conclusions de l’évaluation risquent d’être ignorées, critiquées ou rejetées, car elles ne répondent pas aux questions que se posent les parties prenantes ou sont éloignées de leurs valeurs. Après avoir été impliquées dans l’enquête, les parties prenantes peuvent aider à exécuter les autres étapes. Il est essentiel d’identifier et de faire participer les trois groupes suivants :

  1. Les personnes impliquées dans le fonctionnement du programme (par exemple les financeurs/-ceuses, les collaborateurs/-trices, les partenaires, les administrateurs/-trices, les gestionnaires et le personnel)

  2. Les individus desservis ou touchés par le programme (par exemple les ressortissantes et ressortissants, leurs familles, des organisations locales, des établissements universitaires, des élu-e-s, des collectifs militants, des associations professionnelles, des sceptiques, des opposant-e-s, le personnel d’organisations connexes ou concurrentes…)

  3. Les principaux utilisateurs et utilisatrices de l’évaluation (par exemple, les personnes qui sont en mesure de prendre des décisions concernant le programme). Dans la pratique, les utilisatrices et utilisateurs primaires constituent un sous-ensemble des parties prenantes. Une évaluation réussie les identifiera dès le début de son élaboration et maintiendra des interactions fréquentes avec elles et eux afin que l’évaluation tienne compte de leurs valeurs et réponde à leurs besoins d’information spécifiques.

Conclusion

L’évaluation et la recherche diffèrent – une différence de degré sur les continuums particularisation-généralisation et démarche orientée vers la décision ou vers l’analyse, pour reprendre les critères les plus souvent retenus. Mais elles diffèrent aussi sur le plan des méthodes : l’évaluation inclut les méthodes de collecte et d’analyse des données issues des sciences sociales, mais, en tant que discipline, elle a aussi développé des méthodes spécifiques. Le jugement sur la qualité des travaux mobilise par ailleurs des critères différents en recherche et en évaluation : l’exactitude compte dans les deux cas, mais l’évaluation mobilise aussi des critères spécifiques relatifs à l’utilité, à la faisabilité, à la pertinence et à l’inclusion des parties prenantes.

À mesure que l’évaluation progresse en tant que discipline, avec une vision plus claire de son objectif spécifique, la question de sa distinction avec la recherche pourrait s’estomper. Cette question restera toutefois fondamentale tant que la méthodologie de l’évaluation continuera à recouper considérablement les méthodes des sciences sociales et tant que les évaluatrices et évaluateurs viendront à cette profession à partir de formations classiques de sciences sociales. Comme nous l’avons suggéré plus haut, ces questions fondamentales sont l’occasion de clarifier ce qu’est l’évaluation en tant que pratique, profession et discipline.

Bibliographie

Centers for Disease Control. 1999. « Framework for program evaluation in public health ».

Coffman, Julia. 2003. « Michael Scriven on the differences between evaluation and social science research ». The Evaluation Exchange 9(4).

Cronbach, Lee J. 1982. Designing Evaluations of Educational and Social Programs. San Francisco: Jossey-Bass.

Davies, Rick, et Jess Dart. 2005. « The most significant change technique: A guide to its use » https://mande.co.uk/docs/MSCGuide.pdf.

Fournier, Deborah. 1995. Reasoning in evaluation: Inferential links and leaps. San Francisco: Jossey-Bass.

Mathison, Sandra. 2004a. « An anarchist epistemology in evaluation ». Annual meeting of the American Evaluation Association. Atlanta.

Mathison, Sandra. 2004b. « Evaluation theory ». in Encyclopedia of evaluation, édité par S. Mathison. Newbury Park: Sage Publications, p. 142‑43.

Scriven, Michael. 1999. « The nature of evaluation: Part I. Relation to psychology ». Practical Assessment, Research and Evaluation 6(11). doi : https://doi.org/10.7275/egax-6010.

Wang, Caroline, Yan L. Yuan et Ming L. Feng. 1996. « Photovoice as a tool for participatory evaluation: The community’s view of process and impact ». Journal of Contemporary Health 4 : 47‑49.


  1. NdT : Cette démarche consiste à organiser un échange entre les évaluateurs individuels d’un ensemble de projets, afin d’identifier des problématiques communes.
  2. NdT : Liste de discussion en évaluation.