IV. L’évaluation est-elle une science?
Le regard d’Yves Gingras
Yves Gingras
À titre de directeur scientifique de l’Observatoire des Sciences et des Technologies (OST) au Canada depuis vingt-cinq ans, j’ai participé – avec mon équipe – à de nombreuses évaluations portant sur des programmes ou des organisations liés à des activités de recherche scientifique, technologique ou d’innovation. Je ne me suis jamais demandé si l’évaluation était une « science », car la grande polysémie de ce terme rend à mon avis une telle discussion vaine et surtout stérile, en ce sens qu’elle ne génère pas de gain réel dans la pratique, même si elle peut avoir une valeur au plan rhétorique en contexte universitaire ou pour se donner de la crédibilité auprès des commanditaires.
Dans leur introduction aux textes, les autrices et auteurs invoquent le Grand Robert de la langue française qui définit la science comme un « ensemble de connaissances » obtenues par une méthode déterminée sur un objet donné. La définition proposée fait aussi référence au caractère universel, objectif et vérifiable des résultats. Une telle définition reste cependant vague, car toute « méthode » n’est pas nécessairement valide. Les parapsychologues, par exemple, disent détenir une « méthode » pour détecter les fantômes, mais peu la trouvent crédible (Collins et Pinch, 1979). Mieux vaut donc éviter le piège de ce que j’appelle le substantialisme linguistique qui porte à chercher l’essence d’un mot par le seul jeu du verbe être : demander si l’évaluation est une science, présuppose en effet qu’il existe un être préexistant ayant une essence immuable. En matière de langage, je suis plutôt partisan du nominalisme qui considère les définitions comme arbitraires et qu’il faut simplement s’assurer qu’on fait le même usage d’un mot donné lors d’une discussion. Ainsi, quand on dit qu’une personne est « un puit de science » le mot renvoie à une somme de connaissances. Mais une « connaissance » n’est pas une « science », tout comme un « savoir » – mot usuel en français depuis Michel Foucault mais plus vague que « connaissance », traduction habituelle de « knowledge » – n’est pas nécessairement « scientifique ». Quand on dit que tel résultat est « scientifique » on renvoie plutôt au fait qu’il a été obtenu de manière « rigoureuse » et donc logique en suivant une méthode conforme à la nature de cet objet.
À la définition du Grand Robert, je préfère donc la suivante, à la fois plus simple et plus englobante : une science vise à « rendre raison des phénomènes par des causes naturelles » (Gingras, 2017). Pour rendre raison et donc expliquer un phénomène, on doit utiliser des concepts spécifiques à un type d’objet. Ces concepts diffèrent selon qu’on veuille rendre raison du comportement des atomes, des humains, des fourmis, des galaxies, etc. De même, les méthodes d’observation ou d’expérimentation varieront selon les objets mais le but reste le même : comprendre et expliquer les propriétés de ces objets. C’est en combinant les concepts avec les données empiriques et les lois établies, qu’on peut, éventuellement, en arriver à formuler des théories permettant de rendre raison d’un certain ordre de phénomène : attraction électrique, psychoses, émeutes, suicides, décisions politiques, etc.
À la lumière de cette conception de la science, on devine que l’évaluation n’est pas une science. Qu’est-ce alors que l’évaluation? Il faut je crois distinguer ici trois niveaux trop souvent amalgamés dans l’expression « recherche évaluative ». D’abord, « faire de l’évaluation », est une pratique professionnelle définie par une fin, à savoir mesurer les effets produits par une action : un programme, un projet, une politique, etc. Implicitement ou explicitement l’évaluation se fait en vue d’une action à entreprendre à la lumière des résultats obtenus. En principe, on n’évalue jamais pour rien, même si les résultats ne sont pas toujours utilisés – surtout quand ils déplaisent au commanditaire! D’autre part, on peut faire de la recherche pour concevoir, améliorer et adapter des méthodes utilisées en évaluation, sans faire soi-même des évaluations au sens défini précédemment. On est alors plutôt méthodologue. Je me suis, par exemple, intéressé aux indicateurs souvent utilisés en évaluation pour démontrer que plusieurs sont inadéquats à leur objet et ne devraient donc pas être utilisés dans des évaluations (Gingras, 2017). Enfin, on peut faire de la recherche sur l’évaluation et en faire l’histoire, la sociologie ou se demander, du point de la psychologie des organisations par exemple, quels sont les effets des évaluations sur les agents qui en sont l’objet. On prendra alors l’évaluation comme objet d’analyse du point de vue d’une discipline classique visant à rendre raison d’un phénomène (ici l’évaluation) et de ses effets psychologiques, organisationnels, sociaux ou politiques.
L’évaluation existe donc d’abord en fonction d’une fin pratique qui vise à éclairer une prise de décision rationnelle concernant un programme ou une politique spécifique et localisée dans l’espace dont la mise en place visait à produire certains effets qu’il s’agit alors de mesurer pour savoir s’ils se sont bien réalisés et si oui à quel degré. Ses objets d’analyse étant potentiellement infinis et relevant en principe de tous les secteurs de la société, on comprend que l’évaluation n’a pas véritablement d’objet spécifique à proprement parler, sauf à se placer à un très haut degré d’abstraction pour définir des classes d’objets associés à des classes de méthodes d’évaluation. Mais un tel degré de généralité, déconnecté des objets concrets évalués dans leur spécificité me semble aussi peu utile qu’une « théorie générale des systèmes » telle que von Bertalanffy pouvait, par exemple, l’envisager au milieu des années 1960.
L’évaluation répondant à une demande ciblée et d’origine externe (oublions ici les autoévaluations), il me semble donc non seulement irréaliste mais absurde de penser avec Michael Scriven que l’évaluateur peut dicter ou imposer ses propres valeurs et ainsi « rejeter une conception de l’évaluation comme aide à la décision ». Ou alors il n’évaluera que les projets dont il approuve les fins. Mais la plupart des professionnels n’ont probablement pas ce luxe. On peut même penser que c’est là confondre les niveaux d’action : d’une part, faire la promotion de certaines valeurs ou finalités sociales et, d’autre part, mesurer les effets réels d’un programme auquel le commanditaire assignait des objectifs dont il veut maintenant mesurer s’ils ont été atteints ou non. À mon avis, évaluer un programme est une opération analytiquement distincte de celle visant à le mettre au point. Évaluer consiste en effet à tenter de répondre aux questions que posent les commanditaires. Pour cela, la personne appelée à faire une évaluation fera comprendre aux commanditaires qu’on ne peut pas évaluer sans connaître la finalité qui était visée par la mise en place du programme ou de la politique. Elle lui expliquera également, si nécessaire, que certains indicateurs, pourtant suggérés, ne sont pas valides pour mesurer l’effet d’une action donnée. Idéalement, elle contribuera ainsi à ce que les responsables des programmes les construisent de manière aussi rationnelle que possible en identifiant bien au départ l’objectif visé par cette action. Bien que les personnes chargées de l’évaluation puissent être consultées en amont sur les variables et indicateurs potentiels mesurables du programme mis en place, il est évident que ce ne sont pas elles qui fixent les objectifs du programme, lesquels peuvent être infiniment variés selon les secteurs visés de la société. Par contre, au plan éthique, les personnes responsables de l’évaluation ne peuvent accepter d’évaluer à partir de critères et d’indicateurs qu’elles savent être inadéquats dans le contexte du programme et des objectifs qui étaient visés.
L’évaluation devant mesurer les effets réels d’une grande variété d’actions dans divers secteurs de la société, il va de soi qu’elle emprunte ses méthodes à plusieurs disciplines. Mais, contrairement à ce que suggère Scriven, cela n’en fait pas une « transdiscipline », surtout que ce terme est mal défini et que l’exemple des statistiques est très mal choisi. En effet, les statistiques sont une spécialité bien institutionnalisée relevant de la discipline des mathématiques et qui s’enseigne le plus souvent dans un département de mathématiques (Gingras, 2020 : 48‑52). Le fait qu’elle ait des applications multiples dans d’autres disciplines ne change pas son statut car il ne faut pas confondre l’objet de recherche et ses domaines d’application. Après tout, l’arithmétique est aussi une spécialité mathématique utilisée dans tous les domaines et cela n’en fait pas une « transdiscipline ».
En somme, quand on invoque l’idée de « science » on veut généralement dire que les évaluations se font de manière rigoureuse, logique, en utilisant les outils de mesure appropriés à l’objet. Cette profession peut détenir certains concepts en propre et avoir son jargon spécifique mais sa finalité n’est pas de rendre raison d’un type de phénomène mais de mesurer les effets d’une action. Sa force réside dans sa capacité à identifier les bonnes méthodes pour mesurer les effets réels du programme étudié. Mais comme les effets sont le plus souvent multiples et imprévisibles, l’évaluation doit aussi choisir quoi mesurer en priorité et donc identifier les objectifs prioritaires qui étaient visés par la mise en place du programme. L’évaluation peut bien sûr contribuer à faire apparaître des effets non prévus mais tout de même désirables. Chose certaine, tous les effets possibles ne peuvent pas être mesurés.
Au plan sociologique, l’évaluation est clairement un domaine de pratique professionnel, avec ses sociétés savantes et ses revues. Comme le rappelle le texte de Gary Cox, le domaine a été fortement stimulé par les gouvernements qui, dans la plupart des pays, ont imposé l’obligation d’évaluer les différents programmes qu’ils mettent en place. C’est cette demande externe qui impose son caractère pratique à l’évaluation. Par contre, son insertion dans le champ universitaire génère nécessairement un discours de « scientifisation » pour justifier sa présence aux côtés de disciplines bien ancrées et se définissant comme des sciences à portée générale et explicative et relativement autonome par rapport aux demandes externes. Alors que dans les disciplines les plus autonomes, l’audience est surtout composée de personnes elles-mêmes productrices de connaissances, les rapports d’évaluation répondent à une demande externe et s’adressent au client ou à la cliente et non pas d’abord aux autres personnes pratiquant des évaluations. L’idéologie professionnelle inhérente à l’université moderne humboldtienne postule une relation nécessaire entre enseignement et recherche. Cette exigence structurelle entraine toute pratique professionnelle qui s’y intègre à développer un discours sur l’importance de la recherche académique (Gingras, 1991). Si l’enseignement de l’évaluation va de soi – car il y a bien des connaissances à acquérir en cette matière –, la recherche n’a vraiment d’importance symbolique que pour la fraction universitaire des experts en évaluation. Les produits de l’évaluation étant très diversifiés dans leurs objets, localisés dans des contextes géographiques précis et ayant une visée pratique d’aide à la décision, ils n’ont pas tous vocation à finir en article de revue savante. La tendance à tenter de monter en généralité pour produire des « théories » à partir de cas spécifiques est ainsi un effet structurel d’appartenance à un monde académique dans lequel la hiérarchie des disciplines place la théorie en haut de l’échelle et la pratique et les « études de cas » non suffisamment théorisées en bas de l’échelle.
Comme le note Michael Quin Patton dans sa contribution, la principale raison d’invoquer le statut scientifique de l’évaluation est de « surmonter la réputation négative de la profession dans certains contextes ». C’est pour les mêmes raisons de prestige social que l’on parle des « Sciences de l’administration », alors qu’en pratique ces savoirs empruntent beaucoup à la sociologie et la psychologie. De plus, la connotation du mot « science » utilisé par Patton est ici essentiellement celle de rigueur méthodologique, empirique et logique associée à la mesure d’un phénomène et non pas celle évoquée dans le Grand Robert de la langue française. Il est significatif à cet égard que lorsqu’il cherche à caractériser ce qu’il nomme au singulier « la science de l’évaluation », les mots qui suivent sont « méthodes scientifiques rigoureuses » et « systématiques ». Mais on peut se demander si ce n’est pas là un pléonasme car « science » connote déjà l’idée de rigueur et de méthode systématique.
En fin de compte, la question centrale est, à mon avis, moins de déterminer si l’évaluation est une « science » dans au moins un des nombreux sens de ce mot socialement prisé – la réponse étant évidemment positive – que de savoir si elle a les moyens de démontrer à ses utilisateurs et utilisatrices que les résultats des évaluations conduites selon les règles de l’art sont robustes et donc résistent aux critiques méthodologiques ou conceptuelles qu’on peut leur adresser. Et l’on peut faire cela en appliquant essentiellement les « principes des méthodes de recherche scientifique », que John Stuart Mill exposait déjà dans son Système de logique déductive et inductive de 1843. Car, fondamentalement, et derrière la plus grande sophistication des diverses techniques d’analyse et de mesure élaborées depuis, c’est bien encore par les méthodes des concordances, des différences et des variations concomitantes que l’on peut établir empiriquement une conclusion sur les causes et les effets, et distinguer ainsi clairement ce qui est vraiment le cas de ce que l’on voudrait qui soit le cas.
La démarche d’évaluation peut finalement être scientifique en ce sens méthodique et mener à des conclusions valides, sans que l’on doive se tourmenter plus avant pour savoir si elle a tous les attributs d’une véritable « science » qui mérite d’exister dans l’enceinte universitaire.
Bibliographie
Collins, Harry M. et Trevor J. Pinch. 1979. « The construction of the paranormal: Nothing unscientific is happening ». The Sociological Review 27(1) : 237‑70. doi : https://doi.org/10.1111%2Fj.1467-954X.1979.tb00064.x.
Gingras, Yves. 1991. « L’institutionnalisation de la recherche en milieu universitaire et ses effets ». Sociologie et sociétés 23(1) : 41‑54. doi : https://doi.org/10.7202/001297ar.
Gingras, Yves. 2014. Les dérives de l’évaluation. Du bon usage de la bibliométrie. Paris : Raisons d’agir.
Gingras, Yves. 2017. « Qu’est-ce qu’une science? » in Qu’est-ce que la science… Pour vous, Sciences & philosophie, édité par M. Silberstein. Paris : Éditions matériologiques, p. 119‑24.
Gingras, Yves. 2020. Sociologie des sciences. 3e éd. Paris : Presses universitaires de France.