I. À quoi sert l’évaluation?

3. Et si les responsables publics ne décidaient qu’en s’appuyant sur l’information : réponse à Patton

Carol H. Weiss

[Traduit de : Weiss, Carol H. 1988. « If Program Decisions Hinged Only on Information: A response to Patton ». American Journal of Evaluation, 9(3) : 15-28 (Extraits). Traduction de Carine Gazier et Agathe Devaux-Spatarakis; traduction et reproduction du texte avec l’autorisation de Sage Publications.]

[…]

Un bilan « neutre »

J’ai dit que nous avons eu un bilan « neutre » dans l’entreprise de « faire de l’évaluation la base de la décision ». Mike (Michael Q. Patton) affirme qu’il peut « sans difficulté nommer au moins 25, probablement 50 praticiens et praticiennes de l’évaluation » qui « ont un impact considérable sur les programmes et les politiques ».  Je suis ravie que Mike puisse penser à 25 voire 50 évaluateurs et évaluatrices (sur combien? 100? 200?) qui ont un impact. Leviton et Boruch (1984) montrent que de nombreuses évaluations conduisent à des modifications de programmes. Mais ces déclarations ne réfutent pas mon point de vue. Les responsables des programmes et des politiques publiques n’utilisent pas systématiquement l’évaluation « comme base de décision ». Notez que je n’ai pas dit que le bilan de l’évaluation était mauvais; j’ai dit « neutre », ce qui, selon le Dictionnaire Webster signifie : « ni bon ni mauvais, ni grand ni petit, ni souhaitable ni indésirable, etc. ». Ce que je voulais dire par là, c’est que même lorsque les évaluateurs et évaluatrices essaient d’adopter une démarche d’évaluation favorisant l’utilisation, leur influence reste sur le point médian d’une l’échelle de notation.

Je pense que les évaluateurs et évaluatrices peuvent faire mieux que ce qu’ils et elles font actuellement, pour attirer l’attention sur leurs résultats. Je pense même qu’ils et elles devraient le faire. Mais, dans l’ensemble, je doute que nous puissions un jour persuader les parties prenantes de faire des résultats de l’évaluation le paramètre essentiel des décisions relatives aux programmes publics. D’une part, les responsables des programmes en savent beaucoup plus sur leurs programmes que ce que leur dit l’équipe d’évaluation. Les responsables des programmes ont une expérience directe de l’organisation opérationnelle; ils et elles connaissent le site, les publics, le personnel, les problèmes, les budgets, les directives contradictoires des commanditaires et des bailleurs de fonds, l’état des relations avec d’autres organisations qui orientent ou accueillent les publics, l’histoire, les récriminations et les félicitations, ainsi que les perspectives d’avenir. Les équipes d’évaluation peuvent leur dire beaucoup de choses, mais, comme l’écrivent Gilsinan et Volpe (1986 : 182) : « Le chercheur ou la chercheuse en évaluation n’a le plus souvent qu’une occasion de concevoir et de mettre en œuvre … une étude [sur un programme donné], et dans des conditions suboptimales ». L’étude d’évaluation ne peut pas couvrir tous les aspects d’un programme et elle ne peut jamais être la seule base sur laquelle se fondent les décisions. Demander aux responsables de programmes et opérateurs et opératrices d’adopter pleinement les conclusions de l’évaluation revient à leur demander de mettre entre parenthèses leurs années d’expérience et d’immersion directe dans le monde quotidien du programme et, en fait, d’abdiquer leur responsabilité en faveur d’une équipe d’évaluation qui n’a inévitablement qu’une vision partielle de leurs préoccupations. Je doute que Mike ait eu l’intention de suggérer une telle démarche. Il contestait plutôt l’affect et la charge émotionnelle de ma déclaration, plutôt que mes mots au sens littéral (« faire de l’évaluation la base des décisions »).

Ce que les évaluateurs et évaluatrices devraient aspirer à atteindre dans le domaine de l’utilisation, c’est l’influence, et non le statut de philosophes-rois dont les diktats détermineraient l’avenir des programmes. Il est présomptueux de penser qu’une évaluation, aussi consciencieuse soit-elle, pourrait ou devrait constituer la base principale des changements apportés à un programme. (Je ne mentionnerai même pas les études d’évaluation effectuées à des niveaux de compétence médiocres ou pire.). Il est préférable de concevoir l’évaluation comme permettant de mieux comprendre le programme, de mettre en exergue l’éventail des options et des effets probables. En substance, l’évaluation devrait faire fonction de formation continue pour les responsables et opérateurs/-trices de programmes ainsi que pour les responsables politiques.

Le caractère omniprésent de la variable politique

Même lorsque nous parlons d’influence sur la conception et la mise en œuvre des programmes, il existe d’importantes raisons pour lesquelles les responsables de programmes ne prêtent pas toujours une grande attention aux résultats de l’évaluation. Par la conduite de leur programme, ils et elles poursuivent bien d’autres intérêts, en outre de l’exécution de la mise en œuvre planifiée et de l’obtention des résultats escomptés. Ils et elles veulent avoir une vie professionnelle satisfaisante, s’entendre avec leurs collègues, être reconnu-e-s et respecté-e-s et voir leur organisation gagner en prestige et en solvabilité financière, peut-être surpasser une agence ou une faction concurrente, avoir une possibilité d’ascension, faire un travail qui soit estimé par les membres de leur profession, respecter des traditions et s’amuser. Lorsque les résultats et les recommandations des évaluateurs et évaluatrices mettent en péril de telles valeurs, les responsables de programmes placent parfois leurs propres intérêts au premier plan.

L’intérêt personnel, la protection de l’organisation, la recherche de bénéfices : ces éléments sont remarquablement absents du monde de Patton. Dans un manuscrit sur l’utilisation des évaluations qui compte 25 pages dactylographiées, Mike Patton ne mentionne jamais le mot « politique ». Dans son monde, tout le monde se comporte rationnellement. Non seulement les responsables des programmes et des politiques publiques sont tou-te-s rationnel-le-s, prêt-e-s à fonder leurs décisions sur les meilleures données disponibles si l’équipe d’évaluation est suffisamment persuasive et persistante, mais ils et elles ont aussi des motivations altruistes. Ils et elles veulent, par-dessus tout, améliorer leur programme pour servir les intérêts des bénéficiaires et ne semblent pas se préoccuper des amputations budgétaires, de la recherche de personnel qualifié, du travail supplémentaire, de la perturbation des relations en cours avec d’autres organismes, des éventuelles réactions négatives des groupes communautaires ou de la presse, du renouvellement de leur subvention, de la satisfaction des rancunier-e-s du conseil d’administration ou de toute autre préoccupation qui tourmente les responsables de programmes avec lesquel-le-s j’ai eu affaire. Ses parties prenantes sont prêtes à utiliser les évaluations si l’équipe d’évaluation présente un dossier suffisamment solide. Ils ne s’inquiètent pas de la rareté des ressources, de la réputation de leurs programmes, de leur propre avancement ou de l’évitement de tâches désagréables. Ses responsables politiques ne s’inquiètent pas de la prochaine élection, de l’obtention de crédits plus importants, ou de ménager les susceptibilités des législateurs/-trices ou des administrateurs/-trices influent-e-s.

Selon Patton, tout ce que l’équipe d’évaluation a à faire est de leur communiquer les faits et de leur indiquer la « bonne » ligne de conduite. Il est vrai que l’évaluatrice ou l’évaluateur peut avoir à le dire à maintes reprises et de différentes manières, et qu’il ou elle doit être un-e vendeur/-euse, un-e charmeur/-euse, une personne dotée d’excellentes compétences interpersonnelles. L’équipe d’évaluation doit croire en l’efficacité du produit qu’elle vend, dit Mike, et apprendre les techniques de vente. Toutefois, en accordant suffisamment d’attention aux premiers contacts, à l’implication du ou de la praticien-ne, à la participation du commanditaire à l’évaluation et à une bonne diffusion, l’équipe d’évaluation aura un impact considérable sur les décisions des responsables et des décideurs/-euses rationnel-le-s et intelligent-e-s.

Permettez-moi de vous parler de certaines évaluations auxquelles j’ai participé.

(1) J’ai dirigé une évaluation d’un programme financé par le gouvernement fédéral au sein d’un organisme d’action sociale. Peu après la publication de l’étude d’évaluation, la subvention fédérale a pris fin. Aucun autre organisme local n’avait les ressources nécessaires pour reprendre le programme (même s’il avait été très efficace). Le personnel de l’unité de financement de Washington qui aurait dû être intéressé par les résultats a été submergé de rapports et s’inquiétait de son propre avenir. Utilisation : nulle.

(2) Une évaluation d’un million de dollars à laquelle j’ai participé à titre de consultante a fourni une quantité considérable d’informations utiles sur le processus et les résultats du programme. Elle a montré que le programme avait un succès modeste dans l’amélioration de la pratique médicale dans certains domaines, un succès moindre dans d’autres domaines, et elle a indiqué les stratégies qui affectaient l’efficacité du programme. Au moment où le travail s’achevait, une nouvelle personne a été nommée à la tête de l’agence mère, et ses priorités n’incluaient pas le programme étudié. Le directeur du programme a été encouragé à partir, et le programme a été relégué à un statut périphérique au sein de l’agence. Toutes les preuves de succès et les recommandations importantes sur les orientations à prendre pour améliorer le programme ont trouvé leur place dans les publications professionnelles, d’où elles pourront peut-être resurgir un jour pour influer sur la prochaine réincarnation du programme.

(3) Une étude d’évaluation d’un programme dans un petit organisme a été entreprise parce qu’il y avait une forte divergence d’opinions parmi le personnel sur l’intérêt de consacrer des ressources importantes à ce programme au détriment d’autres que l’organisme administrait ou souhaitait mettre en œuvre. Lorsque l’évaluation a été publiée, les partisan-e-s du programme se sont emparé-e-s des résultats positifs et les opposant-e-s des résultats négatifs. Le débat au sein de l’agence a continué à faire rage, mais chaque partie citait maintenant des preuves d’évaluation pour justifier son argumentation.

(4) Une autre étude d’évaluation a révélé qu’une modalité de mise en œuvre du programme avait des effets nettement supérieurs aux autres modes, et l’évaluateur a recommandé l’expansion des stratégies efficaces. Toutefois, ce type de programmation nécessitait également beaucoup plus de personnel, et les coûts de fonctionnement étaient près d’un tiers plus élevés que les coûts habituels. L’expansion de la stratégie la plus efficace impliquait également de réduire le nombre de personnes bénéficiaires, avec toute la publicité négative qu’une telle décision entraînerait. L’agence a donc décidé de procéder comme auparavant, en promettant de faire des ajustements mineurs vers le meilleur procédé à mesure que le budget le permettrait.

Tous les évaluateurs et évaluatrices que je connais ont vécu des expériences similaires. Pas à chaque fois, bien sûr, sinon ils et elles auraient tous fui le terrain ou seraient devenus des cyniques confirmé-e-s, mais assez souvent pour reconnaître le scénario. La doctrine « Patton » de la responsabilité voudrait que les évaluateurs et évaluatrices soient responsables de ces échecs. D’une manière ou d’une autre, s’ils et elles avaient été véritablement à la hauteur, ils et elles auraient pu prévoir ou atténuer les pressions hostiles. J’aimerais bien savoir comment.

[…]

Fiabilité des preuves

Sur quoi Mike fonde-t-il sa conviction que le niveau d’utilisation des évaluations est élevé? Principalement sur la base de comptes rendus des équipes d’évaluation sur leur propre succès. En tant qu’évaluateurs et évaluatrices, nous avons tous eu connaissance de programmes dans lesquels le personnel nous dit à quel point ce qu’ils et elles font est un succès. Nous restons sceptiques face à ces témoignages et les soumettons à un test empirique. Comme me l’a dit il y a longtemps le directeur d’un programme de santé mentale : « le travail d’un-e praticien-ne de programme est de croire; le travail d’un évaluateur ou d’une évaluatrice est de douter ». En tant que praticien-ne-s de l’évaluation, nous avons tendance à croire en la valeur de l’entreprise et à minimiser les cas d’échec. Mais en tant qu’évaluateurs et évaluatrices, nous sommes obligé-e-s d’examiner les preuves.

Les preuves de Mike proviennent, en grande partie, d’articles que les évaluateurs et évaluatrices ont écrits à l’intention de publics professionnels, sur leurs succès en matière d’utilisation. La plupart d’entre nous peuvent aussi écrire de tels articles, si nous voulons montrer le côté positif de l’histoire. C’est une partie de la vérité, mais en aucun cas toute la vérité.

Un autre type de preuve que Mike cite est le suivi par les unités d’évaluation du sort de leurs recommandations. Par exemple, les unités du General Accounting Office (GAO) et du Federal Bureau of Investigation (FBI) ont compté le nombre de leurs recommandations qui ont été acceptées et mises en œuvre, et les taux sont élevés. Ayant moi-même participé à un exercice de ce genre, je considère ces données avec respect, mais aussi avec un certain scepticisme. Dans un cas, je me souviens, nous avons suivi les utilisations faites d’une étude qui avait formulé cinq recommandations. L’une d’entre elles portait sur une refonte majeure du programme, et les quatre autres concernaient l’amélioration de la tenue des dossiers, des procédures budgétaires, des pratiques comptables et des rapports. L’organisme a mis en œuvre quatre des cinq recommandations (devinez lesquelles). Son taux d’utilisation a été de 80%!

De toute façon, je suis toujours un peu mal à l’aise à l’idée de prendre les recommandations comme unité d’utilisation. À ma connaissance, nous n’avons pas examiné de très près l’origine des recommandations des équipes d’évaluation. Certaines recommandations peuvent être bien fondées sur des données, tandis que d’autres peuvent être des envolées fantaisistes de la part de personnes n’ayant pas beaucoup d’expertise dans la planification ou le fonctionnement des programmes. Permettez-moi de vous faire part de certaines de mes réflexions sur les sources des recommandations. C’est un pas de côté par rapport au thème principal de cet article, mais cela pourrait inciter certain-e-s d’entre vous à étudier attentivement le sujet.

Dans les meilleurs cas, les recommandations découlent directement des données. Il y a des preuves tangibles qu’une pratique du programme est meilleure que d’autres pratiques du programme, et l’évaluateur ou l’évaluatrice recommande celle-ci. Par exemple, si les étudiant-e-s qui consacrent plus de temps à étudier ont tendance à apprendre davantage, la recommandation de passer plus de temps à cette tâche est bien fondée. La plupart du temps, j’imagine, les recommandations représentent un bond en avant par rapport aux données. Elles peuvent découler de normes ou de lignes directrices professionnelles. Par exemple, lorsqu’un programme n’est pas particulièrement efficace et que l’équipe d’évaluation sait qu’il ne respecte pas la « bonne pratique » dans le domaine ou dans la profession, l’équipe d’évaluation recommande une bonne pratique. Parfois, les recommandations semblent être faites parce que ce que fait le programme ne fonctionne pas très bien, et l’équipe d’évaluation suppose qu’il serait préférable de faire le contraire. Par exemple, si le programme infructueux utilise le conseil collectif, l’équipe d’évaluation peut recommander le conseil individuel; si le programme infructueux repose sur des incitations pour les travailleurs et travailleuses individuel-le-s, l’équipe d’évaluation peut recommander des incitations collectives.

Dans certains cas, les évaluateurs et évaluatrices possèdent des connaissances spécialisées dans le domaine du programme. Ils et elles ont étudié de nombreux programmes d’éducation compensatoire, de réadaptation physique ou de placement en famille d’accueil, et (avec ou sans formation professionnelle) ont développé un répertoire de connaissances. Leurs recommandations découlent de cet ensemble de compétences. Le plus souvent, je pense que les évaluateurs et évaluatrices s’appuient sur un raisonnement logique. Ils et elles essaient de comprendre ce qu’il faudrait faire pour améliorer le fonctionnement d’un programme. Ils et elles élaborent implicitement un modèle logique du programme dans leur esprit, corrigeant les lacunes et les incohérences qu’ils et elles voient dans le programme, et fondent leurs recommandations sur leur compréhension de profane.

Il n’est pas rare que l’équipe d’évaluation consacre tellement de temps à la collecte et à l’analyse de données qu’il lui reste très peu de temps à la fin pour comprendre les implications de celles-ci. À deux semaines de la remise du rapport, elle se démènent pour trouver quelque chose de raisonnable à recommander. La pertinence de leurs recommandations dépendra fortement de leur niveau d’information sur le terrain, sur d’autres programmes et évaluations antérieures, ainsi que sur les comportements individuels et collectifs. Pour les personnes participant au programme, qui sont les utilisateurs et utilisatrices visé-e-s par les conclusions et les recommandations, prendre les recommandations de l’équipe d’évaluation au sérieux peut être soit un coup brillant, soit un exercice massif de futilité. Je suis plus à l’aise avec l’idée qu’ils et elles prennent les résultats de l’évaluation au sérieux. Les responsables de programmes et les praticien-ne-s savent peut-être mieux que l’équipe d’évaluation quelles sont les conséquences à tirer des preuves et quelles directions sont susceptibles d’être les plus fructueuses – ce qui est un bon point pour revenir au sujet principal de cet article.

Dans l’ensemble, je pense que le degré d’utilisation directe des résultats d’évaluation par les organisations est – si vous n’aimez pas le mot « neutre » – pas mauvais, honnête, une chose utile de temps à autre. Si les résultats leur montrent qu’il y a quelque chose à corriger et une façon de le faire, elles essaieront souvent de le faire. S’ils fournissent une pièce supplémentaire du puzzle de l’action de l’organisation, elle prendra sa place dans l’ensemble. S’ils ne correspondent pas à ce que les organisations croient et savent, ou croient savoir, elles peuvent, après réflexion, les classer pour plus tard. […]

Bibliographie

Gilsinan, James F., et L. Carl Volpe. 1986. « Do not cry wolf until you are sure ». Evaluation Studies Review Annual 11 : 175‑87.

Leviton, Laura C., et Robert F. Boruch. 1984. « Contributions of evaluation to education programs and policy ». Evaluation Studies Review Annual 9 : 597‑632.