III. Comment juger de la valeur des interventions?
2. La logique de l’évaluation
Michael Scriven
[Traduit de : « Logic of Evaluation », in Scriven, Michael. 1991. Evaluation thesaurus (p.216-223). Sage. Traduction par Carine Gazier et Thomas Delahais; traduction et reproduction du texte avec l’autorisation de Sage Publications.]
La fonction clé de l’inférence évaluative est de parvenir valablement à des conclusions évaluatives à partir de prémisses factuelles (et d’éléments de définition bien sûr); la principale tâche de la logique de l’évaluation est donc de montrer comment cela peut se justifier. Cette tâche a été et est toujours considérée comme impossible par la plupart des logicien-ne-s et des scientifiques – en particulier les spécialistes des sciences sociales. La première partie de cet article aborde le problème d’un point de vue pratique, en exposant deux paradigmes largement utilisés et respectables. La deuxième partie examine certains problèmes partiellement techniques liés à l’extension des paradigmes à d’autres domaines d’évaluation, et la troisième partie aborde le problème dans le langage technique du/de la logicien-ne et du/de la philosophe des sciences. Enfin, une référence est faite à un ou deux autres sujets de la logique de l’évaluation.
- Quels que soient les mérites de la discussion entre les logicien-ne-s, les évaluations quotidiennes de produits démontrent la faisabilité de l’inférence des faits aux valeurs. Elles partent de faits concernant les performances de divers produits et tirent des conclusions sur leur mérite relatif ou absolu. On peut difficilement prétendre que chaque numéro de Consumer Reports[1] soit rempli de mensonges. Pour un usage pratique, le paradigme de l’évaluation de produits est solide et généralisable. Si l’on en doute, on peut plutôt se tourner vers l’équivalent de l’évaluation de produits pour le scientifique en activité : l’évaluation de données, de conceptions, d’hypothèses, d’instruments, d’articles soumis pour publication, etc. Dans chaque cas, la ou le scientifique travaille à partir de données factuelles sur les performances et arrive à une conclusion évaluative; si elle ou il est contesté-e, il ou elle n’a aucun problème à défendre sa conclusion en faisant appel à des preuves, des définitions et des déductions valides.
- La critique habituelle faite au paradigme de l’évaluation de produits en tant qu’exemple de la manière d’arriver à des conclusions évaluatives à partir de prémisses factuelles suggère qu’il repose sur des valeurs partagées par ses lecteurs, ce qui n’est pas transposable à l’évaluation des programmes par exemple. Les gens ne sont pas radicalement en désaccord sur ce qu’ils ou elles apprécient dans un détergent; mais ils ou elles ne sont pas d’accord sur ce qu’ils ou elles veulent d’une clinique pour toxicomanes, d’une patrouille de police ou d’un programme scolaire. Cette critique comporte deux erreurs. En premier lieu, ce ne sont pas les valeurs partagées qui appuient la validité des évaluations de produits. Vous aurez remarqué que les associations de consommateurs et de consommatrices réalisent rarement, voire jamais, d’enquête pour vérifier ce que les gens apprécient dans les appareils et les produits. Les scientifiques ne font pas non plus d’enquêtes sur ce qui fait une bonne théorie. Ce n’est pas parce qu’ils ou elles pensent avoir des intuitions infaillibles sur les préférences de leurs pairs. C’est parce qu’ils ou elles partagent une même compréhension de la signification des termes décrivant le sujet évalué. Si vous savez ce qu’est une montre, vous savez que la précision de la mesure du temps, la lisibilité et la durabilité sont des qualités essentielles; et si vous savez cela, vous savez comment établir de prime abord certaines conclusions évaluatives à partir de prémisses factuelles sur le mérite comparatif des montres. (Il en va de même dans le cas des théories scientifiques.) Les noms de la plupart des produits et des entités méthodologiques ont une logique quelque peu similaire à celle des idéaux-types– des entités bien connues du domaine scientifique où le « gaz idéal », le « ressort parfaitement élastique », le « col bleu », la « concurrence parfaite », etc., servent un but utile. Ainsi, les conclusions relatives aux montres, aux lave-vaisselles, aux théories, etc., découlent directement de la compréhension de la signification des termes (leur définition implicite, les idéaux intégrés à la compréhension du concept) et des faits relatifs à leurs performances.
Ce n’est pas parce que certaines consommatrices ou certains consommateurs font preuve de goûts « aberrants » que ces conclusions sont erronées – pensez à ces personnes qui achètent des montres Rolex DayDate à 20 000 $, malgré le fait qu’elles sont beaucoup moins précises, plus difficiles à lire, nécessitent un entretien plus fréquent et plus coûteux, et sont plus susceptibles d’inciter à des agressions physiques sur le porteur que la Microtec suisse à 80 $ (l’actuelle championne de la précision et de la luminosité). L’existence de personnes cherchant à acheter un statut ne montre pas qu’il est erroné de qualifier la Microtec de meilleur achat, ni même qu’il est erroné de la classer au sommet des montres en termes de mérite. La légitimation de ce type d’inférence fait partie de la logique des descripteurs des produits, qui sont des abstractions issues d’un ensemble d’indicateurs incluant différentes fonctions. Un autre élément de la même logique est le regroupement par prix : nous protégerons souvent l’évaluation d’un produit contre les attaques en introduisant des catégories de prix. Nous pouvons alors reconnaître la supériorité à un prix plus élevé, comme lorsque nous disons que la Lexus 400 est une meilleure voiture que la Nissan Maxima, mais nous nous réservons le droit de dire que la Maxima est la meilleure voiture dans sa catégorie de prix. La Rolex, quant à elle, n’est pas une meilleure montre que la Microtec. Elle n’est qu’un meilleur symbole de statut social – et ce uniquement parmi les personnes ayant une appréciation limitée de la technologie – ce qui n’a pratiquement rien à voir avec son mérite en tant que montre.
Les études de performance en situation réelle, principales sources de faits dans l’évaluation de produits, impliquent plus que la vérification des performances sur les critères intégrés dans le sens commun. Les tests simulés ou réels sur le terrain (i) révèlent d’autres critères qui sont de toute évidence pertinents (généralement confirmés à l’unanimité par le personnel du laboratoire, mais la tenue d’un atelier peut être envisagée) et (ii) permettent d’établir un lien entre les critères initiaux et les nouveaux critères avec les mesures empiriques. Par exemple, bien qu’elle ne fasse (peut-être) pas partie de la signification spécifique d’une « ampoule électrique », la sécurité électrique est certainement un critère de mérite pour ces ampoules, et des mesures de ce type doivent être élaborées. (iii) Les essais contribuent également à la procédure de « découpage en tranches de prix », c’est-à-dire à l’identification de bons points de coupe pour les catégories de coûts (par exemple, voitures économiques, voitures de luxe) et au découpage en sous-catégories définies par fonction telles que « berline familiale », « fourgonnette », « voiture de sport », etc. L’introduction de sous-catégories préserve les conclusions évaluatives de l’accusation d’invalidité en leur substituant une validité limitée. Toutefois, il ne s’agit là que de raffinements; l’essentiel est que le paradigme de l’évaluation de produits survit à l’attaque de l’inférence faits-valeur en utilisant l’analyse fonctionnelle, plutôt que les faits variables et insaisissables que pourrait apporter une enquête portant sur les valeurs des consommateurs, pour établir ses conclusions évaluatives à partir de prémisses factuelles. Notre langage définit implicitement les idéaux-types dans le domaine des produits, comme il le fait souvent dans le domaine psychologique et sociologique, et nous les utilisons, avec le type de raffinement indiqué, comme les normes en fonction desquelles nous évaluons les produits réels. Les idéaux-types eux-mêmes sont basés sur une analyse fonctionnelle et définitionnelle, et non sur des sondages de popularité. Le même modèle que nous utilisons dans l’évaluation de produits s’applique – avec des modifications mineures – à l’évaluation des candidatures en réponse à une offre de poste, aux plans de construction par le biais de spécifications et aux programmes sociaux de la même manière (voir ci-dessous).
Ainsi, l’évaluation ne se cache pas dans des prémisses douteuses ni dans des hypothèses arbitraires sur ce qui est bon et mauvais, et encore moins sur ce qui est considéré comme bon et mauvais. Il suffit d’utiliser les « définitions » habituelles, c’est-à-dire les conceptions d’entités fonctionnelles, dont une partie de la conception est qu’elles sont de meilleurs exemples de leur genre si elles remplissent mieux les fonctions qui les définissent, ce qui en est en soi une vérité définitionnelle.
Mais qu’en est-il des considérations éthiques? Faut-il dénigrer les produits dont les contenants n’utilisent pas de matériaux recyclés? Ceux qui pourraient blesser des enfants curieux, bien qu’il n’y en ait pas dans notre famille? On pourra répondre gentiment que le rôle de l’éthique ici n’est pas différent de son rôle dans toute activité professionnelle; elle a un rôle et des codes professionnels existent – ou devraient être créés – pour le préciser. La réponse abrupte consiste à dire que les considérations éthiques ne sont que des considérations générales de stratégie sociale (analogues à des considérations juridiques) et que les stratégies sociales font l’objet d’une évaluation comme toute politique […]. Ainsi, dans la mesure où l’éthique entre en jeu, les questions éthiques doivent être réglées avant que la tâche ne soit achevée; et leur résolution est aussi un problème d’évaluation. Cela n’est pas différent du fait que les questions relatives au personnel ou aux questions fiscales ou juridiques doivent être réglées avant que nous puissions tirer des conclusions évaluatives finales au sujet d’un programme ou d’une institution – ou d’une guerre.
Un autre problème auquel il faut réfléchir concerne la relative imprécision du concept de la « fonction correcte d’une clinique de traitement de la toxicomanie » par opposition à la « fonction correcte d’un stylo à bille ». Une bonne analogie ici est avec la « fonction appropriée du MMPI[2] (ou de tout autre test standardisé) ». Cette fonction ne se limite pas à la fonction initialement prévue ou modifiée de ce test (l’erreur habituelle d’une évaluation qui viserait à vérifier l’atteinte des objectifs), mais est fonction d’une interaction entre les besoins existants et les ressources disponibles. Fondamentalement, lorsque nous procédons à l’évaluation d’un programme, nous devons déterminer simultanément la meilleure fonction et le mérite du programme. Ce n’est pas un processus banal, mais ce n’est pas plus problématique que de faire la même chose avec un test psychologique ou un instrument scientifique.
Mais supposons que nous devions nous rabattre sur des enquêtes sur les valeurs. Même dans ce cas, il est possible de faire preuve d’une plus grande objectivité. Supposons, par exemple, que l’on réalise une enquête sur les préférences dans le cadre d’une évaluation des besoins, ou dans le cas où les désirs sont les paramètres moteurs des choix (c.-à-d. lorsque l’éthique n’intervient pas). Supposons qu’il s’avère que les personnes interrogées ont un large éventail d’opinions différentes sur ce qui est souhaitable. Supposons, en outre, que les performances des candidates et des candidats selon des critères différents ne soient pas toutes identiques. Il s’agit d’une situation assez courante et souvent évoquée comme une raison de penser qu’il ne peut y avoir d’objectivité dans les évaluations : « le meilleur X sera très différent selon les personnes ». En fait, même sans recourir aux procédures habituelles de ségrégation, de sélection et d’idéalisation, les résultats sont souvent extrêmement solides et généralisables. En d’autres termes, le meilleur X sera le meilleur pour tou-te-s les répondant-e-s. Cela se produit évidemment lorsqu’un-e candidat-e surpasse les autres sur tous les critères, puisque les différences de pondération des critères ne sont alors plus pertinentes. Mais cela se produit également dans un très grand nombre de cas lorsque plusieurs candidats gagnent sur l’un ou l’autre critère, mais où leur avance sur ces critères est telle que, même multipliée par les (différentes) pondérations du critère, elle ne suffit pas à compenser l’avance du/de la candidat-e principal-e. Par conséquent, aucune conclusion relativiste au sujet de l’évaluation ne découle du fait qu’il existe de grandes différences dans les valeurs des consommateurs/trices, qu’elles soient ou non associées à de grandes différences dans les performances des candidat-e-s sur les dimensions valorisées. Il peut toujours y avoir – et c’est souvent le cas – des gagnants ou gagnantes absolu-e-s, dont on peut dire qu’ils ou elles sont les meilleur-e-s pour tout le monde. Il s’agit de cas où les gagnant-e-s écrasent tout simplement l’opposition.
Trois questions techniques. (i) Il est clair qu’un rôle central est joué ici par la notion de concepts groupés ou de « définitions par critères », contrairement aux définitions classiques qui étaient des règles de substitution ou des ensembles de conditions logiquement nécessaires et suffisantes. Par exemple, on dit que le sens du mot « montre » s’appuie sur des critères définitionnels comme la capacité de rester à l’heure. La plupart des termes utilisés dans la langue commune et dans les langues techniques des disciplines sont des concepts groupés. Ce fait réduit à néant le soi-disant « argument de la question ouverte » de G.E. Moore, qui était censé montrer que la signification des termes évaluatifs ne pouvait pas être « réduite » à des concepts non évaluatifs. Les réductions suggérées étaient censées commettre « l’erreur naturaliste », mais ne le faisaient que si elles étaient si simplistes qu’elles ne valaient pas la peine d’être examinées. (Référence « The Logic of Criteria », Journal of Philosophy, octobre 1959, réimprimé dans Critères, éd. John V. Canfield [Garland, 1986]). (ii) La reconnaissance de la nature et de l’ubiquité des concepts groupés conduit également à la notion d’inférence probante, le concept plus général d’inférence qui englobe l’inférence inductive et évaluative. (iii) L’inférence probante génère des conclusions à première vue plutôt que des conclusions catégoriques, conditionnelles ou (quantitatives) probabilistes. L’inférence probante peut être utilisée pour générer des conclusions en utilisant la signification fondamentalement qualitative de la probabilité (« c’est une pomme, donc l’intérieur est probablement d’une couleur très différente de la peau »), dont les versions plus mathématiques dérivent dans des cas particuliers, et elle est donc liée à un type d’inférence inductive. L’inférence à la meilleure explication est également une inférence probante, de même que la plupart des inférences à des conclusions juridiques ou évaluatives. (iv) L’un des aspects de l’inférence probante est sa nature itérative ou potentiellement itérative. C’est-à-dire qu’une première série d’inférences probantes génère des conclusions à première vue, qui sont testées par une enquête plus approfondie et modifiées à la lumière de nouvelles données, atteignant progressivement des niveaux de confiance justifiés, sans jamais dépasser la possibilité d’erreurs empiriques. Ce trait, si caractéristique du processus de raisonnement juridique, est tout aussi caractéristique de l’inférence évaluative par ses longues listes de contrôle multidimensionnelles. Elle est également caractéristique d’une grande partie du raisonnement scientifique, bien que les scientifiques semblent l’oublier lorsqu’ils évoquent la nature prima facie des conclusions évaluatives comme un signe que l’inférence y amenant n’est pas réellement scientifique. On entend souvent la question suivante : « Comment savez-vous qu’il n’y a pas d’autres considérations qui l’emporteront sur celles-ci? » Réponse : pour la même raison que vous connaissez parfois l’explication d’un phénomène physique. Vous recherchez des alternatives; même dans ce cas, vous ne pouvez jamais être absolument sûr-e, mais vous pouvez devenir de plus en plus sûr-e par une enquête itérative minutieuse, tout comme dans le processus de confirmation d’une hypothèse provisoire dans une enquête scientifique (ou criminelle).
Compte tenu de tout cela, que pouvons-nous dire, dans le cadre technique, de l’inférence depuis des prémisses factuelles jusqu’à des conclusions évaluatives? Il semble évident que cela ne peut pas se faire par une déduction stricte, mais en réalité presque aucune inférence scientifique ou de bon sens n’est déductive. Si l’on accepte l’idée que le seul autre choix est l’induction, et que l’on est impressionné-e par l’affirmation de Popper selon laquelle il n’y a pas de logique d’induction – seulement des suppositions et des confirmations– cela met un terme à la discussion. Il ne semble y avoir que trois options possibles. (A) On peut trouver un moyen de contourner les arguments de Popper et établir que l’inférence évaluative est inductive; (B) On peut inventer un nouveau type de logique, ce qui risque de ne faire que contourner la question (pourquoi devrait-on supposer que donner un nouveau nom à une erreur la rende légitime?); Ou (C) on peut essayer de sortir de sa manche un tour de magie déductif qui a semblé logiquement impossible aux meilleur-e-s logicien-e-s des deux derniers siècles. En fait, on peut faire les trois en toute légitimité.
(A) Popper a certainement tort à propos de la logique de l’induction – ironiquement, il était encore sous le charme du paradigme déductif. Il y a une logique d’induction, bien que ses principes ne puissent être formulés de la même manière que ceux de la logique déductive. On peut s’y former, l’enseigner et l’évaluer, et tou-te-s les scientifiques peuvent à chaque instant l’exécuter avec compétence, certain-e-s même avec brio (à cet égard, elle n’est pas différente de la déduction). Ses normes sont celles de l’argument scientifique; ses concepts de base sont dirigés par le concept d’explication – l’inverse du soutien inductif – et son assistant principal, le concept de définition critérielle, l’inverse de l’inférence de prime abord. Il s’agit pour l’essentiel d’une logique implicite – tout comme la grammaire d’une langue est pour la plupart implicite, mais assez précise pour que nous puissions créer et distinguer les phrases grammaticalement des phrases incorrectes dans presque tous les cas. Les outils de l’argument inductif et de la critique sont des analogies, des exemples, des contre-exemples, des contre-explications et des contrastes, plus souvent que des règles exactes, et les déclarations qu’elle utilise – comme les « règles de grammaire » – ne sont que des guides approximatifs de la vérité, c’est-à-dire des allusions et des heuristiques plutôt que des lois exactes. Nous utilisons certains paramètres comme « prima facie » (de prime abord), l’équilibre entre les éléments de preuve, et « toutes choses étant égales par ailleurs » – parfois « probablement » pour signaler les qualifications impliquées. L’un des exemples paradigmatiques du raisonnement inductif est le raisonnement évaluatif, et il suffit de consulter les Consumer Reports pour voir comment il fonctionne.
(B) Il est peut-être plus sain de commencer plus en arrière, plus près des fondamentaux, et de formuler tout cela sous l’angle d’une nouvelle logique qui couvre une grande partie de notre raisonnement quotidien ainsi que le raisonnement scientifique et juridique. Dans l’une de ces approches – la logique probante – la logique est traitée comme étant nécessairement et essentiellement une grammaire, avec parfois des cas limitatifs simples – les « règles grammaticales » occasionnelles, d’une part, et les règles de la logique déductive, d’autre part. (Les mathématiques sont, de ce point de vue, un pas au-delà de la logique déductive en direction de la science, mais pas aussi loin que Mill l’avait supposé). Dans la logique probante, le contexte est aussi important que le contenu; dans la logique traditionnelle, la nature de la logique est d’être indépendante du contexte. Dans la logique probante, les définitions ne sont jamais des règles de substitution, mais seulement des explications du sens, susceptibles d’être indéfiniment reformulées et affinées par ceux qui comprennent les termes définis, chaque fois qu’elles ne parviennent pas à transmettre le sens. À ce compte, le raisonnement évaluatif est un raisonnement probant typique, comme la plupart des inférences juridiques, de bon sens et scientifiques. (On trouvera un compte-rendu étendu, bien qu’encore programmatique, de ce phénomène dans « Probative Logic » [Logique Probante], dans Argumentation : Cross the Lines of Discipline, édité par van Eemeren, Grootendorst, Blair et Willard [Foris, 1987]).
(C) Enfin, on peut affirmer (comme le fait John Searle) qu’il y a des cas, quoique rares, où la déduction directe peut être utilisée pour briser le tabou. (i) Le meurtre est défini comme une mise à mort injustifiée (probablement plus proche de l’usage correct que la définition habituelle du dictionnaire qui le définit comme une mise à mort illégale). « Injustifiée » signifie ici en gros « pas en cas de légitime défense, de guerre, d’exécution, ou pour sauver la vie d’autrui ». (ii) On peut parfois établir, peut-être avec l’aide d’aveux, qu’un meurtre pour des raisons égoïstes, commis par quelqu’un-e qui n’est pas dans une situation désespérée, s’est produit. (iii) Nous pouvons donc conclure, à partir des définitions et des faits, que l’agent ou l’agente responsable est un meurtrier ou une meutrière, une conclusion évaluative. Il existe des moyens ultimes de contester cet exemple, notamment en s’attaquant à la définition employée en contexte (comme dans le cas de la définition de « injustifiée »), mais il s’agit bien de moyens ultimes puisqu’ils impliquent l’abandon d’une grande partie de la pratique du dictionnaire afin de sauver un dogme logique. Ce cas est étroitement analogue à l’inférence standard dans l’évaluation des produits.
Il devrait donc être clair que la logique d’une évaluation pratique sérieuse n’est pas l’inférence déductive invalide de « j’aime X » à « je devrais avoir X » (ou « je devrais obtenir X » ou « je mérite X »).
Il est vrai que, dans un contexte approprié, ce cas simple constitue le cas limite d’un type d’inférence prima facie, assez courant dans l’évaluation de produits, à savoir l’inférence des attributs que l’on souhaite avoir dans un produit à la conclusion que l’on devrait acheter un produit particulier. Il est juste de dire qu’il y a de nombreux pièges possibles sur le chemin qui mène de cette prémisse à cette conclusion, et la logique de l’évaluation est consacrée à gérer ces pièges.
Plusieurs autres questions relèvent de la logique de l’évaluation, comme la nature des évaluations des besoins – ces derniers semblent souvent relever de prémisses de valeur mais semblent aussi être des questions factuelles – et le problème de la spécification de l’objet logique parfois très complexe que l’on décrit comme une évaluation – la question des paramètres d’évaluation. (Certaines de ces questions ont fait l’objet d’une discussion plus approfondie dans The Logic of Evaluation, Edgepress, 1981.) […]
Bibliographie
Michael Scriven. 1987. « Probative Logic ». in Argumentation: Across the Lines of Discipline, édité par F. H. van Eemeren, R. Grootendorst, J. A. Blair et C. A. Willard. Providence: Foris Pubns USA.
Scriven, Michael. 1981. The Logic of Evaluation. 2e éd. Inverness: Edgepress.
Scriven, Michael. 1986. « The Logic of Criteria ». in Criteria, édité par J. V. Canfield. New York: Garland.