V. La diversité des approches paradigmatiques
1. Protocoles expérimentaux et quasi-expérimentaux pour la recherche
Donald T. Campbell et Julian C. Stanley
[Traduit de : Campbell, Donald T. et Julian C. Stanley. 1967. Experimental and quasi-experimental designs for research. Chicago: Rand McNally & Company, p. 1-6. Traduction par Carine Gazier et Valéry Ridde; traduction et reproduction du texte avec l’autorisation de Houghton Mifflin.]
Dans ce chapitre, nous examinerons la validité de 16 modèles expérimentaux par rapport à 12 menaces communes qui pèsent sur la validité des inférences. Par expérience, nous faisons référence à la partie de la recherche au sein de laquelle les variables sont manipulées et leurs effets sur d’autres variables observés. Il ne s’agit pas d’un chapitre sur le protocole expérimental dans la tradition de Fisher (1925, 1935), dans lequel un expérimentateur ou une expérimentatrice ayant une maîtrise complète peut programmer des traitements et des mesures pour une efficacité statistique optimale. Dans la mesure où les protocoles de recherche examinés dans le présent chapitre deviennent complexes, c’est à cause de l’intransigeance de l’environnement et de l’impossibilité d’un contrôle complet par l’expérimentateur ou l’expérimentatrice. Bien que nous ferons ponctuellement référence à la tradition de Fisher, pour une présentation plus systématique de cette tradition nous renvoyons notamment aux livres de Brownlee (1960), Cox (1958), Edwards (1960), Ferguson (1959), Johnson (1949), Johnson et Jackson (1959), Lindquist (1953), McNemar (1962) et Winer (1962). (Voir aussi Stanley, 1957b).
Problème et contexte
McCall comme modèle
En 1923, W. A. McCall a publié un livre intitulé « Comment mener des expériences dans le domaine de l’éducation ». Le présent chapitre reprend les considérations de ce livre en les actualisant. Ainsi, il commencera par l’étudier. Dans sa préface, McCall affirme : « Il existe d’excellents livres et enseignements traitant de l’analyse statistique des données expérimentales, mais il n’y a guère d’aide sur les méthodes permettant d’obtenir des données adéquates et correctes auxquelles appliquer la procédure statistique ». Cette phrase reste suffisamment vraie aujourd’hui pour servir de fil conducteur à cette présentation. Bien que l’impact de la tradition de Fisher ait permis de remédier à la situation de façon fondamentale, son effet le plus visible semble avoir été d’élaborer une analyse statistique plutôt que d’aider à obtenir des « données adéquates et correctes ». Probablement en raison de son orientation pratique et rationnelle, et de son manque de prétention à une contribution plus fondamentale, le livre de McCall est un classique sous-estimé. À l’époque de sa parution, deux ans avant la première édition des Statistical Methods for Research Workers [Méthodes statistiques pour les chercheurs] de Fisher (1925), il n’existait aucune publication d’un niveau d’excellence comparable en agriculture ou en psychologie. Il a anticipé les méthodes orthodoxes de ces autres domaines sur plusieurs points fondamentaux. Peut-être que la contribution la plus fondamentale de Fisher a été le concept d’une mise en équivalence préexpérimentale des groupes par assignation aléatoire. Ce concept, qui revient à abandonner la stratégie (intuitivement plus attrayante, mais trompeuse) de mise en équivalence des groupes par l’appariement, a été difficile à accepter pour les chercheurs et chercheuses en éducation. En 1923, McCall avait proposé une première formulation qualitative de cette approche, en mettant en avant une première méthode d’établissement de groupes comparables « par le hasard ». « Tout comme la représentativité peut être assurée par la méthode du hasard… l’équivalence peut être assurée par le hasard, à condition que le nombre de sujets soit suffisamment élevé » (p. 41). L’approche de Fisher avait également des précurseurs sur un autre point. Dès 1916, Thorndike, McCall et Chapman (1916) avaient introduit la conception du « carré latin », sous le terme, d’« expérience de rotation », dans les deux formes 5 X 5 et 2 X 2, c’est-à-dire une dizaine d’années avant que Fisher (1926) l’ait intégré systématiquement dans son plan expérimental, avec assignation aléatoire[1].
La façon dont McCall utilise l’« expérience de rotation » illustre bien l’importance de son livre et du présent chapitre. L’expérience de rotation est introduite non pas pour des raisons d’efficacité, mais plutôt pour obtenir un certain degré de contrôle lorsque l’assignation aléatoire à des groupes équivalents n’est pas possible. Dans le même ordre d’idées, ce chapitre examinera les imperfections de nombreux protocoles expérimentaux et plaidera néanmoins en faveur de leur utilisation dans les contextes où il n’est pas possible d’obtenir de meilleurs protocoles de recherches expérimentales. En ce sens, la majorité des protocoles de recherche discutés, y compris l’« expérience de rotation » qui n’implique pas d’assignation aléatoire, sont désignés comme des protocoles de recherches quasi expérimentaux.
Des désillusions face à l’expérimentation dans l’éducation
Le présent chapitre est consacré à la méthode expérimentale, comme seul moyen de régler les différends relatifs aux pratiques éducatives, comme seul moyen de vérifier les améliorations de l’éducation, et comme seul moyen d’établir une tradition cumulative dans laquelle des améliorations peuvent être introduites sans risquer de faire disparaître des pratiques anciennes, mais efficaces au profit de nouveautés inférieures. Pour autant, il ne s’agit pas de prétendre que cette défense de l’expérimentation serait nouvelle. Comme l’indique clairement l’existence du livre de McCall, une vague d’enthousiasme pour l’expérimentation a dominé le domaine de l’éducation à l’époque de Thorndike, atteignant peut-être son sommet dans les années 1920. Et cet enthousiasme a fait place à l’apathie et au rejet, ainsi qu’à l’adoption de nouvelles psychologies ne se prêtant pas à la vérification expérimentale. Good et Scates (1954 : 716‑21) ont ainsi rendu compte d’une vague de pessimisme, autour de 1935, même un fervent défenseur de l’expérimentation comme Monroe (1938) déclarait alors que « les contributions directes de l’expérimentation contrôlée ont été décevantes ». Plusieurs personnes bien formées dans la tradition expérimentale se sont alors tournées vers l’écriture d’essais, souvent accompagnées de la conversion du behaviorisme thorndikien à la psychologie de la Gestalt ou à la psychanalyse.
Pour éviter que cette désillusion ne se reproduise, il importe d’identifier certaines sources de la réaction précédente pour essayer d’éviter les fausses anticipations qui y ont conduit. Plusieurs aspects peuvent être notés. Tout d’abord, les affirmations concernant le niveau et le degré de progrès qui résulteraient de l’expérience étaient exagérément optimistes et s’accompagnaient d’une dépréciation injustifiée de la sagesse non expérimentale. Les partisans initiaux supposaient que les progrès dans la technologie de l’enseignement avaient été lents simplement parce que la méthode scientifique n’avait pas été appliquée. Selon cette logique, la pratique traditionnelle était inadaptée parce qu’elle n’avait pas été produite par l’expérimentation. Lorsque les expériences se sont souvent révélées fastidieuses, équivoques, d’une reproductibilité peu fiable, ou encore lorsqu’elles aboutissaient finalement à valider les options issues de la sagesse préscientifique, et pour confirmer la sagesse préscientifique, les arguments trop optimistes sur lesquels l’expérimentation avait été justifiée ont été réduits à néant, conduisant à un rejet ou une mise à l’écart désabusée.
Cette désillusion été partagée tant par les expérimentateurs et expérimentatrices que par les participantes et participants à l’expérimentation. Les premier-e-s ont développé un conditionnement personnel à éviter les expérimentations. Pour tout chercheur ou toute chercheuse motivé-e, la non-confirmation d’une hypothèse importante est douloureuse. En tant qu’animal biologique et psychologique, l’expérimentateur ou l’expérimentatrice est soumis-e à des lois d’apprentissage qui l’amènent inévitablement à associer cette douleur aux stimuli et aux événements contigus. Le processus expérimental lui-même est souvent perçu comme étant le stimulus à l’œuvre, plus directement que la « véritable » source de frustration, c’est-à-dire la théorie inadéquate. Cela peut conduire, peut-être inconsciemment, à éviter ou à rejeter le processus expérimental. Si, comme cela semble probable, l’écologie de notre science est celle dans laquelle il existe beaucoup plus de mauvaises réponses que de bonnes, nous pouvons prévoir que la plupart des expériences soient décevantes. Nous devons en quelque sorte vacciner les jeunes expérimentateurs et expérimentatrices contre cet effet. En général, nous devons justifier l’expérimentation sur des bases plus pessimistes – non pas comme une panacée, mais plutôt comme la seule voie disponible pour un progrès cumulatif. Nous devons apprendre à nos étudiantes et étudiants à s’attendre à de l’ennui et de la déception, et à cultiver une persévérance approfondie, à l’instar des sciences biologiques et physiques. Nous devons élargir le vœu de pauvreté de nos étudiant-e-s pour y inclure non seulement la volonté d’accepter la pauvreté financière, mais aussi la pauvreté des résultats expérimentaux.
Plus précisément, nous devons étendre notre horizon temporel et reconnaître que l’expérimentation scientifique est un processus continu et multiple, plutôt qu’une démarche ponctuelle aboutissant à des résultats définitifs. Les expériences que nous réalisons aujourd’hui, si elles sont couronnées de succès, devront être reproduites et validées à d’autres moments et dans d’autres conditions avant de pouvoir devenir une partie établie de la science, pouvant être théoriquement interprétée avec confiance. En outre, même si nous considérons l’expérimentation comme langage de base de la preuve, comme seul tribunal permettant de trancher entre des théories rivales, nous ne devons pas nous attendre à ce que les « expériences cruciales » mettant en opposition des théories conflictuelles aient des résultats clairs. Lorsque l’on constate, par exemple, que les personnes compétentes qui observent la situation défendent fortement des points de vue divergents, il semble probable, a priori, que les deux aient observé quelque chose de valable sur la situation naturelle et que les deux représentent une partie de la vérité. Plus la controverse est forte, plus c’est probable. On peut donc s’attendre, dans de tels cas, à un résultat expérimental avec des conclusions mitigées, ou avec l’équilibre de la vérité variant subtilement d’une expérience à l’autre. La démarche plus avancée – en grande partie atteinte par la psychologie cognitive (par exemple Underwood, 1957b) – évite des expériences cruciales et étudie plutôt les relations et interactions dimensionnelles sur plusieurs degrés des variables expérimentales.
Il ne faut pas non plus négliger la diffusion, en psychologie et en éducation, de procédures statistiques considérablement améliorées. Au cours de la période de sa plus grande activité, l’expérimentation éducative s’est déroulée de façon inefficace avec des outils trop pointilleux. McCall (1923) et ses contemporain-e-s menaient leurs recherches en étudiant une seule variable à la fois. Cela s’est révélé trop restrictif par rapport au degré de complexité des processus d’apprentissage humain. Nous savons maintenant à quel point diverses contingences – dépendances à l’action conjointe de deux variables expérimentales ou plus – peuvent être importantes. Stanley (1957a, 1960, 1961b, 1961c, 1962), Stanley et Wiley (1962), et d’autres ont souligné l’évaluation de ces interactions.
Les expériences peuvent être multivariées de deux façons. Plus d’une variable « indépendante » (sexe, niveau scolaire, méthode d’enseignement arithmétique, police et taille des caractères d’impression, etc.) peut être incorporée dans le protocole de recherche et plus d’une variable « dépendante » (nombre d’erreurs, vitesse, nombre exact, divers tests, etc.) peut être utilisée. Les procédures de Fisher sont multivariées dans le premier sens, univariées dans le second. Les statisticiens mathématiques, par exemple Roy et Gnanadesikan (1959), travaillent à des protocoles et à des analyses qui unifient les deux types de protocoles de recherches multivariés. Peut-être qu’en étant vigilant-e-s, les chercheuses et les chercheurs en éducation peuvent réduire le décalage généralement important entre l’introduction d’une procédure statistique dans la littérature technique et son utilisation dans les enquêtes de fond. Sans aucun doute, une formation plus poussée des chercheuses et chercheurs en éducation dans le domaine des statistiques expérimentales devrait contribuer à améliorer la qualité des démarches expérimentales en éducation.
Perspective d’évolution de la sagesse et de la science cumulatives
Les commentaires des paragraphes précédents, et une grande partie de ce qui suit, sont fondés sur une perspective évolutive de la connaissance (Campbell, 1959) dans laquelle la pratique appliquée et les connaissances scientifiques sont considérées comme le résultat d’un cumul de tentatives retenues sélectivement, les autres ayant été éliminées par l’expérience. Une telle perspective conduit à un respect considérable de la tradition dans la pratique de l’enseignement. Si, en effet, au fil des siècles, de nombreuses approches différentes ont été essayées, si certaines ont mieux fonctionné que d’autres, et si celles qui ont mieux fonctionné ont donc été, dans une certaine mesure, appliquées de façon plus persistante par leurs auteurs et autrices, ou imitées par d’autres, ou enseignées aux apprenti-e-s, alors les coutumes qui ont émergé peuvent représenter un sous-ensemble précieux et éprouvé de toutes les pratiques possibles.
Mais l’aspect sélectif et avant-gardiste de ce processus d’évolution est très imprécis dans le cadre naturel. Les conditions d’observation, tant physiques que psychologiques, sont loin d’être optimales. Ce qui survit, ou est retenu, est en grande partie déterminé par le hasard pur. L’expérimentation devient à ce stade le moyen d’affiner la pertinence du processus de test, d’analyse et de sélection. L’expérimentation n’est donc pas considérée elle-même comme une source d’idées nécessairement contradictoire avec la sagesse traditionnelle. Il s’agit plutôt d’un processus d’affinage qui s’ajoute aux acquis probablement importants de la sagesse pratique cumulée. La promotion d’une science expérimentale de l’éducation n’est donc pas incompatible avec la sagesse traditionnelle.
Certains lecteurs pensent peut-être que l’analogie avec le schéma évolutif de Darwin devient compliquée avec des facteurs spécifiquement humains. Un directeur ou une directrice d’école lambda, lorsqu’il ou elle est confronté-e à la nécessité de décider d’adopter un manuel révisé ou de conserver la version non révisée plus longtemps, effectue probablement son choix sur la base de connaissances limitées. En plus de l’efficacité de l’enseignement et de l’apprentissage, de nombreuses considérations lui viennent à l’esprit. Il ou elle peut avoir raison de deux façons : garder l’ancien livre quand il est aussi bon ou meilleur que le livre révisé, ou adopter le livre révisé quand il est supérieur à l’édition non révisée. De même, il ou elle peut se tromper de deux façons : garder l’ancien livre quand le nouveau est meilleur, ou adopter le nouveau livre quand il ne vaut pas mieux que l’ancien.
Des « coûts » de plusieurs types peuvent être estimés approximativement pour chacun des deux choix erronés : (1) les coûts financiers et les coûts des dépenses d’énergie; (2) le coût, pour le directeur ou la directrice, des plaintes des enseignant-e-s, des parents et du conseil d’administration; (3) le coût pour les enseignant-e-s, les élèves et la société en raison d’une instruction de moins bonne qualité. Ces coûts en termes d’argent, d’énergie, de confusion, d’appauvrissement des apprentissages et de risque personnel doivent être comparés avec la probabilité que chacun se produise, ainsi qu’avec la probabilité que l’erreur, elle-même, soit détectée. Si le directeur ou la directrice prend sa décision en l’absence de données de recherche appropriées concernant le coût 3 (instruction de moins bonne qualité), il ou elle risque d’exagérer les coûts 1 et 2. Tout semble militer en faveur d’une approche conservatrice – c’est-à-dire conserver l’ancien livre pour une année supplémentaire. Cependant, nous pouvons essayer de mener une expérience avec les deux livres dans un modèle de théorie de la décision (Chernoff et Moses, 1959) et parvenir à une décision qui prenne explicitement en considération les divers coûts et probabilités. Le degré auquel les délibérations approfondies d’un excellent administrateur ou d’une excellente administratrice de l’éducation se rapprochent de ce modèle de théorie de la décision est un problème important qu’il convient d’étudier.
Facteurs compromettant la validité interne et externe
Dans les sections suivantes de ce chapitre, nous énonçons 12 facteurs compromettant la validité de divers protocoles de recherches expérimentales. Chaque facteur sera présenté dans le contexte des protocoles de recherche pour lesquels il représente un problème particulier. […] Il importe de poser au préalable la distinction essentielle entre validité interne et validité externe. La validité interne est le minimum de base sans lequel une expérience est ininterprétable. Les traitements expérimentaux ont-ils réellement fait une différence dans ce cas spécifique? La validité externe pose la question de la possibilité de généraliser. À quelles populations, à quels contextes, à quelles variables de traitement et de mesure cet effet peut-il être généralisé? Les deux types de critères sont évidemment importants, même s’ils sont souvent contradictoires dans la mesure où l’augmentation de l’un risque de compromettre l’autre. Tandis que la validité interne est la condition sine qua non et que la question de la validité externe, comme la question de l’inférence inductive, n’est jamais entièrement résolue, la sélection de protocoles de recherche donnant de bons résultats pour les deux types de validité est évidemment notre idéal. C’est particulièrement le cas de la recherche en éducation, où l’on vise de pouvoir généraliser à des cadres connus comme étant similaires. Tant les distinctions que les relations entre ces deux catégories de considérations sur la validité seront rendues plus explicites, au fur et à mesure qu’elles seront illustrées dans les discussions sur des protocoles de recherche spécifiques.
En ce qui concerne la validité interne, huit classes différentes de variables exogènes seront présentées. Ces variables, si elles ne sont pas contrôlées dans le plan expérimental, peuvent produire des effets confondus avec l’effet du stimulus expérimental. Ces variables correspondent à des effets :
1. Historique : les événements spécifiques survenus entre la première et la deuxième mesure, en plus de la variable expérimentale.
2. De maturation : renvoie aux processus qui, chez les répondants, s’accentuent avec le passage du temps, indépendamment des événements particuliers): par exemple vieillir, être de plus en plus affamé, de plus en plus fatigué, etc.
3. De test : les effets d’un test sur les résultats d’un second test.
4. D’instrumentation : des changements dans l’étalonnage d’un instrument de mesure ou des changements dans les observateurs ou les marqueurs utilisés peuvent entraîner des changements dans les mesures obtenues.
5. De régression statistique, lorsque les groupes ont été sélectionnés sur la base de leurs scores extrêmes.
6. De biais entraînant une sélection différentielle des répondants pour les groupes de comparaison.
7. De mortalité expérimentale, ou perte différentielle des répondant‑e‑s des groupes de comparaison.
8. De sélection, de maturation, d’interaction, etc. qui, dans certains des protocoles de recherches quasi expérimentales à groupes multiples, comme le protocole de recherche 10, sont confondues avec – c’est-à-dire, pourrait être pris à tort pour – l’effet de la variable expérimentale.
Concernant les facteurs affectant la validité externe, ou représentativité, nous discuterons des facteurs suivants :
9. L’effet réactif ou d’interaction du test : un pré‑test peut augmenter ou diminuer la réactivité du répondant à la variable expérimentale. Cela peut rendre les résultats obtenus pour cette population pré-testée non représentatifs des effets pour l’univers non testé dans lequel les répondant‑e‑s expérimentaux ont été sélectionné‑e‑s.
10. Les effets d’interaction entre les biais de sélection et la variable expérimentale.
11. Les effets réactifs des arrangements expérimentaux qui empêcheraient la généralisation de l’effet de la variable expérimentale sur les personnes qui y sont exposées dans des environnements non expérimentaux.
12. L’interférence des traitements multiples, susceptible de se produire chaque fois que des traitements multiples sont appliqués aux mêmes répondant-e-s, parce que les effets des traitements antérieurs ne sont généralement pas effaçables.
Bibliographie
Brownlee, Kenneth A. 1960. Statistical theory and methodology in Science and engineering. New York: Wiley.
Campbell, Donald T. 1959. « Methodological suggestions from a comparative psychology of knowledge processes ». Inquiry 2 : 152‑82.
Chernoff, Herman, et Lincoln E. Moses. 1959. Elementary decision theory. New York: Wiley.
Cox, David R. 1958. Planning of experiments. New York: Wiley.
Edward, Allen L. 1960. Experimental design in psychological research. New York: Rinehart.
Ferguson, George A. 1959. Statistical analysis in psychology and education. New York: McGraw-Hill.
Fisher, Ronald A. 1925. Statistical Methods for Research Workers. London: Oliver & Boyd.
Fisher, Ronald A. 1926. « The arrangement of field experiments ». Journal of the Ministry of Agriculture 33 : 503‑15.
Fisher, Ronald A. 1935. The Design of Experiments. 1re éd. London: Oliver & Boyd.
Good, Carter V., et Scates. 1954. Methods of research: Educational, Psychological, Sociological. New York: Appleton-Century-Crofts.
Johnson, Palmer O. 1949. Statistical methods in research. New York: Prentice-Hall.
Johnson, Palmer O., et Robert W. B. Jackson. 1959. Modern Statistical methods: Descriptive and inductive. Chicago: Rand McNally.
Kendall, Maurice G., et William R. Buckland. 1957. A dictionary of statistical terms. London: Oliver & Boyd.
Lindquist, Everet F. 1953. Design and analysis of experiments in psychology and education. Boston: Houghton Mifflin.
McCall, William A. 1923. How to Experiment in Education. New York: Macmillan.
McNemar, Quinn. 1962. Psychological statistics. 3e éd. New York: Wiley.
Monroe, Walter S. 1938. « General Methods: Classroom experimentation » édité par G. M. Whipple. Yearbook of the national society for the study of education 2 : 319‑27.
Roy, Samarenda N., et Ramanathan Gnanadesikan. 1959. « Some contributions to ANOVA in one or more dimensions: I and II ». Annals of Mathematical Statististics 30(2) : 304-317 ; 318‑40. doi : 10.1214/aoms/1177706254.
Stanley, Julian C. 1957a. « Controlled experimentation in the classroom ». Journal of Experimental Education. 25:195‑201.
Stanley, Julian C. 1957b. « Research methods: Experimental design ». Review of Educational Research. 27:449‑59.
Stanley, Julian C. 1960. « Interactions of organisms with experimental variables as a key to the integration of organismic and variable-manipulating research », édité par E. M. Huddleston. Yearbook of the National Council on Measurements used in Education. 7‑13.
Stanley, Julian C. 1961a. « Analysis of unreplicated three way classifications, with applications to rater bias and trait independence ». Psychometrika 26 : 205‑20.
Stanley, Julian C. 1961b. « Studying status vs. manipulating variables ». in Research design and analysis: The second Phi Delta Kappa symposium on educational research, édité par R. O. Collier et S. M. Elam. Bloomington: Phi Delta Kappa, p. 173‑208.
Stanley, Julian C. 1962. « Analysis-of-variance principles applied to the grading of essay tests ». Journal of Experimental Education. 30 : 279‑83.
Stanley, Julian C., et D. E. Wiley. 1962. Development and analysis of experimental designs for ratings. Madison, Wis: Authors.
Thorndike, Edward L., William A. McCall et J. Crosby Chapman. 1916. « Ventilation in Relation to Mental Work ». Teacher College, Columbia University Contributions to Education (78).
Underwood, Benton J. 1957. Psychological research. New York: Appleton-Century-Crofts.
Winer, Ben J. 1962. Statistical Principles in experimental design. New York: McGraw Hill.
- Kendall et Buckland (1957) disent que le carré latin a été inventé par le mathématicien Euler en 1782. Thorndike, Chapman et McCall n’utilisent pas ce terme. ↵