Module 8 : Approches méthodologiques et stratégies d’enquête

44 L’approche quantitative et statistique, et ses principales stratégies d’enquête

Judicaël Alladatin

Présentation du thème et des auteurs du chapitre

 

À la différence des données qualitatives, qui sont des informations littérales provenant le plus souvent d’entretiens individuels et de discussions de groupe, les données quantitatives sont des informations numériques ou statistiques provenant le plus souvent d’enquêtes, de rapports, ou de données administratives. Les données quantitatives sont utiles quand on cherche à décrire le qui, le quoi, le où et le quand, afin de fournir un portrait ou les tendances d’une population ou d’une région. Les données qualitatives fournissent une information enrichie, approfondie sur quelques individus ou quelques cas, et sont donc utiles quand on cherche à expliquer le comment et le pourquoi.

Dans cette fiche, nous abordons la collecte et l’exploitation des données quantitatives. Il s’agira donc d’étudier le processus de réalisation et d’exploitation d’une enquête par questionnaire. L’enquête par questionnaire, regroupe l’ensemble des techniques de collecte qui s’appuient sur la confection et l’utilisation d’un questionnaire, par exemple, le sondage par questionnaire, le questionnaire postal et l’enquête par questionnaire direct.

Cette méthode est utilisée lorsque le sujet est relativement bien connu, ou encore lorsqu’on :

  • veut des résultats quantifiés;
  • cherche à valider et à généraliser les résultats;
  • a les moyens de mener une telle enquête;
  • peut accéder à la population, c’est-à-dire recevoir suffisamment de réponses et avoir la capacité à traiter les données (argent, temps, logiciel, par exemple).

La mise en œuvre d’une telle opération exige le déroulement de plusieurs étapes :

  1. Définition de l’objet de l’enquête et de la population cible;
  2. Pré-enquête d’exploration du sujet (terrain ou documentation);
  3. Définition finale des objectifs et hypothèses de l’enquête (le cas échéant);
  4. Définition des indicateurs, confection de l’outil de collecte et plan de sondage;
  5. Pré-test ou test de l’outil de collecte;
  6. Formation des enquêteurs (le cas échéant), préparation du terrain et confection du masque de saisie;
  7. Collecte des données;
  8. Plan de codage, dépouillement et saisie des données et finalisation de la base de données ;
  9. Plan d’analyse et analyse des données;
  10. Rapport provisoire, analyse critique du déroulement (post-enquête) et rapport final.

L’outil de prédilection dans le cadre de la collecte de données quantitatives est le questionnaire et la méthode d’observation est l’enquête par questionnaire. L’enquête par questionnaire peut apparaître comme une méthode d’observation d’élaboration facile (rapidité, faible coût, anonymat, etc.), mais il requiert une certaine compétence basée sur une technique sûre. Il prive le chercheur de beaucoup d’observations accessibles lors d’un contact direct. Certains thèmes sensibles sont difficilement abordables dans un questionnaire en plus de difficultés liées au taux de réponse et au contrôle des non-réponses.

En dehors de l’enquête par questionnaire, le sondage peut parfois être utilisé dans le cadre de la collecte de données quantitatives.

En statistiques, un sondage est une enquête réalisée sur une population donnée, humaine ou non, pour en mesurer ses caractéristiques concernant un sujet précis. Il est réalisé selon une méthode statistique auprès d’un échantillon représentatif de la population.

Du sujet de recherche au questionnaire ergonomique

Le questionnaire est un document imprimé ou électronique destiné à recueillir les données requises par un protocole de recherche (en anglais on parle de « Case Report Form », soit CRF ou eCRF). Cet outil vise la collecte structurée et standardisée de données en accord avec le protocole de recherche et la règlementation.

Plusieurs types de questions peuvent permettre de varier le questionnaire :

Des questions ouvertes. Par exemple, quelle est, à votre avis, la meilleure méthode d’apprentissage de la lecture?

Des questions à choix multiples. Par exemple, quelle est la méthode d’apprentissage de la lecture que vous utilisez actuellement dans votre classe? Le syllabaire (), l’analytique (), la gestuelle (), la fonctionnelle ().

Des questions semi-ouvertes. Par exemple, pour quelles raisons n’utilisez-vous pas la méthode gestuelle? Elle est trop complexe (), il n’existe pas de bons manuels (), je la trouve peu efficace (), autre raison à préciser ().

Des échelles de mesure (type likert). Par exemple, utilisez-vous un manuel de lecture pour vos élèves? Fréquemment (), Souvent (), Rarement (), Jamais ().

Des questions fermées. Par exemple, êtes-vous d’accord pour l’usage de la méthode gestuelle comme méthode pédagogique prépondérante? oui (), non ().

Le processus d’élaboration de questionnaire comporte plusieurs étapes :

  • Définir les dimensions et les sous-dimensions de l’étude à partir du sujet, de la problématique, des objectifs et hypothèses, mais aussi de l’exploration (pré-enquête);
  • Identifier les questions reliées à chaque indicateur;
  • Rédiger le questionnaire (formulation et mise en forme);
  • Relire le questionnaire : relecture multidisciplinaire (par exemple, par un statisticien, sociologue, démographe, agronome);
  • Pré-test auprès de la population à l’étude et corrections;
  • Rédaction de guide de l’enquêteur et du formulaire de consentement s’il y a lieu.
Le questionnaire

Le questionnaire est un instrument de mesure soumis à des erreurs de mesure, des erreurs du répondant, des erreurs de l’enquêteur ou encore des erreurs liées à la manière de coder l’information. Il est donc important de passer du temps sur la forme et le fond du questionnaire (ergonomie).

Dans l’élaboration d’un questionnaire, il est donc important de veiller à l’ergonomie. Cela suppose que le questionnaire doit être fidèle, valide, pertinent et neutre. Il faut en outre faire attention aux points suivants :

  • Pré-codage, alignement à droite, utilisation de tableaux, etc.;
  • Respect de l’ordre numérique et chronologique;
  • Regrouper ensemble ce qui va ensemble;
  • Tenter de garder le questionnaire intéressant et attrayant pour le répondant du début à la fin, entre autres en variant les styles de questions (désirabilité sociale);
  • Respecter le cheminement normal d’une conversation.

Le questionnaire ne doit pas être long pour ne pas lasser, mais doit fournir suffisamment d’information. L’ordre des questions peut jouer un rôle important, car une question peut en influencer une autre, ce qu’on appelle l’« effet de contamination ». Il faut vérifier cela en pré-test et, le cas échéant, varier l’ordre des questions. Parfois, il est préférable de mettre les éléments socio-démographiques en fin de questionnaire pour éviter l’effet de contamination. Enfin, il est important de soigner dans le questionnaire le mot de présentation et de fin.

En ce qui concerne la formulation de chaque question, plusieurs règles doivent être respectées :

  • Éviter les termes polysémiques, le langage ou vocabulaire trop technique ou trop élaboré. Exemple : Pensez-vous que les réfugiés sont victimes d’exclusion sociale sur leur terre d’accueil?
  • Formuler des questions bien ciblées et discriminantes pour ne pas avoir des questions où tout le monde répond « oui ». Exemple : Au lieu de demander simplement : « Pensez-vous que l’école est importante de nos jours ? », une façon de mieux cibler la réponse est demandée : « Estimez-vous qu’il est acceptable de délaisser l’école primaire ou secondaire au profit d’une activité génératrice de revenus ? » ;
  • Éviter les questions qui ne répondent à aucun objectif ;
  • Éviter les questions trop longues ;
  • Veiller au mieux à la pré-codification ;
  • La question doit être comprise à la première lecture, car les personnes qui vont y répondre ne lisent pas forcément attentivement ;
  • Éviter les questions imprécises (par exemple, la notion de mariage, en Afrique, revêt plusieurs formes et peut même regrouper les unions libres ou le concubinage selon le point de vue de l’enquêté. Si l’objectif de la question est de mesurer la fréquence des mariages civils, la question « Êtes-vous mariés ? » s’avère imprécise dans un tel contexte) ;
  • Éviter les adverbes indéfinis (près, régulièrement, prochainement…) ;
  • Éviter les mots extrêmes (souvent, beaucoup, tout…) ;
  • Éviter les mots qui n’ont pas le même sens pour tous () ;
  • Éviter les termes trop généraux ;
  • Éviter les exemples trop spécifiques ;
  • Éviter les questions tendancieuses qui influencent la réponse), donc
  • Faire attention aux mots chargés émotionnellement (liberté, égalité, justice, décès).

Petit exercice

En fonction des éléments présentés précédemment, formulez un court questionnaire de 5 questions en lien avec votre sujet d’étude. Faites-les relire à des collègues et à des personnes de la population cible pour voir si elles sont accessibles et vous renseignent sur votre objet d’étude.

Synthèse

Exemple avec la variable « Soutien social » :

Mode d’administration du questionnaire

Il existe globalement trois modes d’administration du questionnaire.

  • Le mode direct : il s’agit d’un contact humain direct soit par porte-à-porte ou par sondeurs dans la rue où l’enquêteur pose les questions et enregistre lui-même les réponses fournies (attention à leur formation/motivation qui a un impact important)
  • Le mode indirect. : il s’agit d’un contact humain indirect effectué par le biais d’un centre d’appel (établir un protocole précis)..
  • L’auto-administration : il s’agit ici d’un questionnaire papier ou électronique à remplir par l’enquêté et à renvoyer par le biais de la poste, d’un courriel ou d’un système informatisé. Lorsque la réponse de l’enquêté est envoyée par courriel, on parle de DED (déclaration électronique des données), CAWI (Computer-Assisted Web Interviewing) s’il s’agit d’un système informatisé. Certains outils informatiques facilitent l’utilisation de CAWI, dont :
    • Le Sphinx Online : un système « pro »
    • Google forms (Gratuit) : on peut créer et diffuser un questionnaire en quelques minutes avec Google forms, ouvrir la synthèse des résultats aux répondants et répondantes, ou encore changer les questions « à la volée ».

Dans le cadre de l’administration du questionnaire, il faut faire attention aux éléments suivants :

  • Les règles éthiques et déontologiques (Genard & Roca, 2014);
  • L’effet de contexte : faire attention aux circonstances dans lesquelles les participants et participantes répondent;
  • Préparer préalablement le terrain;
  • Veiller au suivi du processus de recrutement et formation des personnes qui vont réaliser l’enquête;
  • Choisir le mode d’administration adapté (temps, compétence et budget).

Échantillonnage

La recherche quantitative repose sur l’analyse des données numériques obtenues à partir d’une investigation empirique effectuée par soi-même (données primaires) ou d’une base de données existante (données secondaires). Il est donc important de se demander s’il est préférable de collecter les données soi-même ou d’obtenir les informations dont on a besoin d’une base de données existante. Dans le premier cas, les données doivent être collectées au moyen de techniques de collecte de données acceptées, afin de protéger la crédibilité et la fiabilité des résultats de la recherche.

L’idéal serait de réaliser une enquête exhaustive pour collecter les données sur l’ensemble de la population d’étude. Cependant, ce type d’enquête est très coûteux et dure sur une longue période qui peut excéder le cadre de la thèse.

Les enquêtes sont pour la plupart réalisées par sondage, qui consiste à collecter les données auprès d’une fraction de la population mère. Cette technique offre l’avantage, lorsqu’elle utilise des méthodes valides, d’extrapoler les résultats à l’ensemble de la population. Pour cela, il est essentiel de choisir soigneusement l’échantillon afin qu’il soit le plus représentatif que possible de la population mère (Fortin & Gagnon, 2016).

L’échantillonnage est le procédé par lequel l’on sélectionne un échantillon d’étude au sein d’une population dans le cadre d’une enquête par sondage.

Le graphique suivant résume les différentes étapes de la phase d’échantillonnage.En matière d’échantillonnage, le souci permanent en statistiques est, d’une part, l’effectif et, de l’autre, la représentativité. Même si l’on reconnait que plus la taille de l’échantillon est grande, plus la marge d’erreur est atténuée, il faut garder à l’esprit qu’une taille élevée ne garantit pas une représentativité de l’échantillon. L’échantillon est dit représentatif lorsque les résultats qu’elle fournit sont sensiblement les mêmes que dans le cadre d’une étude exhaustive.

À retenir

C’est donc la méthode d’échantillonnage qui détermine le plus la représentativité de cette dernière et non la taille de l’échantillon.

Dans le cadre d’une étude où l’on cherche à contrôler la marge d’erreur et l’intervalle de confiance, la taille de l’échantillon est déterminée par la formule :

  • n est la taille théorique souhaitée;
  • α (s) seuil de confiance (ou niveau de confiance ou encore taux de confiance) que l’on souhaite garantir sur la mesure;
  • Zα (t) coefficient de marge déduit du taux de confiance (1,96 quand α = 95 %);
  • e (m) = marge d’erreur que l’on se donne pour la grandeur que l’on veut estimer (par exemple, on veut connaître la proportion réelle à 5 % près).
  • p est la proportion attendue de la caractéristique qui nous intéresse (c’est-à-dire, les réponses des personnes répondantes à certaines questions) et dont on veut contrôler la marge d’erreur. On prend habituellement la proportion maximale, soit 0,5.
  • 1-p est 1 moins la proportion p.

Dans le cas d’une population de petite taille, on constate que n est supérieur à N. Il faut alors procéder à une correction en déterminant n’ (taille corrigée de l’échantillon) avec la formule suivante :

Il existe plusieurs types d’échantillonnage : probabiliste et non probabiliste.

L’échantillon probabiliste

Les méthodes probabilistes sont basées sur un processus de sélection aléatoire des individus (accessibles ou non). Cela veut dire que chaque individu de la population d’étude a une chance égale ou non nulle d’être sélectionné pour faire partir de l’échantillon d’étude. Ce faisant, les méthodes probabilistes présentent l’avantage d’obtenir un échantillon représentatif et d’extrapoler les résultats à l’ensemble de la population. La mise en œuvre de ces méthodes nécessite une base de sondage. La base de sondage est la liste exhaustive de tous les individus de la population d’étude.

Échantillonnage aléatoire simple : est une technique de sélection des éléments de l’échantillon d’étude qui offre à chacun d’eux la même chance d’en faire partir. Dans ce cas, la probabilité pour qu’un élément soit sélectionné est donnée par la formule suivante :   avec n les taille de l’échantillon et N celle de la population mère. L’échantillonnage aléatoire simple permet de corriger des biais d’échantillonnage et d’évaluer l’erreur d’échantillonnage (Fortin & Gagnon, 2016). Il favorise la représentativité de l’échantillon d’étude, mais ne la garantit pas.

Échantillonnage stratifié: consiste à subdiviser la population d’étude en des groupes exclusifs (homogène) appelés strates et à tirer aléatoirement simple sans remise à l’intérieur de chaque strate. Les critères de stratification dépendent du chercheur et de ses objectifs. Il est possible de créer les strates en utilisant le critère du découpage géographique comme la zone dénombrement (ZD), la commune ou région.

On peut également utiliser comme critère l’une des caractéristiques (sexe, profession, etc.) connues de la population d’étude.

Cette technique de sélection des individus présente l’avantage d’apporter des précisions par strate.

Échantillonnage systématique : obéit à une règle simple, dans laquelle chaque k-ième unité est sélectionnée à partir d’un nombre de 1 à k choisi au hasard comme point de départ aléatoire. Cette méthode consiste à dresser la liste de tous les éléments de la population d’étude et de déterminer le pas d’échantillonnage k en divisant la taille de population par la taille de l’échantillon. Ensuite, on détermine le point de départ en choisissant aléatoirement entre 1 et le pas k. On sélectionne enfin chaque k-ième unité jusqu’à atteindre le nombre d’unités voulues pour former l’échantillon.

Échantillonnage hiérarchique : Encore appelé échantillonnage à plusieurs degrés. Cette technique consiste à identifier et sélectionner aléatoirement au premier degré les sous-groupes de la population. Après on échantillonne à l’aide d’une technique probabiliste les unités au sein des sous- groupes sélectionnés au second degré.

L’échantillonnage non probabiliste

Contrairement aux méthodes probabilistes, la mise en œuvre des méthodes non probabilistes n’obéit à aucune règle de hasard. Les méthodes non probabilistes sont plutôt définies selon des critères de faisabilité, de ressemblance à la population cible et de critères subjectifs dépendant du choix des enquêteurs.

De convenance : le choix de l’échantillon d’étude est les commodités. Le chercheur sélectionne les individus qui sont à sa portée, pour des contraintes liées à l’accessibilité, de praticité et du coût.

De jugement : encore appelé échantillonnage par choix raisonné est une technique d’échantillonnage non probabiliste basée sur le jugement du chercheur par rapport à certaines caractéristiques de la population.

Boule de neige : Les unités de l’échantillon sont sélectionnées à travers des réseaux d’amitié, les individus sont sélectionnés en fonction de leurs liens d’amitié avec un noyau d’individus.

Par quota : les unités sont sélectionnées de façon accidentelle, mais avec un quota à atteindre. On peut demander l’enquêteur de se mettre sur un carrefour et d’enquêter 10 hommes et 15 femmes.

Volontaire : l’échantillon est constitué sur la base des volontaires.

Retrouvez plus de détails sur ces différentes méthodes dans le cours de Christine Dufour et Vincent Larivière (2012)[1] et le document de Marie-Fabienne Fortin (2010)[2].

Saisie des données et exploitation statistique

Pour effectuer la saisie des données, il faut disposer d’un masque de saisie. Le masque de saisie est un modèle électronique du questionnaire, définissant les zones de saisie (champs), leur type (numérique, date, caractères…), ainsi que des contrôles de saisie : contraintes sur l’ordre de saisie et des valeurs qui peuvent être renseignées.

Plusieurs logiciels permettent de concevoir des masques de saisie : CSPro, ÉpiInfo, Excel, SPSS ou encore Accès (saisie décentralisée).

Il est important de procéder à une bonne organisation de la saisie des données en veillant au matériel utile, au personnel nécessaire ainsi qu’au suivi quotidien des agents et agentes de saisie.

Exemple :

Si la taille de l’échantillon de l’enquête est de 4 500 ménages, et chaque ménage prend en moyenne 20 minutes de saisie, le temps nécessaire pour la saisie de l’ensemble des ménages est de 1 500 heures. Si chaque agent ou agente de saisie travaille 40 heures par semaine et si vous avez 8 semaines pour achever la saisie des données, vous aurez besoin de 5 ordinateurs et de 5 agents ou agentes de saisie. Il arrive parfois qu’une équipe de deux agents de saisie travaillent sur le même ordinateur. Chaque agent travaillera, par exemple, pendant 6 heures de telle sorte qu’un ordinateur soit employé pendant 12 heures par jour.

Il est préférable de commencer la saisie des données pendant que les enquêteurs sont sur le terrain. Ceci permet de repérer et de corriger des erreurs que certains enquêteurs ou équipes peuvent commettre. Les problèmes sérieux qui peuvent échapper à l’attention du superviseur de terrain peuvent ainsi être détectés rapidement, suffisamment tôt pour reprendre la formation du personnel de terrain et corriger les erreurs importantes.

Les figures suivantes montrent diverses modalités d’organisation de la saisie des données. Commentez ces figures.

Après l’opération de collecte de données, il est important de réaliser un feedback et un bilan sur le déroulement de l’enquête. Cela permet de contrôler les phénomènes parasites (effet enquêteur, effet répondant).

Il faut ensuite finaliser la codification notamment au niveau des questions ouvertes ou des questions donnant lieu à de nouvelles modalités. À cet effet, il faut transformer les modalités en codes alphanumériques (ceci peut être fait dès la conception du questionnaire). Il faut aussi prévoir un code pour l’absence de réponse et respecter certaines conventions.

Exemple :

Homme=1, Femme=2

Oui=1, Non=0 ou Oui=O, Non=N, mais attention au mélange de la lettre O et du nombre 0.

La saisie des données exige une certaine concentration. En général, les agents de saisie ne doivent pas quitter leurs machines alors qu’ils sont au milieu de la saisie d’une fiche. Avant de prendre un temps de repos ou d’arrêter le travail pour la journée, tout le questionnaire en cours doit être complètement saisi. Les données peuvent être saisies sur le disque dur de l’ordinateur et puis transférées (sur une disquette, par exemple) sous forme non apurée au superviseur pour qu’il en prenne copie sur son ordinateur.

Il est important de minimiser les erreurs de saisie des données autant que possible durant cette phase. Une façon très efficace d’accomplir cela est la saisie double des questionnaires par deux agents différents. Les deux fichiers sont ensuite comparés pour incohérences, et ces incohérences sont corrigées. Une autre approche consiste à saisir les données une seule fois, mais à procéder à un certain nombre de vérifications pour éviter les erreurs au moment de la saisie : c’est la saisie intelligente. Quand les données d’une fiche sont saisies, le programme procède à un contrôle d’étendue, de passage et de cohérence : c’est le contrôle de données. Ceci garantit, pour une rubrique donnée qu’aucune valeur saisie n’est en dehors de l’étendue donnée des réponses pour cette rubrique, que le nombre correct d’enregistrements est saisi, que les étendues correctes sont saisies et qu’il y a cohérence interne des données.

Dans le cas où on ne dispose pas de ce genre de procédure de saisie intelligente, une fois donc que l’ensemble des données est saisi, il faut réaliser le contrôle de qualité (tri à plat, par exemple) et nettoyer la base de données (apurement des données). L’expérience a montré par exemple que plusieurs erreurs d’étendue sont des erreurs de saisie et qu’il peut être très utile de les contrôler et de les corriger si le contrôle des données est bien réalisé. Il s’agit d’identifier les données aberrantes et de traiter (ou gérer) les valeurs manquantes pour préparer le jeu de données à l’analyse.

On peut utiliser par exemple la statistique descriptive comme méthode de vérification.

Exemple de contrôle :

Valeurs aberrantes; âge moyen = 120. On peut identifier les valeurs aberrantes à partir d’une boite à moustache.

Traitement des valeurs manquantes

Les valeurs manquantes ne doivent pas être ignorées lors d’une analyse statistique. Il faut les accorder une attention en utilisant des moyens de traitement en fonction de leur proportion et leur type.

On distingue principalement deux méthodes de traitement de valeurs manquantes, vous pouvez choisir de les supprimer ou de les imputer. Mais avant toute opération il important de se demander les motifs des valeurs. Les valeurs manquantes sont-elles distribuées aléatoirement ? Les valeurs manquantes sont-elles liées à des valeurs d’une variable (les sauts dans le questionnaire)

La suppression des données manquantes se rapporte à deux méthodes.

La première méthode consiste à ne considérer que les individus pour lesquels toutes informations sont disponibles. On supprime du jeu de données les individus pour lesquels on observe de valeurs manquantes.

Pour éviter de supprimer trop d’individus, il est possible de faire la suppression par variables (deuxième méthode). C’est ce qui est fait automatiquement avec certains logiciels statistiques, tels que Stata, R. Les lignes comportant des valeurs manquantes lors d’une tabulation sont automatiquement supprimées (si rien n’est précisé). Ainsi la taille de l’échantillon varie d’une variable à une autre. Lorsque les valeurs manquantes sont dues à des sauts au niveau du questionnaire, il est préférable d’utiliser cette méthode.

Quelques méthodes d’imputation des valeurs manquantes

Il existe plusieurs méthodes d’imputation de valeurs manquantes. Les plus utilisées sont :

  • Complétion stationnaire: consiste à affecter aux valeurs manquantes la valeur la plus fréquente (le mode de la série).
  • Méthode des plus proches voisins: affecte aux valeurs manquantes la valeur moyenne de ses voisins. Elle consiste à identifier (classification) un groupe d’individus le plus proche que possible des individus qui présentent des valeurs manquantes et à affecter en suite la valeur moyenne des individus de ce groupe.
  • Complétion par une combinaison linéaire: cette méthode consiste à remplacer les valeurs manquantes par une combinaison linéaire des observations. Elle est utilisée souvent pour les variables quantitatives. Comme exemple, on peut remplacer les valeurs manquantes par la moyenne (imputation par la moyenne) ou par la médiane (imputation par la médiane). L’inconvénient de cette approche est qu’elle conduit à une sous-estimation de la variance.

Une fois que les corrections concernant les incohérences ont été effectuées et que les imputations sont faites, les données sont « nettoyées » et la base est prête pour l’analyse.

La base de données peut donc être soumise aux analyses diverses. À cet effet, on utilise entre autres méthodes de la statistique descriptive, la statistique inférentielle et les méthodes avancées.

L’analyse des données doit permettre de répondre à la question principale de recherche (aux questions spécifiques évidemment). On peut utiliser à cet effet des tableurs comme Excel ou des logiciels comme SAS, STATA, SPSS, R, etc.

Enfin, il est recommandé de réaliser une analyse critique de l’ensemble du processus de collecte et d’exploiter les données aussi bien en ce qui concerne le gouvernement qu’en ce qui concerne le caractère scientifique.

  1. Analyse statistique de données quantitatives

Il s’agit de résumer l’information contenue dans la base de données avec des méthodes et outils statistiques. Dans la base de données, chaque question renvoie à une variable quantitative ou qualitative. La description d’une variable ou la mise en relation de deux ou plusieurs variables en fonction de la nature ces dernières (quantitative continue, nominale, ordonnée).

  • 1. Les tris à plat

Il est question ici de synthétiser les informations d’une variable dans un graphique ou un tableau. Lorsque la variable est nominale, on représente les modalités par ordre décroissant des choix afin de mettre le mode en valeur. Dans le cas des variables ordinales, en revanche, l’ordre des modalités sera respecté dans la présentation puisqu’il répond à une logique.

Lorsque la variable est quantitative, continue, en plus d’utiliser les paramètres de tendance et de dispersion, on peut également recoder les données en catégories pour une représentation graphique.

Les mesures de tendance centrale permettent de résumer un ensemble de données relatives à une variable quantitative. Elles permettent de déterminer une valeur « typique » ou centrale autour de laquelle des données ont tendance à se rassembler.

  • La moyenne

L’indicateur le plus couramment utilisé est la moyenne empirique ou arithmétique.

On appelle moyenne arithmétique  , la quantité  

  • La médiane

La médiane, quantile d’ordre 2, est un indicateur de tendance centrale plus robuste que la moyenne. Elle divise la population en deux de sous-groupes de même effectif.

La médiane Me d’une variable X dont les valeurs observées ont été rangées dans l’ordre croissant, se définit comme suit : si N est pair et   si N est impair, avec N l’effectif total.

  • Le mode

Enfin, un indicateur de position souvent utilisé dans le cas d’un caractère discret est le mode, défini comme la valeur la plus fréquente dans la série d’observations. Pour une variable continue, cette notion ne s’applique pas directement, mais on peut définir une classe modale, lorsque les données ont été préalablement catégorisées.

 

Paramètres de dispersion

Un paramètre de dispersion est un indice du degré d’étalement des données qui rend compte de leur variation, le plus souvent par rapport à la moyenne. Entre autres mesures de dispersion, on retient principalement l’étendue, la variance, l’écart-type et le coefficient de variation.

  • Étendue :

C’est la différence entre la grande et la plus petite observation d’une distribution donnée. Cependant, il ne donne aucune information sur la distribution de la fréquence des valeurs ni sur la concentration de la plupart d’entre elles. La variance et l’écart-type fournissent cette information.

  • Variance :

La variance représente la valeur globale de dispersion des observations par rapport à la moyenne.

La variance dans une population s’écrit : . La variance d’un échantillon de taille n s’écrit par contre comme suit :  L’écart-type est égale à la racine carrée de la variance et prend donc la même unité que les observations.

Plus grand est l’écart type, plus les observations sont écartées de la moyenne. Inversement, plus petit est l’écart type, plus les données se concentrent autour de la moyenne.

  • Coefficient de variation

Le coefficient de variation est une autre mesure qui sert à comparer deux distributions de fréquences. Il s’agit d’une mesure relative de dispersion qui permet d’évaluer l’homogénéité des données d’une distribution. Plus le coefficient de variation () est faible, plus les données sont homogènes et plus il est élevé moins elles le sont. Le coefficient  de variation s’écrit:

  • 2. Les tris croisés

Les tris croisés permettent de faire des analyses de la répartition de la population d’étude selon deux variables prises simultanément. Ces variables sont présentées dans des tableaux croisés ou des graphiques qui offrent la possibilité d’examiner la distribution conjointe des deux variables et font apparaître les associations (relation) entre elles. Les méthodes d’appréciation de la relation entre deux variables sont divergentes selon la nature des variables en jeu.

Tableau 1.

L’analyse des résultats consistera à mettre en relation les variables et comparer les résultats obtenus avec ceux qu’on attendait au moment de la formulation des hypothèses.

  • 1. Analyses multivariées 

L’analyse multivariée désigne un ensemble de méthodes et de techniques destinées à synthétiser l’information issue de plusieurs variables pour décrire la population d’étude ou expliquer un phénomène. Les méthodes d’analyse multivariée sont diverses selon l’objectif de la recherche et la nature des variables présentes dans la base de données. On distingue deux grandes familles de méthodes d’analyse multivariée : méthode descriptive et méthode explicative.

Les méthodes descriptives visent à résumer l’information contenue dans plusieurs variables, sans privilégier l’une d’entre elles en particulier. Les méthodes descriptives, les plus utilisées sont entre autres :

  • Analyse en composante principale (ACP) : applicable sur un ensemble de variables quantitatives
  • Analyse factorielle des correspondances (AFC) : applicable sur deux variables qualitatives
  • Analyse en correspondances multiples : applicable sur un ensemble de variables qualitatives (et / ou quantitatives)
  • Classification

Les méthodes explicatives quant à elles expliquent un phénomène ou les variations d’une variable (variable à expliquer) par un ensemble de variables (variables explicatives) présentes dans la base de données. Le tableau ci-après présente quelques méthodes usuelles en fonction de la nature des variables.

Tableau 2. Variables explicatives

Bibliographies commentées

 

Benoît Gauthier (1992), Recherche sociale. De la problématique à la collecte des données (2e éd.), Sillery (Québec), Presses de l’Université du Québec.

 

de Singly François   (2012), Le questionnaire. L’enquête et ses méthodes (3e édition), Armand Colin, coll. « 128 ».

 

Georges Granai (1967), Techniques de l’enquête sociologique, in George Gurvitch, Traité de sociologie, tome premier. Paris, Presses Universitaires de France, pp. 135-151.

 

David C. Howell (2008), Méthodes statistiques en sciences humaines. Traduction de Marylène Rogier, Vincent Yzerbyt et Yves Bestgen, 2e édition. Bruxelles : De Boeck.

 

Olivier Martin (2005), L’analyse de données quantitatives. L’enquête et ses méthodes, Armand Colin, coll. « 128 ».

 

Quivy, R. et Van Campenhoudt, L. (2011), Manuel de recherche en sciences sociales, 4em édition, Paris, Dunod. P. 139-181.

 

Jean-Louis Genard et Marta Roca (2014), Les dispositions éthiques dans la conduite de l’enquête et la livraison publique de ses résultats, Sociologie [En ligne], Dossiers mis en ligne le 24 juin 2014, DOI : https://doi.org/10.4000/sociologies.4720