Les outils numériques d’analyse de données (logiciels, bases de données)

Célya Gruson Daniel

Module 8 : Stratégies d’analyse des informations collectées

40 Les outils numériques d’analyse de données (logiciels, bases de données)

Célya Gruson Daniel

Présentation du thème et de l’autrice du chapitre

Ce chapitre présente quelques outils numériques utiles lorsque vous analyserez les données de votre enquête, que ce soit dans une démarche quantitative ou qualitative. Mais en premier lieu, quelques informations sont précisées sur les bases de données librement accessibles et réutilisables en ligne. Cette fiche introduit également la notion de sciences des données (data science), les interfaces/langages de programmation qui y sont associés, mais aussi les méthodologies de travail qu’elles impliquent.

Après un parcours en neurosciences cognitives en France, Célya Gruson-Daniel s’est spécialisée dans la communication scientifique en ligne. Elle a co-fondé par la suite (2013) le collectif HackYourPhD (désormais HackYourResearch) pour explorer de façon collective les questions associées aux transformations des pratiques de recherche avec le numérique. La défense d’une open science est au coeur des sujets d’intérêt de ce collectif. En parallèle, elle a mené un doctorat entre la France et le Québec en sciences de l’information et de la communication pour questionner les différentes conceptions de l’open en sciences. Elle se définit aujourd’hui comme praticienne-chercheuse et mène différentes études sur la science ouverte et ses modalités d’appropriation. Par différents projets de recherche-action, elle cherche des leviers d’actions (juridique, économique, social, cognitif) pour faciliter le développement de modèles ouverts durables et respectueux des communautés qui les composent.

Une grande partie de votre recherche doctorale consistera en une ou plusieurs phases d’analyse des informations que vous allez recueillir. Les termes de « données », de data ou encore d’éléments empiriques sont employés pour désigner ces ressources qui vous servent de substrat pour répondre à la/aux question-s de recherche que vous vous posez.

Que vous employez des méthodes dites qualitatives ou quantitatives, plusieurs outils numériques sont à votre disposition pour analyser ces données, mais aussi, en premier lieu, pour accéder à des bases de données. Dans ce chapitre, sera tout d’abord évoqué l’accès à des bases de données dites ouvertes (open data). Divers logiciels employés pour analyser vos données, que ce soit dans une démarche qualitative aussi bien que quantitative, seront ensuite décrits.

**Des données librement accessibles et réutilisables (le mouvement de l’open data)**

L’accès aux données à toutes et tous et leur libre réutilisation s’inscrit dans un mouvement général de l’open qui s’est développé avec le déploiement des technologies numériques et de l’usage d’Internet et du web. Le terme open data désigne plus spécifiquement l’ouverture des données issues des administrations publiques ou bien des données considérées comme d’intérêt général. L’ouverture consiste alors à pouvoir accéder à ces données dans des formats ouverts (non propriétaires), mais aussi de pouvoir les réutiliser et les redistribuer. Au sein des milieux de la recherche, l’open access traduit par libre accès ou accès ouvert s’insère dans cette mouvance de l’open. Les données représentent dans ce cas les articles scientifiques contenus dans des bases de données bibliographiques. Il existe également des bases de données regroupant différents jeux de données (par exemple des données météorologiques, astronomiques, épidémiologiques, etc.). L’ensemble de ces éléments peuvent constituer des ressources pour votre corpus d’analyse accessibles librement en ligne. En fonction de votre recherche (thématique, données empiriques) vous pouvez consulter différents portails de données référençant des bases de données en open data. En voici quelques exemples :

Pour des données issues des administrations publiques, de plus en plus de pays ou d’institutions nationales ou supranationales proposent des portails de données ouvertes. Le portail UNdata regroupe par exemple l’ensemble des bases de données des organismes supraétatiques (ONU, WHO,FAO, etc.). Le site opendatasoft répertorie quelques milliers de portails open data dans le monde et notamment des Suds.
Pour des données ouvertes en recherche, plusieurs portails existent. Concernant les articles en open access, on peut consulter par exemple le DOAJ (Direct Open Access Journal). Le site web Listing of Open Access databases référence des bases de données en fonction de différents critères de recherche (thématiques, pays, éditeurs). Wikipedia propose également une liste des bases de données et moteurs de recherche en indiquant si elles sont librement accessibles ou bien payantes.

Lorsque vous téléchargez des jeux de données, faites bien attention au format dans lesquels vous les téléchargez. Les données en open data sont proposées normalement dans des formats ouverts (par exemple .csv, .json, .txt, .md), c’est-à-dire que vous pourrez les lire puis les manipuler avec des logiciels libres et open source (et non pas propriétaires). Notez bien également la date de téléchargement et l’auteur ou l’autrice de la base de données (si indiqué), qu’il s’agira de citer dans vos travaux. L’attribution est un élément essentiel dans une démarche de recherche ouverte.

Sachez également que plusieurs portails proposent des données partagées (et non pas ouvertes). Dans ce cas-là, les données ne sont pas librement accessibles et téléchargeables. Il s’agit de faire la demande d’accès à ces données et de signer un contrat d’utilisation indiquant les conditions d’utilisation de ces données. En France, le réseau Quetelet en SHS permet d’accéder à des données de statistiques nationales publiques (grandes enquêtes, recensement, etc.). La plateforme BeQuali donne, quant à elle, accès à des données issues de méthodes qualitatives (entretiens, observations, focus groups). Renseignez-vous auprès des chercheurs et chercheuses ou bien des bibliothécaires si des plateformes spécifiques sont développées au sein de votre institution ou de votre pays.

Analyse de données issues de méthodes qualitatives et quantitatives

Une fois votre corpus constitué, vous allez débuter votre analyse. Pour cela, différents logiciels sont à votre disposition en fonction des méthodes que vous souhaitez employer. Il est donc nécessaire d’avoir avant tout en tête le protocole de recherche que vous voulez suivre pour répondre à vos questions de recherche.

Attention, un logiciel n’est pas un outil miracle. Sans plan/devis de recherche clair, l’utilisation d’un logiciel deviendra plutôt une exploration trouble et souvent « sans fond »!

Par la suite, vous trouverez quelques logiciels employés pour du traitement de données dits quantitatifs aussi bien que des outils venant consolider votre analyse qualitative.

Il est important de distinguer ce que l’on entend par méthode d’analyse quantitative et qualitative. Les méthodes quantitatives consistent à effectuer un ensemble de manipulation et de traitement sur des données considérées comme des unités quantifiables (qu’il s’agisse de chiffres ou bien de textes). Les méthodes qualitatives sont basées sur une interprétation d’un corpus, qui peut aboutir sur un codage successif des éléments recueillis. Dans ce cas, les logiciels proposés viennent soutenir cette interprétation (visualisation du corpus, prise de note de l’analyse successive faite) et peuvent proposer également des fonctionnalités quantitatives suite au codage effectué.

Logiciels d’analyse quantitative : du traitement statistique aux méthodes numériques

Logiciels d’analyse statistique

Si votre corpus est constitué de données organisées sous la forme d’un tableau de données comportant des informations numériques (format .csv, .xls, etc.), vous souhaiterez certainement effectuer un ensemble de traitement statistiques sur ces données en employant différentes méthodes (analyse par régression linéaire, analyse factorielle, analyse multidimensionnelle, etc.). Pour cela, différents logiciels sont disponibles et permettent d’effectuer des analyses statistiques et de visualiser vos résultats. Les plus connus sont par exemple Statistica, Stata ou encore SPSS. Ces logiciels permettent également de travailler sur des données textuelles, mais d’autres outils ont été spécifiquement développés en sciences humaines et sociales pour le traitement statistique de corpus de texte. C’est le cas par exemple d’Alceste, d’iRamuteq ou bien encore de Prospero.

Ces outils informatiques ont été développées depuis les années 1990, mais avec le nombre de plus en plus importants de données dites nativement numériques issues d’Internet et du Web, de nouvelles méthodes dites « numériques » se sont développées pour traiter ces masses de données hétémogènes et les visualiser. Ces méthodes sont regroupées sous le nom de sciences des données (data sciences), elles se situent à la croisée entre statistiques et sciences computationnelles (computer science). L’approche est en effet plus globale qu’en statistique : il ne s’agit plus seulement d’analyser les données, mais aussi de penser leur collecte, leur mise en forme et « nettoyage » pour pouvoir ensuite opérer les traitements statistiques en tant que tels. D’un point de vue mathématique, des méthodes spécifiques se développent pour analyser ce grand nombre de données; c’est ce que l’on regroupe sous le terme de machine learning (apprentissage par la machine) ou de la dénomination générale d’intelligence artificielle. Bien que ces sciences des données soient majoritairement employées en STM, de nouveaux courants de recherche en SHS utilisent ces méthodologies. Ces discussions sont notamment au coeur de communautés regroupées sous le nom de Digital Humanities, Digital Methods (humanités numériques, méthodes numériques).

Langages de programmation et sciences des données

Sans rentrer dans le détail de ces méthodes numériques et de leur substrat mathématique théorique, on peut citer quelques logiciels basés sur des langages de programmation libres et open source employés aujourd’hui aussi bien en STM qu’en SHS. Les langages de programmation R et Python sont communément utilisés aujourd’hui et s’accompagnent de développement logiciels et modules pour faciliter leur utilisation ou bien proposer des traitements spécifiques.

Le langage R par exemple est associé au logiciel R studio qui est un environnement de travail pour faciliter la production de scripts en R et la lisibilité des résultats. D’autres logiciels tels qu’iRamuteq ou RTemis sont basées entre autre sur R pour la manipulation et l’analyse de données textuelles.
Le langage Python est largement employé en STM mais également en SHS. En plus de modules (on parle également de librairies) d’analyse statistique, il permet aussi de travailler sur de grandes bases de données (lien avec le langage SQL), mais aussi d’appliquer un ensemble d’algorithmes (suite d’instructions logiques compréhensibles par une machine) issu du machine learning. Python peut être employé en ligne de commande ou bien via différentes applications notamment les jupyter notebook.

Quelques spécificités des langages de programmation et organisation des communautés libres et open source

Que ce soit Python ou R, ces deux langages ont été développés dans une approche libre et open source. Les modalités d’organisation sont différentes du développement de logiciels propriétaires. Tout le monde peut contribuer au développement du langage mais aussi proposer des librairies/modules spécifiques comportant un ensemble de scripts de base qui, par la suite, seront des fonctions facilement utilisables. Il est important de connaitre les usages de votre communauté de recherche (emploie-t-elle R, Python ou bien un autre langage?) pour pouvoir bénéficier du travail déjà effectué par d’autres chercheurs et chercheuses, mais également demander de l’aide (via des forums, ou lors de conférences).

D’autres logiciels utiles

D’autres logiciels pourront être utilisés pour des analyses spécifiques, par exemple de l’analyse et de la cartographie de réseaux. C’est par exemple le cas du logiciel Gephi (lui aussi libre). Il permet, à partir d’un jeu de données, de construire des graphes et d’opérer un ensemble de traitements statistiques. Attention néanmoins à ne pas tomber dans le piège de l’effet « wahou » des visualisations. Cette application propose une interface où il est aisé de cliquer sur des boutons, d’appliquer différents traitements et d’obtenir des visualisations sans comprendre les étapes successives opérées sur les données.

Gardez à l’esprit qu’il est important de porter un regard critique sur ces méthodologies (éviter l’effet « boite noire ») et l’influence des visualisations sur l’interprétation que l’on porte à son corpus de données.

D’autres logiciels sont disponibles pour gérer et analyser des données mais aussi obtenir aisément des visualisations. C’est le cas de Data Studio ou bien de Tableau (pour les visualisations essentiellement) ou encore de la plateforme CorText qui propose un ensemble d’outils de traitement d’analyse textuelle. Ces outils sont plus faciles à prendre en main et intuitifs en termes d’interface, ce qui est certes une bonne chose. Il n’est pas question de vous transformer en ingénieur-e-s. Néanmoins, faites appel à votre regard critique de chercheurs et chercheuses en SHS pour réfléchir sur l’usage de tels dispositifs socio-techniques.

Les logiciels d’analyse qualitative et mixte

Plusieurs logiciels peuvent être aussi utilisés pour venir consolider votre démarche de recherche qualitative. Ici, il n’est pas seulement question d’opérer des traitements quantitatifs sur vos éléments empiriques (textuels), même si la plupart de ces logiciels proposent également des fonctionnalités d’analyse quantitative. Il s’agit d’assister l’interprétation de votre corpus. Ces logiciels permettent de coder et d’annoter des documents, des images, mais aussi des pages Web. Ils proposent aussi des options de recherche ou bien encore un suivi de l’ensemble des actions menées pour garantir la transparence du processus d’analyse. Ces logiciels peuvent par exemple être employés dans une démarche en théorisation ancrée dans laquelle différentes étapes de codage successives sont proposées ou bien également dans l’emploi de méthodes mixtes. Voici ci-dessous la description de quelques logiciels pour vous donner une idée des fonctionnalités à disposition. Pour découvrir d’autres logiciels, n’hésitez pas à consulter la page Wikipedia intitulée Computer-asssisted qualitative data analysis software.

NVivo est un logiciel propriétaire qui permet d’étiqueter des éléments de votre corpus, l’organiser en différentes sous catégories, faire des recherches sur les étiquettes que vous avez faites, prendre des notes sur chaque étiquette définie, etc. Des options quantitatives sont également proposées (nuages de mots clefs, indication des mots les plus utilisés, etc. ). NVivo permet également de faire une capture d’écran de pages Web (N-catpure) et de pouvoir les analyser par la suite dans le logiciel.

Attention, néanmoins, ce logiciel est propriétaire; il vous sera nécessaire d’utiliser ensuite ce logiciel pour mener toutes vos recherches et payer une licence. Il ne sera pas possible d’ouvrir les formats des fichiers .nvpx/.nvcx dans d’autres logiciels.

D’autres logiciels tels que QDA miner ou Dedoose sont disponibles et se positionnent en tant que logiciels ou applications adaptés aux méthodes mixtes. Dedoose offre la possibilité de travailler à plusieurs sur un même projet. À la différence d’autres logiciels où on paye une licence pour y accéder, ici, il s’agit d’abonnements payants (au mois, à l’année) avec des tarifs distincts selon les fonctionnalités.

L’utilisation de ces différents logiciels devront s’accompagner coûte que coûte d’une documentation des différentes étapes de votre enquête pouvant s’appuyer elle-même sur des outils numériques.

En théorisation ancrée, la plateforme Cassandre (logiciel libre) se positionne comme un journal de bord qui permet de rédiger au fur et à mesure des comptes-rendus, schématiser les conceptualisations issues de son analyse et travailler en équipe.

Pour conclure, l’utilisation de logiciels d’analyse de données ou bien l’accès à des bases de données seront des activités essentielles de vos recherches. Néanmoins, n’oubliez pas qu’une bonne compréhension du fonctionnement de ces logiciels (traitements qu’ils opèrent) tout autant qu’un regard critique sur la constitution des jeux de données sont nécessaires pour justifier leur emploi et garantir la qualité de votre projet doctoral! Le « numérique » est en soi un sujet de réflexion en SHS, et il amène à nous questionner sur nos propres pratiques de recherche et plus généralement sur les modalités contemporaines de production et de diffusion des savoirs.

Bibliographie commentée

Le portail UNdata : un portail qui regroupe les bases de données des organismes supraétatiques (ONU, WHO,FAO, etc.).

opendatasoft : un site Web qui répertorie quelques milliers de portails open data dans le monde.

Listing of Open Access databases : un site Web qui référence des bases de données en fonction de différents critères de recherche (thématiques, pays, éditeurs).

La liste Wikipedia base de données et de moteurs de recherche académique : une liste sur Wikipedia qui référencie et met à jour les bases de données et moteurs de recherche académique.

Le réseau Quetelet : un réseau français en SHS qui permet d’accéder à des données de statistiques nationales publiques (grandes enquêtes, recensement, etc.).

La plateforme BeQuali : plateforme française qui met à disposition des entretiens, des groupes focus.

R studio : un environnement de travail pour faciliter la production de scripts en R et la lisibilité des résultats. iRamuteq ou RTemis : logiciels basées entre autre sur R pour la manipulation et l’analyse de données textuelles.

Le langage Python : langage de programmation employée entre autre pour l’analyse de données (statistiques, fouille de données et de texte).

Gephi : un logiciel pour l’analyse de réseau et la réalisation de cartographie.

Data Studio ou Tableau : outils d’analyse et de visualisation de données en ligne.

N-Vivo : logiciel propriétaire pour assister la démarche d’analyse qualitative avec la proposition de fonctionnalités d’analyse quantitative textuelle.

N-catpure : une option proposée par N-vivo pour réaliser des captures d’écran de pages Web qui peuvent être ensuite analysées dans N-Vivo.

QDA miner ou Dedoose : logiciel et application en ligne d’analyse qualitative et mixte.

Cassandre : plateforme en ligne de journal de bord adapté à une démarche par théorisation ancrée.

Licence

Symbole de License Creative Commons Attribution - Partage dans les mêmes conditions 4.0 International

Guide décolonisé et pluriversel de formation à la recherche en sciences sociales et humaines Droit d'auteur © par Florence Piron et Élisabeth Arsenault est sous licence License Creative Commons Attribution - Partage dans les mêmes conditions 4.0 International, sauf indication contraire.

Des données librement accessibles et réutilisables (le mouvement de l’open data)