Données textuelles

Les chercheurs utilisent des données textuelles, dites non structurées en complément de leurs bases de données quantitatives, mais les coûts induits, même dans le cas de corpus de taille moyenne, freinent leur utilisation.

L’analyse de texte automatisée réduit ces coûts en introduisant une méthodologie de traitement normalisée, et d’après Grimmer, J., & Stewart, B.[1] le texte « devient donnée » ([1] (2013) Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis, 21(3), 267-297).

Pourquoi une analyse de Données Textuelles ?

L’analyse de données textuelles permet de faire émerger le contenu de textes au moyen de méthodes statistiques exploratoires multidimensionnelles, qui servent à repérer les structures des tableaux lexicaux associés à ces données massives. La présence simultanée de mots (cooccurrence) dans des collections de textes (bruts ou découpés) détectée automatiquement sans à priori, aide le chercheur à identifier des univers lexicaux associés à des thématiques.

Ainsi, l’analyse quantitative de données textuelles, facile à mettre en œuvre pour les chercheurs, est un outil d’exploration ultra-rapide complémentaire à l’analyse qualitative.

Exemples de types de données

Les textes dont sont issues ces données sont de nature variés : questions ouvertes ou entretiens (données d’enquêtes), flux RSS ou blogs (données du Web), discours ou textes de lois (Sciences Politiques), titres, articles ou ouvrages (littérature).

Comment collecter ces données ?

Le volume de stockage des collections de textes et l’extraction de contenu de sites Web (techniques de web scraping) via un script ou un programme dédié sont de plus en plus facilités mais il faut être très attentif aux les questions de droit d’utilisation de ces données.

A lire par exemple :

Collecte de données textuelles par web scraping, par Lise Valdor

Quels sont les freins à leur utilisation ?

La préparation de ces données non structurées nécessite en amont une opération qui peut générer un coût induit important selon la nature des collections de textes : saisie avec des abréviations, fautes d’orthographe, encodage particulier.

Comme pour toute analyse statistique, la collection de textes à analyser doit être cohérente par rapport à la problématique de recherche et la connaissance spécifique du chercheur est indispensable pour faire des choix de paramétrage des méthodes et règles lexicales retenues avec les logiciels et interpréter les résultats produits.

Comment préparer mes données ?

Les méthodes d'analyse textuelle peuvent s'appliquer à des corpus qui diffèrent par leur nature mais qui sont codés dans des tableaux statistiques de même structure pour être traités automatiquement.

A lire par exemple :

Constituer un corpus Europresse utilisable dans R, Iramuteq et TXM, par Corentin Roquebert

Links for more info

Bibliographie